ข้ามไปที่เนื้อหา

ตัวอย่างชุดข้อมูล (Sample Data) — ทักษะการวิเคราะห์ข้อมูล (ปวช.)

ชุดข้อมูลตัวอย่างสำหรับใช้ฝึก Data Cleaning / EDA / Visualization / Insight
ดาวน์โหลดได้ทั้งแบบ “โฟลเดอร์รวม” และ “รายไฟล์” ตามลิงก์ด้านล่าง

📁 โฟลเดอร์รวม (Drive Folder):
👉 เปิดโฟลเดอร์ Google Drive


ไฟล์ เปิดดู (View) ดาวน์โหลด (Download)
1_crash_reports.csv View Download
2_Egypt_Developers_GitHub.csv View Download
3_Nypddata_capstone.csv View Download
4_smoking_driking_dataset.csv View Download
5_heart_2020.csv View Download

หมายเหตุ: ถ้ากด Download แล้วเบราว์เซอร์บล็อก ให้ใช้ View แล้วกดดาวน์โหลดจากหน้า Drive อีกที


สรุปชุดข้อมูล + Insight ที่ควรหา (แนะนำทำ Dashboard)

หมายเหตุ: ไฟล์เป็น .csv ขนาดใหญ่ แนะนำเปิดด้วย Python/Pandas, Power BI, หรือ Google Colab
ถ้าใช้ Excel แล้วช้า ให้ใช้เครื่องมือด้านบนแทน

ไฟล์ ข้อมูลเกี่ยวกับอะไร ตัวอย่าง Insight ที่ควรหา (Example Insights) แนวกราฟ/แดชบอร์ดที่แนะนำ
1_crash_reports.csv รายงานอุบัติเหตุ/เหตุการณ์ (Crash/Incident) มักมีวันเวลา สถานที่ ประเภทเหตุ ปัจจัยเสี่ยง หรือความรุนแรง - จุดเสี่ยง (hotspot) ที่เกิดเหตุบ่อย
- ช่วงเวลาที่เกิดเหตุสูงสุด (ชั่วโมง/วัน/ฤดูกาล)
- ปัจจัยที่สัมพันธ์กับความรุนแรง (ถ้ามีฟิลด์รองรับ)
- Line chart แนวโน้มตามเวลา
- Bar chart แยกประเภทเหตุ/สาเหตุ
- Heatmap/Map (ถ้ามีพิกัด/พื้นที่)
2_Egypt_Developers_GitHub.csv ข้อมูลนักพัฒนาจาก GitHub (โปรไฟล์ ภาษา repo stars followers ฯลฯ) - ภาษาโปรแกรมยอดนิยม
- ความสัมพันธ์ระหว่าง followers กับกิจกรรม (repos/stars)
- กลุ่ม dev ตาม location (ถ้ามี)
- Bar chart Top languages
- Scatter followers vs repos/stars
- Bar/Map ตาม location
3_Nypddata_capstone.csv ข้อมูล NYPD/เหตุการณ์อาชญากรรม (ประเภทเหตุ เวลา เขตพื้นที่ ฯลฯ) - ประเภทเหตุที่พบมากสุดตามพื้นที่
- ช่วงเวลาที่เกิดเหตุถี่สุด (day/hour)
- แนวโน้มเพิ่ม-ลดรายเดือน/ปี
- Heatmap hour × day-of-week
- Stacked bar by area & category
- Line chart trend by month
4_smoking_driking_dataset.csv พฤติกรรมสูบบุหรี่/ดื่ม (อายุ เพศ สุขภาพ ฯลฯ ตามที่มีในฟิลด์) - กลุ่มอายุ/เพศที่มีสัดส่วนสูบ/ดื่มสูงสุด
- ความสัมพันธ์กับตัวชี้วัดสุขภาพ (BMI/โรค ฯลฯ)
- แยกกลุ่ม risk profile (กลุ่มเสี่ยง)
- Stacked bar สัดส่วนตามกลุ่ม
- Boxplot health metric ตามกลุ่ม
- Correlation heatmap
5_heart_2020.csv ข้อมูลสุขภาพ/โรคหัวใจ (ปัจจัยเสี่ยง เช่น อายุ ความดัน เบาหวาน BMI ฯลฯ) - ปัจจัยเสี่ยงที่สัมพันธ์กับโรคหัวใจ
- กลุ่มประชากรที่ risk สูง (age band + condition)
- สัดส่วนโรคหัวใจในกลุ่มพฤติกรรมต่าง ๆ
- KPI summary ของ risk factors
- Bar chart เปรียบเทียบสัดส่วน
- Feature importance (ถ้าทำ ML เบื้องต้น)

แนวทางทำงานแนะนำ

1) Data Cleaning: missing, duplicate, data type, outlier
2) EDA: สถิติพื้นฐาน + กราฟหลัก
3) Dashboard: ตอบคำถามสำคัญอย่างน้อย 3–5 ข้อ/ชุดข้อมูล
4) Insight + Recommendation: เขียนเป็นภาษาคนทั่วไปอ่านรู้เรื่อง