ตัวอย่างชุดข้อมูล (Sample Data) — ทักษะการวิเคราะห์ข้อมูล (ปวช.)
ชุดข้อมูลตัวอย่างสำหรับใช้ฝึก Data Cleaning / EDA / Visualization / Insight
ดาวน์โหลดได้ทั้งแบบ “โฟลเดอร์รวม” และ “รายไฟล์” ตามลิงก์ด้านล่าง
📁 โฟลเดอร์รวม (Drive Folder):
👉 เปิดโฟลเดอร์ Google Drive
ดาวน์โหลดรายไฟล์ (Direct Links)
| ไฟล์ | เปิดดู (View) | ดาวน์โหลด (Download) |
|---|---|---|
| 1_crash_reports.csv | View | Download |
| 2_Egypt_Developers_GitHub.csv | View | Download |
| 3_Nypddata_capstone.csv | View | Download |
| 4_smoking_driking_dataset.csv | View | Download |
| 5_heart_2020.csv | View | Download |
หมายเหตุ: ถ้ากด Download แล้วเบราว์เซอร์บล็อก ให้ใช้ View แล้วกดดาวน์โหลดจากหน้า Drive อีกที
สรุปชุดข้อมูล + Insight ที่ควรหา (แนะนำทำ Dashboard)
หมายเหตุ: ไฟล์เป็น
.csvขนาดใหญ่ แนะนำเปิดด้วย Python/Pandas, Power BI, หรือ Google Colab
ถ้าใช้ Excel แล้วช้า ให้ใช้เครื่องมือด้านบนแทน
| ไฟล์ | ข้อมูลเกี่ยวกับอะไร | ตัวอย่าง Insight ที่ควรหา (Example Insights) | แนวกราฟ/แดชบอร์ดที่แนะนำ |
|---|---|---|---|
| 1_crash_reports.csv | รายงานอุบัติเหตุ/เหตุการณ์ (Crash/Incident) มักมีวันเวลา สถานที่ ประเภทเหตุ ปัจจัยเสี่ยง หรือความรุนแรง | - จุดเสี่ยง (hotspot) ที่เกิดเหตุบ่อย - ช่วงเวลาที่เกิดเหตุสูงสุด (ชั่วโมง/วัน/ฤดูกาล) - ปัจจัยที่สัมพันธ์กับความรุนแรง (ถ้ามีฟิลด์รองรับ) |
- Line chart แนวโน้มตามเวลา - Bar chart แยกประเภทเหตุ/สาเหตุ - Heatmap/Map (ถ้ามีพิกัด/พื้นที่) |
| 2_Egypt_Developers_GitHub.csv | ข้อมูลนักพัฒนาจาก GitHub (โปรไฟล์ ภาษา repo stars followers ฯลฯ) | - ภาษาโปรแกรมยอดนิยม - ความสัมพันธ์ระหว่าง followers กับกิจกรรม (repos/stars) - กลุ่ม dev ตาม location (ถ้ามี) |
- Bar chart Top languages - Scatter followers vs repos/stars - Bar/Map ตาม location |
| 3_Nypddata_capstone.csv | ข้อมูล NYPD/เหตุการณ์อาชญากรรม (ประเภทเหตุ เวลา เขตพื้นที่ ฯลฯ) | - ประเภทเหตุที่พบมากสุดตามพื้นที่ - ช่วงเวลาที่เกิดเหตุถี่สุด (day/hour) - แนวโน้มเพิ่ม-ลดรายเดือน/ปี |
- Heatmap hour × day-of-week - Stacked bar by area & category - Line chart trend by month |
| 4_smoking_driking_dataset.csv | พฤติกรรมสูบบุหรี่/ดื่ม (อายุ เพศ สุขภาพ ฯลฯ ตามที่มีในฟิลด์) | - กลุ่มอายุ/เพศที่มีสัดส่วนสูบ/ดื่มสูงสุด - ความสัมพันธ์กับตัวชี้วัดสุขภาพ (BMI/โรค ฯลฯ) - แยกกลุ่ม risk profile (กลุ่มเสี่ยง) |
- Stacked bar สัดส่วนตามกลุ่ม - Boxplot health metric ตามกลุ่ม - Correlation heatmap |
| 5_heart_2020.csv | ข้อมูลสุขภาพ/โรคหัวใจ (ปัจจัยเสี่ยง เช่น อายุ ความดัน เบาหวาน BMI ฯลฯ) | - ปัจจัยเสี่ยงที่สัมพันธ์กับโรคหัวใจ - กลุ่มประชากรที่ risk สูง (age band + condition) - สัดส่วนโรคหัวใจในกลุ่มพฤติกรรมต่าง ๆ |
- KPI summary ของ risk factors - Bar chart เปรียบเทียบสัดส่วน - Feature importance (ถ้าทำ ML เบื้องต้น) |
แนวทางทำงานแนะนำ
1) Data Cleaning: missing, duplicate, data type, outlier
2) EDA: สถิติพื้นฐาน + กราฟหลัก
3) Dashboard: ตอบคำถามสำคัญอย่างน้อย 3–5 ข้อ/ชุดข้อมูล
4) Insight + Recommendation: เขียนเป็นภาษาคนทั่วไปอ่านรู้เรื่อง