專案介紹 (Introduction)
Kaggle 的 Machine Learning & Data Science Survey 是一項年度性的 開源數據分析專案,主要目的是探索機器學習和數據科學領域的趨勢。該 調查 在 2017 年至 2022 年期間每年舉辦,數據來自 Kaggle 向其網站會員發送的 普查問卷。參與者可以透過 探索性數據分析 (EDA)、統計分析、視覺化 等方法,發掘數據科學界的重要趨勢。
註: 自 2023 年起,Kaggle 尚未發布新的調查數據,未來是否復辦仍未確定。
如何分析 Kaggle ML & DS Survey 資料?(新手指南)
如果你是第一次接觸 數據分析,這份 Kaggle 調查數據是一個很好的學習素材。我們可以透過以下步驟,來理解數據的內容並進行分析。
- 確認數據內容
- 這份調查包含哪些問題?
- 這些問題如何對應到數據欄位?
- 了解數據的結構
- 調查結果通常以 CSV 檔案 儲存,每一行代表一位受訪者的回答。
- 部分題目是 多選題,可能需要進一步處理。
- 進行數據清理 (Data Cleaning)
- 處理空值(Null)。
- 轉換數據格式 (例如,將貨幣單位統一)。
- 合併或整理多選題答案。
- 分析與探索數據 (EDA, Exploratory Data Analysis)
- 行業趨勢:哪些產業最常使用機器學習?企業 AI 投資趨勢如何變化?
- 工具與技術:最受歡迎的程式語言、開發環境、機器學習框架有哪些?
- 從業者背景:數據科學家的薪資分佈、學歷影響、職業發展如何?
- 學習資源:最多人使用的學習平台是哪些?新手應該從哪裡開始?
- 視覺化數據 (Data Visualization)
- 使用 Matplotlib、Seaborn 或 Plotly 製作直方圖、長條圖、熱圖等,讓趨勢更容易理解。
- 例如:想知道 Python 是否為主流語言?直接視覺化各語言的使用比例就能一目了然。
下一章