Data analysis

練習專案三:資料科學家的工具箱 1


專案介紹 (Introduction)

KaggleMachine Learning & Data Science Survey 是一項年度性的 開源數據分析專案,主要目的是探索機器學習和數據科學領域的趨勢。該 調查 在 2017 年至 2022 年期間每年舉辦,數據來自 Kaggle 向其網站會員發送的 普查問卷。參與者可以透過 探索性數據分析 (EDA)、統計分析、視覺化 等方法,發掘數據科學界的重要趨勢。

註: 自 2023 年起,Kaggle 尚未發布新的調查數據,未來是否復辦仍未確定。



如何分析 Kaggle ML & DS Survey 資料?(新手指南)

如果你是第一次接觸 數據分析,這份 Kaggle 調查數據是一個很好的學習素材。我們可以透過以下步驟,來理解數據的內容並進行分析。


  1. 確認數據內容
  • 這份調查包含哪些問題?
  • 這些問題如何對應到數據欄位?

  1. 了解數據的結構
  • 調查結果通常以 CSV 檔案 儲存,每一行代表一位受訪者的回答。
  • 部分題目是 多選題,可能需要進一步處理。

  1. 進行數據清理 (Data Cleaning)
  • 處理空值(Null)。
  • 轉換數據格式 (例如,將貨幣單位統一)。
  • 合併或整理多選題答案。

  1. 分析與探索數據 (EDA, Exploratory Data Analysis)
  • 行業趨勢:哪些產業最常使用機器學習?企業 AI 投資趨勢如何變化?
  • 工具與技術:最受歡迎的程式語言、開發環境、機器學習框架有哪些?
  • 從業者背景:數據科學家的薪資分佈、學歷影響、職業發展如何?
  • 學習資源:最多人使用的學習平台是哪些?新手應該從哪裡開始?

  1. 視覺化數據 (Data Visualization)
  • 使用 Matplotlib、Seaborn 或 Plotly 製作直方圖、長條圖、熱圖等,讓趨勢更容易理解。
  • 例如:想知道 Python 是否為主流語言?直接視覺化各語言的使用比例就能一目了然。


下一章