學習筆記

成品介紹

本次專案以 Kaggle 機器學習與資料科學問卷為基礎，結合外部薪資與經濟資料，透過視覺化方式探索資料分析師的輪廓、技能需求與職涯走向。專案使用了 pandas 與 sqlite3 建立了資料庫，利用 matplotlib 進行概念驗證，最後使用 plotly 做出成品，並將成品部署在 GitHub 上展示。。

分析目標

了解資料分析相關職位的實際樣貌與常見技能。
修正對職涯的錯誤認知，釐清個人學習與發展方向。

參考資料與資料來源

參考資料：資料分析的七個練習專案：累積個人作品集
Kaggle 競賽：2020、2021、2022 問卷資料。
GDP 資料：Gapminder Fast Track。
薪資資料：ILO（國際勞工組織）。

資料處理與視覺化技術

清理方式：統整不同年度欄位名稱與回覆格式，處理缺漏與不一致值。
視覺化工具：Plotly（互動式成果展示）、Power BI（初期驗證）

個人收穫

透過此次專案，我學會如何整理複雜資料並從中萃取關鍵洞察，也更明確自己的職涯方向與技能落差。這是我第一次將跨年度資料統整並視覺化成系統化的作品。

專案紀錄與進程

以下為本專案從資料清理到視覺化的完整實作記錄，包含每階段的筆記與驗證過程：

數據清理過程 1：首次資料檢視與基礎清理
數據清理過程 2：補強欄位對應與資料整併
概念驗證：視覺化圖表驗證與可行性測試
分析過程：正式分析邏輯、分段與圖表說明
GitHub 原始碼：包含資料處理與圖表繪製程式碼

作品展示

基礎輪廓分析

發現：資料群體以年輕、男性、學士或碩士學位，樣本集中在印度與美國，薪資欄位清理後僅保留 9,725 筆有效資料。

視覺化成果：

觀察發現：
- 年齡集中在 25–29 歲，主力學歷為學士與碩士。
- 性別明顯偏男性，樣本數最多的地區為印度與美國。
- 年薪欄位為最需清理部分，誤填、遺漏與極端值比例高，經清理後僅剩 9,725 筆有效樣本。

行動與策略：
- 進行薪資分析時，需納入地區經濟背景，避免以全球標準直接比較。
- 後續薪資視覺化以「地區、經驗、職位、技能」為分層基礎，確保解釋具備相對性與上下文。

技能與工具分析。

發現：Python 是分析師標配技能，視覺化工具與 ML 框架廣泛應用，SQL 使用率不如預期，但仍為加分技能。

視覺化成果：

觀察發現：
- Python 使用率最高，搭配常用工具為 Matplotlib、Seaborn 與 scikit-learn。
- 超過 70% 受訪者表示曾使用過至少一種 ML 框架，顯示建模能力為常態化技能。
- SQL 與資料庫連接工具的使用比例約 40–50%，低於預期，可能因部分分析師無直接資料庫權限。

行動與策略：
- 鞏固 Python 核心技能後，我將進一步強化視覺化與 ML 實作能力。
- 後續將以專案實作方式串連資料清理、建模與商業解釋，培養端對端分析流程能力。

工作內容與公司環境。

發現：資料分析職位橫跨多產業，以科技與金融為主。職責涵蓋分析、ML 與資料基礎建設，顯示跨職能需求上升。

視覺化成果：

觀察發現：
- 常見職稱為 Data Scientist、Data Analyst 與 Software Engineer，Data Analyst 有明顯上升趨勢。
- 工作職責主要為「分析資料以影響決策」（約 50%），其次為建模與資料基礎建設（約 25–30%）。
- 公司類型多元，大型企業與中小型公司比例接近。

行動與策略：
- 我會以「資料支援決策」為核心能力，強化資料解讀、視覺呈現與指標設計技巧。
- 透過線上課程、實戰專案探索不同產業需求，評估最適合自身背景與興趣的工作環境。

學習資源與趨勢追蹤。

發現：學習方式轉向數位與自主化，線上課程、Kaggle、YouTube、社群平台成為主要工具。

視覺化成果：

觀察發現：
- 傳統學位不再是唯一學習途徑，Coursera、Kaggle Learn 與 YouTube 為最常見平台。
- Kaggle 在實作與實戰應用方面具有明顯優勢；YouTube 與社群提供快速吸收與靈感來源。
- 在職轉職者更偏好彈性、成本低、實用導向的學習資源。

行動與策略：
- 繼續以線上課程學習基礎，搭配 Kaggle 進行資料處理與視覺化實作。
- 將每個主題建立「學習 → 實作 → 應用 → 回顧」迴圈，提升學習轉化效率。

薪資與經驗分析。

發現：地區差異對薪資影響最大，經驗次之，技能數量非絕對指標。

視覺化成果：

觀察發現：
- 北美與大洋洲的從業者薪資遠高於亞洲與南美，落差可達 3–5 倍。
- 年資越多薪資提升越穩定，但在亞洲地區成長幅度較緩慢。
- 使用 2–3 種程式語言即可勝任多數職位，技能數量與薪資並非線性關係。

行動與策略：
- 認知薪資與區域經濟緊密相關，未來策略應依地區特性設計學習與求職路徑。
- 重視技能「品質」與「應用深度」，避免盲目追求工具數量。

適合度與策略反思。

資料分析職位的技能需求與我目前能力相符，但仍需加強機器學習與商業思維。在實作過程中也發現自己蠻喜歡思考處理資料與提煉洞察的過程，具備投入此領域的意願、動機與興趣。

職位需求概覽
- 必備技能：
  - Python 為標配語言。
  - 常見輔助工具包含資料視覺化工具（Matplotlib、Seaborn、Plotly 等）與 ML 框架（如 scikit-learn）。
  - 資料清理與格式轉換能力是基本門檻。
- 加分技能：
  - SQL 為重要輔助技能，尤其在資料抓取與初步處理上。
- 工作職責：
  - 多數職位以「分析資料以影響決策」為核心任務，其次是建模與資料基礎建設。
分析師的入門門檻為：資料處理、視覺化、機器學習、商業思維。

個人現況檢視
- 資料處理：
  - 能夠運用 Python、SQL、Excel 完成資料清理與基本轉換（如長寬表互轉、空值處理等）。
- 視覺化：
  - 能夠利用 Power BI、Matplotlib 與 Plotly，具備選擇圖表形式與設計視覺邏輯的基礎能力，能針對單變量與多變量資料進行呈現。
- 機器學習：
  - 初步接觸過 scikit-learn使用流程，接下來將深入學習線性回歸、邏輯回歸、決策樹、隨機森林與梯度提升模型等。
- 商業思維：
  - 初步接觸統計概念，後續將補強 KPI 指標設計、A/B Test 解讀與決策應用能力，提升資料與商業之間的連結力。

分析結論
- 職涯適合度：就技能面而言，我目前已具備資料處理與視覺化的基礎能力，分析職位的需求與我目前學習方向大致一致，後續將聚焦在補強模型理解與商業解釋力。
- 個人想法：在這次專案中，我發現自己對資料清理的過程十分投入，喜歡從雜亂的數據中整理出結構與意義，也蠻喜歡思考資料背後如何連結到實際決策的過程，讓我確定自己適合這個領域。

總結與未來規劃

這是我第一次進行跨年度的問卷分析，過程中收穫良多，也發現不少可改進之處。

技術反思：

若再次處理類似資料，我會更早建立欄位對應表與題目標準化規則。
這次因未察覺 2022 年 SQL 與視覺化工具題目的描述異動，導致中途才發現遺漏，雖然最後補齊。這讓我深刻體會資料清理的重要性不僅限於內容，還包括欄位邏輯的對應。

觀念轉變：

本次分析讓我體會到：資料分析的價值，不在於會寫多少程式，而在於是否能從數據中洞察問題、協助做決策。
程式語言固然重要，但它只是工具，資料分析的核心仍在「理解」與「解釋」。

學習盲點：

一開始我也是從 Python、SQL 入門，以為這樣就能成為資料分析師，但深入後發現，真正困難的是統計概念與商業判斷。
程式可以速成，但統計思維與商業邏輯則需要大量時間累積與實務練習。這也讓我理解：市面上課程雖多強調工具與程式，但核心能力常被忽略。

職涯思考：

此次分析的起點，是想尋找在 AI 時代中仍具未來性的職涯方向，而不是容易被自動化取代的工作，最終選定較為相關的數據類工作。

下一步計畫：

確認方向是否正確：
- 比對求職平台上的職缺，確認資料分析師的實際職責與我的期待是否相符，若差距大，會及早調整方向。
嘗試與市場接軌：
- 掌握約 60% 的基礎能力，下一階段將嘗試投遞初階職缺或實習，透過實務機會進一步驗證定位。
學習與精進路線：若選擇繼續往資料分析師方向發展，未來重點將放在：
- 強化統計與商業分析基礎（信賴區間、A/B 測試、回歸分析等）
- 練習「數據說故事」與報告撰寫（透過 Kaggle 專案或部落格實作）
- 強化資料視覺化技巧（持續學習 Power BI / Tableau）
- 補強資料產品與決策流程的理解（KPI 指標設計、策略圖表）
- 學習常見機器學習基礎模型（如：線性回歸、邏輯回歸、決策樹、隨機森林等）

心得與過程記錄

終於完成這份專案文案了！
從 3月底建立資料夾，到 4月初完成課程作業，再到今天正式整理完畢，中間經歷兩個多月的自學與反覆修正，這份作品算是從頭到尾重構了一次。

課程結束後我總覺得資料哪裡還可以更好，乾脆回頭重做：題目整理、欄位正規化、建立資料庫、視覺化與策略歸納，每一部分都重新設計。雖然耗時兩個多月，但我學到的遠超預期。

一開始只是覺得資料分析「看起來蠻有趣且與本職較為相關」，但完成這次專案後，確實對資料分析感興趣。
雖然目前還在起步階段，對統計與機器學習還不熟，但我已經找到了方向與目標，接下來會繼續努力深化這條路。

專案復原（Project Replication）

語言與模組（Languages & Modules）

dependencies：
- python 3.12.9
- pandas 2.2.3
- plotly 6.0.1
- matplotlib 3.10.0

匯出 environment.yml（Export environment.yml）

目的重現專案環境。

conda env export -n data_scientists_toolbox > environment.yml

如何重現（How to Reproduce）

安裝 Miniconda
依據 environment.yml 建立環境：
```
conda env create -f environment.yml
```
將 data/ 資料夾中的 kaggle_survey_2020_responses.csv, kaggle_survey_2021_responses.csv, kaggle_survey_2022_responses.csv 置放於工作目錄中的 data/ 資料夾。
啟動環境並執行 python create_kaggle_survey_db.py 就能在 data/ 資料夾中建立 kaggle_survey.db
啟動環境並執行 python create_longitudinal_analysis_plots.py 就能輸出六組水平長條圖。

練習專案三：資料科學家的工具箱 6