Data analysis

練習專案三:資料科學家的工具箱 6


專案簡介

本專案以 Kaggle 機器學習與資料科學問卷為基礎,結合外部薪資與經濟資料,透過視覺化方式探索資料分析師的輪廓、技能需求與職涯走向。


分析目標

  • 了解資料分析相關職位的實際樣貌與常見技能。
  • 修正對職涯的錯誤認知,釐清個人學習與發展方向。

參考資料與資料來源


資料處理與視覺化技術

  • 清理方式:統整不同年度欄位名稱與回覆格式,處理缺漏與不一致值。
  • 視覺化工具:Plotly(互動式成果展示)、Power BI(初期驗證)

個人收穫

透過此次專案,我學會如何整理複雜資料並從中萃取關鍵洞察,也更明確自己的職涯方向與技能落差。這是我第一次將跨年度資料統整並視覺化成系統化的作品。


專案紀錄與進程

以下為本專案從資料清理到視覺化的完整實作記錄,包含每階段的筆記與驗證過程:



作品展示

基礎輪廓分析

發現:資料群體以年輕、男性、學士或碩士學位,樣本集中在印度與美國,薪資欄位清理後僅保留 9,725 筆有效資料。
  • 視覺化成果

  • 觀察發現
    • 年齡集中在 25–29 歲,主力學歷為學士與碩士。
    • 性別明顯偏男性,樣本數最多的地區為印度與美國。
    • 年薪欄位為最需清理部分,誤填、遺漏與極端值比例高,經清理後僅剩 9,725 筆有效樣本。

  • 行動與策略
    • 進行薪資分析時,需納入地區經濟背景,避免以全球標準直接比較。
    • 後續薪資視覺化以「地區、經驗、職位、技能」為分層基礎,確保解釋具備相對性與上下文。


技能與工具分析。

發現:Python 是分析師標配技能,視覺化工具與 ML 框架廣泛應用,SQL 使用率不如預期,但仍為加分技能。
  • 視覺化成果

  • 觀察發現
    • Python 使用率最高,搭配常用工具為 Matplotlib、Seaborn 與 scikit-learn。
    • 超過 70% 受訪者表示曾使用過至少一種 ML 框架,顯示建模能力為常態化技能。
    • SQL 與資料庫連接工具的使用比例約 40–50%,低於預期,可能因部分分析師無直接資料庫權限。

  • 行動與策略
    • 鞏固 Python 核心技能後,我將進一步強化視覺化與 ML 實作能力。
    • 後續將以專案實作方式串連資料清理、建模與商業解釋,培養端對端分析流程能力。


工作內容與公司環境。

發現:資料分析職位橫跨多產業,以科技與金融為主。 職責涵蓋分析、ML 與資料基礎建設,顯示跨職能需求上升。
  • 視覺化成果

  • 觀察發現
    • 常見職稱為 Data Scientist、Data Analyst 與 Software Engineer,Data Analyst 有明顯上升趨勢。
    • 工作職責主要為「分析資料以影響決策」(約 50%),其次為建模與資料基礎建設(約 25–30%)。
    • 公司類型多元,大型企業與中小型公司比例接近。

  • 行動與策略
    • 我會以「資料支援決策」為核心能力,強化資料解讀、視覺呈現與指標設計技巧。
    • 透過線上課程、實戰專案探索不同產業需求,評估最適合自身背景與興趣的工作環境。


學習資源與趨勢追蹤。

發現:學習方式轉向數位與自主化,線上課程、Kaggle、YouTube、社群平台成為主要工具。
  • 視覺化成果

  • 觀察發現
    • 傳統學位不再是唯一學習途徑,Coursera、Kaggle Learn 與 YouTube 為最常見平台。
    • Kaggle 在實作與實戰應用方面具有明顯優勢;YouTube 與社群提供快速吸收與靈感來源。
    • 在職轉職者更偏好彈性、成本低、實用導向的學習資源。

  • 行動與策略
    • 繼續以線上課程學習基礎,搭配 Kaggle 進行資料處理與視覺化實作。
    • 將每個主題建立「學習 → 實作 → 應用 → 回顧」迴圈,提升學習轉化效率。


薪資與經驗分析。

發現:地區差異對薪資影響最大,經驗次之,技能數量非絕對指標。
  • 視覺化成果


  • 觀察發現
    • 北美與大洋洲的從業者薪資遠高於亞洲與南美,落差可達 3–5 倍。
    • 年資越多薪資提升越穩定,但在亞洲地區成長幅度較緩慢。
    • 使用 2–3 種程式語言即可勝任多數職位,技能數量與薪資並非線性關係。

  • 行動與策略
    • 認知薪資與區域經濟緊密相關,未來策略應依地區特性設計學習與求職路徑。
    • 重視技能「品質」與「應用深度」,避免盲目追求工具數量。


適合度與策略反思。

資料分析職位的技能需求與我目前能力相符,但仍需加強機器學習與商業思維。在實作過程中也發現自己蠻喜歡思考處理資料與提煉洞察的過程,具備投入此領域的意願、動機與興趣。
  • 職位需求概覽

    • 必備技能
      • Python 為標配語言。
      • 常見輔助工具包含資料視覺化工具(Matplotlib、Seaborn、Plotly 等)與 ML 框架(如 scikit-learn)。
      • 資料清理與格式轉換能力是基本門檻。
    • 加分技能
      • SQL 為重要輔助技能,尤其在資料抓取與初步處理上。
    • 工作職責
      • 多數職位以「分析資料以影響決策」為核心任務,其次是建模與資料基礎建設。

    分析師的入門門檻為:資料處理、視覺化、機器學習、商業思維


  • 個人現況檢視
    • 資料處理
      • 能夠運用 Python、SQL、Excel 完成資料清理與基本轉換(如長寬表互轉、空值處理等)。
    • 視覺化
      • 能夠利用 Power BI、Matplotlib 與 Plotly,具備選擇圖表形式與設計視覺邏輯的基礎能力,能針對單變量與多變量資料進行呈現。
    • 機器學習
      • 初步接觸過 scikit-learn使用流程,接下來將深入學習線性回歸、邏輯回歸、決策樹、隨機森林與梯度提升模型等。
    • 商業思維
      • 初步接觸統計概念,後續將補強 KPI 指標設計、A/B Test 解讀與決策應用能力,提升資料與商業之間的連結力。

  • 分析結論
    • 職涯適合度:就技能面而言,我目前已具備資料處理與視覺化的基礎能力,分析職位的需求與我目前學習方向大致一致,後續將聚焦在補強模型理解與商業解釋力。
    • 個人想法:在這次專案中,我發現自己對資料清理的過程十分投入,喜歡從雜亂的數據中整理出結構與意義,也蠻喜歡思考資料背後如何連結到實際決策的過程,讓我確定自己適合這個領域。


總結與未來規劃

這是我第一次進行跨年度的問卷分析,過程中收穫良多,也發現不少可改進之處。


技術反思
  • 若再次處理類似資料,我會更早建立欄位對應表與題目標準化規則。
  • 這次因未察覺 2022 年 SQL 與視覺化工具題目的描述異動,導致中途才發現遺漏,雖然最後補齊。這讓我深刻體會資料清理的重要性不僅限於內容,還包括欄位邏輯的對應。


觀念轉變
  • 本次分析讓我體會到:資料分析的價值,不在於會寫多少程式,而在於是否能從數據中洞察問題、協助做決策。
  • 程式語言固然重要,但它只是工具,資料分析的核心仍在「理解」與「解釋」。


學習盲點
  • 一開始我也是從 Python、SQL 入門,以為這樣就能成為資料分析師,但深入後發現,真正困難的是統計概念與商業判斷。
  • 程式可以速成,但統計思維與商業邏輯則需要大量時間累積與實務練習。這也讓我理解:市面上課程雖多強調工具與程式,但核心能力常被忽略。


職涯思考
  • 此次分析的起點,是想尋找在 AI 時代中仍具未來性的職涯方向,而不是容易被自動化取代的工作,最終選定較為相關的數據類工作。


下一步計畫:
  • 確認方向是否正確

    • 比對求職平台上的職缺,確認資料分析師的實際職責與我的期待是否相符,若差距大,會及早調整方向。

  • 嘗試與市場接軌

    • 掌握約 60% 的基礎能力,下一階段將嘗試投遞初階職缺或實習,透過實務機會進一步驗證定位。

  • 學習與精進路線: 若選擇繼續往資料分析師方向發展,未來重點將放在:

    • 強化統計與商業分析基礎(信賴區間、A/B 測試、回歸分析等)
    • 練習「數據說故事」與報告撰寫(透過 Kaggle 專案或部落格實作)
    • 強化資料視覺化技巧(持續學習 Power BI / Tableau)
    • 補強資料產品與決策流程的理解(KPI 指標設計、策略圖表)
    • 學習常見機器學習基礎模型(如:線性回歸、邏輯回歸、決策樹、隨機森林等)


心得與過程記錄

終於完成這份專案文案了!
從 3月底建立資料夾,到 4月初完成課程作業,再到今天正式整理完畢,中間經歷兩個多月的自學與反覆修正,這份作品算是從頭到尾重構了一次。

課程結束後我總覺得資料哪裡還可以更好,乾脆回頭重做:題目整理、欄位正規化、建立資料庫、視覺化與策略歸納,每一部分都重新設計。雖然耗時兩個多月,但我學到的遠超預期。

一開始只是覺得資料分析「看起來蠻有趣且與本職較為相關」,但完成這次專案後,確實對資料分析感興趣。
雖然目前還在起步階段,對統計與機器學習還不熟,但我已經找到了方向與目標,接下來會繼續努力深化這條路。


上一章