專案簡介
本專案以 Kaggle 機器學習與資料科學問卷為基礎,結合外部薪資與經濟資料,透過視覺化方式探索資料分析師的輪廓、技能需求與職涯走向。
分析目標
- 了解資料分析相關職位的實際樣貌與常見技能。
- 修正對職涯的錯誤認知,釐清個人學習與發展方向。
參考資料與資料來源
資料處理與視覺化技術
- 清理方式:統整不同年度欄位名稱與回覆格式,處理缺漏與不一致值。
- 視覺化工具:Plotly(互動式成果展示)、Power BI(初期驗證)
個人收穫
透過此次專案,我學會如何整理複雜資料並從中萃取關鍵洞察,也更明確自己的職涯方向與技能落差。這是我第一次將跨年度資料統整並視覺化成系統化的作品。
專案紀錄與進程
以下為本專案從資料清理到視覺化的完整實作記錄,包含每階段的筆記與驗證過程:
作品展示
基礎輪廓分析
發現:資料群體以年輕、男性、學士或碩士學位,樣本集中在印度與美國,薪資欄位清理後僅保留 9,725 筆有效資料。
- 觀察發現:
- 年齡集中在 25–29 歲,主力學歷為學士與碩士。
- 性別明顯偏男性,樣本數最多的地區為印度與美國。
- 年薪欄位為最需清理部分,誤填、遺漏與極端值比例高,經清理後僅剩 9,725 筆有效樣本。
- 行動與策略:
- 進行薪資分析時,需納入地區經濟背景,避免以全球標準直接比較。
- 後續薪資視覺化以「地區、經驗、職位、技能」為分層基礎,確保解釋具備相對性與上下文。
技能與工具分析。
發現:Python 是分析師標配技能,視覺化工具與 ML 框架廣泛應用,SQL 使用率不如預期,但仍為加分技能。
- 觀察發現:
- Python 使用率最高,搭配常用工具為 Matplotlib、Seaborn 與 scikit-learn。
- 超過 70% 受訪者表示曾使用過至少一種 ML 框架,顯示建模能力為常態化技能。
- SQL 與資料庫連接工具的使用比例約 40–50%,低於預期,可能因部分分析師無直接資料庫權限。
- 行動與策略:
- 鞏固 Python 核心技能後,我將進一步強化視覺化與 ML 實作能力。
- 後續將以專案實作方式串連資料清理、建模與商業解釋,培養端對端分析流程能力。
工作內容與公司環境。
發現:資料分析職位橫跨多產業,以科技與金融為主。 職責涵蓋分析、ML 與資料基礎建設,顯示跨職能需求上升。
- 觀察發現:
- 常見職稱為 Data Scientist、Data Analyst 與 Software Engineer,Data Analyst 有明顯上升趨勢。
- 工作職責主要為「分析資料以影響決策」(約 50%),其次為建模與資料基礎建設(約 25–30%)。
- 公司類型多元,大型企業與中小型公司比例接近。
- 行動與策略:
- 我會以「資料支援決策」為核心能力,強化資料解讀、視覺呈現與指標設計技巧。
- 透過線上課程、實戰專案探索不同產業需求,評估最適合自身背景與興趣的工作環境。
學習資源與趨勢追蹤。
發現:學習方式轉向數位與自主化,線上課程、Kaggle、YouTube、社群平台成為主要工具。
- 觀察發現:
- 傳統學位不再是唯一學習途徑,Coursera、Kaggle Learn 與 YouTube 為最常見平台。
- Kaggle 在實作與實戰應用方面具有明顯優勢;YouTube 與社群提供快速吸收與靈感來源。
- 在職轉職者更偏好彈性、成本低、實用導向的學習資源。
- 行動與策略:
- 繼續以線上課程學習基礎,搭配 Kaggle 進行資料處理與視覺化實作。
- 將每個主題建立「學習 → 實作 → 應用 → 回顧」迴圈,提升學習轉化效率。
薪資與經驗分析。
發現:地區差異對薪資影響最大,經驗次之,技能數量非絕對指標。
- 觀察發現:
- 北美與大洋洲的從業者薪資遠高於亞洲與南美,落差可達 3–5 倍。
- 年資越多薪資提升越穩定,但在亞洲地區成長幅度較緩慢。
- 使用 2–3 種程式語言即可勝任多數職位,技能數量與薪資並非線性關係。
- 行動與策略:
- 認知薪資與區域經濟緊密相關,未來策略應依地區特性設計學習與求職路徑。
- 重視技能「品質」與「應用深度」,避免盲目追求工具數量。
適合度與策略反思。
資料分析職位的技能需求與我目前能力相符,但仍需加強機器學習與商業思維。在實作過程中也發現自己蠻喜歡思考處理資料與提煉洞察的過程,具備投入此領域的意願、動機與興趣。
-
職位需求概覽
- 必備技能:
- Python 為標配語言。
- 常見輔助工具包含資料視覺化工具(Matplotlib、Seaborn、Plotly 等)與 ML 框架(如 scikit-learn)。
- 資料清理與格式轉換能力是基本門檻。
- 加分技能:
- SQL 為重要輔助技能,尤其在資料抓取與初步處理上。
- 工作職責:
- 多數職位以「分析資料以影響決策」為核心任務,其次是建模與資料基礎建設。
分析師的入門門檻為:資料處理、視覺化、機器學習、商業思維。
- 個人現況檢視
- 資料處理:
- 能夠運用 Python、SQL、Excel 完成資料清理與基本轉換(如長寬表互轉、空值處理等)。
- 視覺化:
- 能夠利用 Power BI、Matplotlib 與 Plotly,具備選擇圖表形式與設計視覺邏輯的基礎能力,能針對單變量與多變量資料進行呈現。
- 機器學習:
- 初步接觸過 scikit-learn使用流程,接下來將深入學習線性回歸、邏輯回歸、決策樹、隨機森林與梯度提升模型等。
- 商業思維:
- 初步接觸統計概念,後續將補強 KPI 指標設計、A/B Test 解讀與決策應用能力,提升資料與商業之間的連結力。
- 分析結論
- 職涯適合度:就技能面而言,我目前已具備資料處理與視覺化的基礎能力,分析職位的需求與我目前學習方向大致一致,後續將聚焦在補強模型理解與商業解釋力。
- 個人想法:在這次專案中,我發現自己對資料清理的過程十分投入,喜歡從雜亂的數據中整理出結構與意義,也蠻喜歡思考資料背後如何連結到實際決策的過程,讓我確定自己適合這個領域。
總結與未來規劃
這是我第一次進行跨年度的問卷分析,過程中收穫良多,也發現不少可改進之處。
技術反思:
- 若再次處理類似資料,我會更早建立欄位對應表與題目標準化規則。
- 這次因未察覺 2022 年 SQL 與視覺化工具題目的描述異動,導致中途才發現遺漏,雖然最後補齊。這讓我深刻體會資料清理的重要性不僅限於內容,還包括欄位邏輯的對應。
觀念轉變:
- 本次分析讓我體會到:資料分析的價值,不在於會寫多少程式,而在於是否能從數據中洞察問題、協助做決策。
- 程式語言固然重要,但它只是工具,資料分析的核心仍在「理解」與「解釋」。
學習盲點:
- 一開始我也是從 Python、SQL 入門,以為這樣就能成為資料分析師,但深入後發現,真正困難的是統計概念與商業判斷。
- 程式可以速成,但統計思維與商業邏輯則需要大量時間累積與實務練習。這也讓我理解:市面上課程雖多強調工具與程式,但核心能力常被忽略。
職涯思考:
- 此次分析的起點,是想尋找在 AI 時代中仍具未來性的職涯方向,而不是容易被自動化取代的工作,最終選定較為相關的數據類工作。
下一步計畫:
心得與過程記錄
終於完成這份專案文案了!
從 3月底建立資料夾,到 4月初完成課程作業,再到今天正式整理完畢,中間經歷兩個多月的自學與反覆修正,這份作品算是從頭到尾重構了一次。
課程結束後我總覺得資料哪裡還可以更好,乾脆回頭重做:題目整理、欄位正規化、建立資料庫、視覺化與策略歸納,每一部分都重新設計。雖然耗時兩個多月,但我學到的遠超預期。
一開始只是覺得資料分析「看起來蠻有趣且與本職較為相關」,但完成這次專案後,確實對資料分析感興趣。
雖然目前還在起步階段,對統計與機器學習還不熟,但我已經找到了方向與目標,接下來會繼續努力深化這條路。
上一章