這是一個透過 餘弦相似度 與選舉投票數據,找出全台最像「天玉里」的專案。
利用 pandas、sqlite3 進行資料處理,並用 gradio 做出互動式成品,最後將成品部署在 Hugging Face Demo 上展示。
以下為本專案從資料清理到視覺化的完整實作記錄,包含每階段的筆記與驗證過程:
0.999998
taiwan_presidential_election_2024.db
在這次專案中,第一次接觸到 餘弦相似度,學會如何用向量比較資料的相似性。同時學習 資料庫正規化 的概念與實作方法,並體會到 以數據為導向的思考邏輯,能用資料而非直覺來驗證想法。此外,頭一次透過 Hugging Face Spaces 與 Gradio,學會新的展示與部屬方式,整體是一個有趣的練習。這次練習讓我體會到相似度分析不只可以應用在選舉數據,未來也能延伸到使用者行為分析、商品推薦等場景。
目的重現專案環境。
conda env export -n taiwan_presidential_election_2024 > environment.yml
environment.yml 建立環境:
conda env create -f environment.yml
data/ 資料夾中的「總統-A05-4-候選人得票數一覽表-各投開票所」22 個試算表檔案放到專案資料夾的 data/ 資料夾中python create_taiwan_presidential_election_2024_db.py 就能在 data/ 資料夾中建立 taiwan_presidential_election_2024.dbpython app.py 並前往 http://127.0.0.1:7860 瀏覽成品。