Data analysis

練習專案四:找出章魚里 1


專案介紹

什麼是章魚里?

「章魚里」一詞源自「章魚保羅」,這隻章魚因能準確預測德國國家足球隊比賽的結果而成名。

在台灣,有一次選舉中,天玉里的得票比例與全國總得票比例極為接近,因此逐漸被視為一種選舉觀察指標。

然而,由於人口結構的變動(例如搬遷),每次與全國得票率最接近的村里並不固定。若長期鎖定單一村里作為「章魚里」,其實並不合理。

本次專案將使用中選會的開票資料,分析全台 約 7,700 個村里 的得票比例,並與全國總得票比例進行比較,以驗證相似度。



如何分析

該如何計算才算合理呢?在資料科學中,比較比例數據的趨勢是否一致,常見的方法之一是 餘弦相似度 (Cosine Similarity)。,它能衡量兩組向量之間的趨勢相似程度,結果介於 −11 之間,數值越接近 1 表示越相似,越接近 -1 則表示越相反。



公式來源:Wikipedia - Cosine similarity

  • 計算結果代表兩個向量間的關係:
    • 1:正相關
    • 0:不相關
    • -1:負相關
    區間 解釋 舉例
    0.8 ~ 1 高度相似(方向幾乎一樣) A vs B = 0.8
    0.2 ~ 0.8 中度相似(有部分趨勢相同) 兩條趨勢線大致平行
    -0.2 ~ 0.2 不相關(幾乎垂直,沒有重疊) 90°
    -0.8 ~ -0.2 負相關(方向大致相反) B vs C = -0.799
    -1 ~ -0.8 高度相反(幾乎完全反向) A vs C = -1

餘弦相似度的本質,是計算兩個向量間的夾角(θ)的餘弦值。


  • 角度解釋:
    • ∠AB → 藍色與綠色的夾角 → θ 很小 → cos(θ) ≈ 1 → 高度相似

    • ∠AC → 藍色與紅色的夾角 → 接近 180° → cos(θ) ≈ -1 → 完全相反

    • ∠BC → 綠色與紅色的夾角 → 比較大 → cos(θ) 介於 0 和 -1 之間 → 呈現部分負相關


下一章