「章魚里」一詞源自「章魚保羅」,這隻章魚因能準確預測德國國家足球隊比賽的結果而成名。
在台灣,有一次選舉中,天玉里的得票比例與全國總得票比例極為接近,因此逐漸被視為一種選舉觀察指標。
然而,由於人口結構的變動(例如搬遷),每次與全國得票率最接近的村里並不固定。若長期鎖定單一村里作為「章魚里」,其實並不合理。
本次專案將使用中選會的開票資料,分析全台 約 7,700 個村里 的得票比例,並與全國總得票比例進行比較,以驗證相似度。
該如何計算才算合理呢?在資料科學中,比較比例數據的趨勢是否一致,常見的方法之一是 餘弦相似度 (Cosine Similarity)。,它能衡量兩組向量之間的趨勢相似程度,結果介於 −1 到 1 之間,數值越接近 1 表示越相似,越接近 -1 則表示越相反。

公式來源:Wikipedia - Cosine similarity
| 區間 | 解釋 | 舉例 |
|---|---|---|
| 0.8 ~ 1 | 高度相似(方向幾乎一樣) | A vs B = 0.8 |
| 0.2 ~ 0.8 | 中度相似(有部分趨勢相同) | 兩條趨勢線大致平行 |
| -0.2 ~ 0.2 | 不相關(幾乎垂直,沒有重疊) | 90° |
| -0.8 ~ -0.2 | 負相關(方向大致相反) | B vs C = -0.799 |
| -1 ~ -0.8 | 高度相反(幾乎完全反向) | A vs C = -1 |
餘弦相似度的本質,是計算兩個向量間的夾角(θ)的餘弦值。
∠AB → 藍色與綠色的夾角 → θ 很小 → cos(θ) ≈ 1 → 高度相似
∠AC → 藍色與紅色的夾角 → 接近 180° → cos(θ) ≈ -1 → 完全相反
∠BC → 綠色與紅色的夾角 → 比較大 → cos(θ) 介於 0 和 -1 之間 → 呈現部分負相關