通識導賞﹕特首平均評分解統計迷牆

2014年03月23日

新聞類別

副刊

詳情#

【明報專訊】香港大學民意研究計劃（簡稱港大民研）最近備受批評，除了純粹的政治性攻擊之外，亦有統計方法的討論。

我認為前者大可一笑置之，只有後者值得討論。

我素來關注公眾統計教育，這樣的爭論有助公眾更理解統計。

我不希望這種討論會令統計變成一道迷牆，最終令公眾不再相信統計。

就像網上討論那樣，先行「利申」﹕我現為香港大學社會科學學院學生，但與港大民研毫無關係。

這次的爭論點只有兩個，分別是：

1. 特首評分的意義何在

2. 特首評分應否以算術平均數（Arthimetic mean，下稱平均數）計算

相反其他技術問題如回應率、問卷設計卻乏人討論。在討論上述兩點時，第二點的篇幅又比第一點多，但事實上第一點比第二點重要。

1. 港大中大民調結果相近

有關第一點，要搬出兩統計學兩大支柱，稱為效度（Validity）和信度（Reliability）。評分必須具有信度和效度，才具有獨立的解釋意義。何謂獨立的解釋意義？例如我們用紅外線溫度計量耳內溫度，耳內溫度的獨立解釋意義是指當一個人耳內溫度高於37度時，可稱他為發燒。當一個人耳內溫度高於37度時，代表他也會覺得身體不舒服，可稱耳內溫度具有效度（正式名稱是criterion validity）。當我們以不同測量者，反覆量度同一個身體狀態的人的耳內溫度，如次次都幾乎一樣的話，我們可以稱耳內溫度具有信度。

發燒探熱看統計

評分如何確立效度和信度，一向都是相當棘手的問題。確立方法是值得以一年深造程度的大學課堂去討論，如若有意探討民意調查的信度和效度問題，可以參考傅景華博士刊於2010年5月26日《明報》的文章〈言過其實的民調結果〉或網友aloneinthefart的網誌文章〈勿因蟲而廢言〉（網址：goo.gl/AbJVLd）。

我認為特首港大民研評分是具有一定信度的，理據是另一所研究機構中文大學亞太研究所電話調查研究室（簡稱亞太所）以幾乎一樣的方式詢問特首評分，若以港大民研和亞太所在同一時段的特首評分配對，兩所機構所得的分數相關度（correlation）高（去除時序「自相關」影響後相關系數：0.544，圖一），就像上述同一身體狀况的人（民情）以不同測量者（港大民研和亞太所）反覆量度耳內溫度（特首評分）的例子那樣。

47.5分代表咩？

我對特首評分的主要質疑是其效度，例如當評分是47.5分時，這個分數應該如何獨立解釋？到底是代表香港是在暴動邊緣，還是這個評分代表梁特首「腳痛」機會率增加呢？我們是無從知道的。

暴動邊緣？「腳痛」機率增？

但我要強調一點，上述是指評分的「獨立解釋意義」，與「比較解釋意義」不同。就算評分不具有「獨立解釋意義」，但如果多次民調評分方式一樣，我認為民調與民調之間的評分可以比較，用以評論特首評分升降。港大民研在去年10月3日的調查得出特首評分平均值是48.1分；在10月18日降為44.0分，這個降幅是統計學上顯著的，也即降幅高於抽樣誤差。而在這兩次調查之間，就發生了香港免費電視發牌風波。如果有細閱港大民研發表的新聞公報，有關特首評分的分析，只是比較前兩周的評分。亞太所的新聞稿亦只強調對比上月調查評分變幅是否具有統計學意義。而港大民研有關官員的民意表現評價，卻是建基於另一條問題。（下述）

2. 應否用平均數計算?

這一點已有不少人談論。我非常欣賞港大民研將民調的原始數據公開，讓各界可以自由分析結果。從數據可見，市民對特首評分呈「三極化」，以評分為零、五十和一百佔最多。這或多或少是反映香港的現實，就是各走極端，另有一群不想（或不願、或不能）表態的中間人。這樣三極化的現象，亦可能是問卷設計所致，問卷問題如下﹕

家想請你用0至100分評價你對特首梁振英既支持程度，0分代表絕對唔支持，100分代表絕對支持，50分代表一半半，你會畀幾多分特首梁振英呢？

0、50、100分「三極化」

因為電話調查難以詳細解釋，可能部分被訪者會誤會只有0分、100分和50分3個選擇，引致這三類答案異常地高，形成三極化現象。

就算數據如此三極化，是否代表以算術平均數計算平均值沒有參考意義呢？有意見認為港大民研應以更簡單的問題探討民意，就免卻平均值代表性的問題。例如只問「你是否支持梁振英擔任特首？」而答案只有「支持」、「不支持」和「不知道」。事實上港大民研亦有問類似問題，就是：

假設明天選舉特首，而你又有權投票，你會唔會選梁振英做特首？

香港沒有普選，問題實為假設性，但我認為效果是等同於詢問支持和不支持特首。這條問題的結果，才是港大民研官方用於評論官員民望的理據。

平均數有參考價值

我同意特首支持比率是更佳的民意指標，但又是否代表平均評分沒有參考價值呢？配對五十次港大民研就梁振英的「反對度」（即在上述假設選舉問題投反對票所佔百分比）和市民對特首平均評分的結果製圖，可見兩者呈此消彼長之勢，相關度極高。（圖二，相關系數-0.911）由此可見，就算特首評分三極化，平均評分仍與支持度關係密切。

假設以過半數市民反對梁振英為陽性反應（positive response），我們甚至可用「接收者操作特徵曲線」（ROC Curve）的方法，找出最能判別陽性反應的平均評分。分析得出最佳的臨界點就是平均評分49分，靈敏度（Sensitivity）是86% ，特異度（Specificity）是90%。（表一）也即當真有過半數市民反對梁振英當特首時，有八成半機會他的平均評分是低於49分；相反，當一半或更少市民反對梁振英，亦有一成機會誤判。這種分辨能力算是相當不俗。

我的結論是認為特首評分平均數無參考價值的意見是太武斷。縱使特首評分獨立解釋意義成疑，但作為民調之間比較及用作反映整體香港意見，在社會科學上來說，仍具有一定參考價值。

本文所有原始數據及R程式碼於我的github公開。（github.com/chainsawriot/hkupop）

感謝香港大學新聞及傳媒研究中心助理教授傅景華博士對本文的寶貴意見。

文﹕陳電鋸

編輯顏澤蓉

fb﹕http://www.facebook.com/SundayMingpao

0

書籤

留言 (0)

登入即可留言

0

確定

通識導賞﹕特首平均評分 解統計迷牆

相關內容

通識導賞﹕特首平均評分解統計迷牆