2016年7月17日 星期日

你,相信嗎?


《聯合報》報導,民調顯示,相較於總統選情,英仁配以46%的支持度,大幅領先朱玄配的19%及宋瑩配的9%,立委選情差距則較小。民進黨在不分區立委政黨票有35%支持度,國民黨則有25%,親民黨有5%,另外有30%民眾未決定。區域立委部分民進黨有28%支持度,勝過國民黨5個百分點,親民黨則有1%,39%的民眾未決定。
該調查於1127日晚間進行,成功訪問全國850位成年民眾,另有234人拒訪;在95%的信心水準下,抽樣誤差在正負3.4個百分點以內。(資料來源:http://election.ltn.com.tw/2016/news/breakingnews/1522937)
選舉前夕,民調數據真的可以反映選前的戰況嗎?又或者說,真的可以預測選舉的結果嗎?

上述這段文字有沒有讓你喚起腦袋中一些心統課上的畫面並且覺得很熟悉呢?
做民意調查的目的在於要反映民眾的想法,也就是說上述選情的民調是為了要讓大家可以知道普遍而言社會大眾現在對於三組正副總統候選人的支持度為多少去做出來的。但是要怎麼樣才可以做出一份是可以盡可能反映真實狀況的民調呢?從抽樣的樣本數、抽樣的方式、選用的信心水準等等都會影響到民調的數據內容,因此當我們看到一份民調時,可以先從這幾點開始去了解,它是否為一份可信的民調。

我們通常會想知道這份民意調查的樣本(sample)是否具有足夠的代表性,能不能真實反映母群(parameter)的狀況?以上述的例子,這次選舉全台灣可以投票的人口數約為1881萬人,那麼至少要找多少人來訪問調查,才能夠以這些少數人的意見代表整體的想法?實際上表態的民眾只有850人,能以這850人的意見代表1881萬人的投票傾向嗎?

在談論到推論統計的時候,千萬不能忘了中央極限定理(central limit theorem)。什麼是中央極限定理呢?每一次自母群中隨機且獨立抽樣n個樣本,如果母群平均數為μ,標準差為σ,樣本平均為,則只要樣本數n夠大,近似於常態分布N(μ,  ),即近似於常態分佈 N(0,1)。也就是說不論母群的機率分配為何,只要n夠大,樣本平均數的抽樣分配會趨近於常態分配。所以我們只要可以隨機且獨立的抽樣,就可以讓這些樣本的結果大致上反映母群的結果。

那麼在了解中央極限定理之後,我們要談到的是抽樣的樣本數要如何決定。

有兩個因素會影響到樣本大小:信心水準(confidence level)、抽樣誤差(sampling error),分別是上述例子中有提到的95%信心水準以及抽樣誤差在正負3.4個百分點內。信心水準指的是有多大的信心可以用這些樣本來推論母群,以百分比表示,當我們從一個母群中抽n個組成一樣本,會得到一個統計量p之值,若重複抽取n個,會得到很多統計量p的值,而這些統計量p的值會近似於常態分配,其標準差為σ= 。而抽樣誤差雖然難以避免,但卻可以藉由增加樣本數以及適當的抽樣方式來減少。
根據常態分配,大概有95%的資料會落在平均值距離約兩個標準差的範圍內。抽樣誤差則是可以接受的誤差大小為何,最精準的做法是對所有人來進行調查,但是母群過於龐大,一個一個調查的成本非常高,所以才會使用抽樣的方式進行調查,只是由樣本推論到母群一定會有誤差。因此上述民調中要傳達的想法有「在95%信心水準下,誤差不超過3.4%,英仁配有46%支持度」。
決定好信心水準和抽樣誤差還有得知母群大小後就可以以此為條件求出需要多少樣本。

而在知道需要多少樣本數之後,要怎麼找到這些樣本呢?
相信大家對姚媽上課時介紹的四種好玩又有趣的常見抽樣方式尚難以忘懷,記憶猶新,如果忘了沒關係,讓我們來幫你提取那其中的甜酸苦澀吧!

簡單隨機抽樣(simple random sampling)
光聽名字就知道很簡單易懂,但操作起來卻一點也不簡單,姑且稱之為抽樣法中的烏托邦,在沒有任何系統或條件直接對母群隨機抽取樣本,即母群中的每個樣本被抽中的機率都一樣,雖然他非常直觀也最符合抽樣的假設,但當母體很大時,很容易受到時間、空間和經費等外在的因素影響,是個理想卻不經濟的抽樣方式。

系統化隨機抽樣(systematic sampling
系統化隨機抽樣正好可以解決簡單隨機抽樣遇到的問題,透過隨機編排的抽樣架構,有規律、有調理地抽取樣本,最常使用的方法是抽樣架構中每5個、10......選擇一個樣本,在這裡要特別注意,系統化隨機抽樣的抽樣架構必須是隨機沒有排序的,否則會受到趨勢的影響,用兩個例子解釋:如果我們的資料現在是由姓氏筆畫排序,那麼樣本就會有一個規律;或是針對高中生抽樣,依照班級排列,生日排座號,每40個人取一個樣本,那可能每個班剛好抽到班上年紀最小或最老的,如此一來樣本就不符合隨機抽樣了。

策略隨機抽樣(stratified sampling
現在抽樣架構中組成是由多個不同質的子團體所組成時,如果直接隨機抽樣,會遇到什麼樣的問題呢?不知道大家有沒有類似這樣的強迫症,現在有一桶巧克力裡面有四種不同口味,你想分成四次吃完,並且希望每次依照比例四種都吃到,一口一口都是享受,可是如果總是隨意從桶裡抓取一把,那可能不小心第一次就把某一種口味吃完了,由此可見,當抽樣架構由子團體組成,簡單或系統隨機抽樣的樣本就不一定具有代表性,這時可以使用策略性隨機抽樣,依各個子團體的比例,抽出相對應的樣本,比如說四種巧克力數量各是208164顆,那現在如果要抽出12顆,就要分別抽出5241顆,在子團體內以簡單或系統化隨機抽樣都可行。

叢集隨機抽樣(cluster sampling
叢及隨機抽樣或許是最實際的隨機抽樣方式了,但同時他也比較偏離隨機假設,針對要抽樣的母群,從中選取幾組子群體作為代表性樣本,比如說高中生學習壓力統計,要從各地隨機抽出樣本非常不容易,所以我們隨機選擇幾所學校,在各學校中隨機選擇幾個班,直接對整班進行抽樣,解決了現實與理想之間的衝突。

沉浮在前額葉最深處的記憶,是否有因這次回顧而重回你的懷抱,還有很多其他的抽樣方式,在此便不細數,抽樣之於統計,就像蛋糕之於食材,如果連材料都買錯了,那怎麼做都不對了,如此重要的存在,切記不可忽略之。

回到我們的主題,近年來選舉民調的抽樣方式多是透過電話號碼或是戶籍資料等等的隨機抽樣,以亂數方式選取樣本,想想看這樣的方式得到的樣本真的能有效代表母群嗎?

有了一些基本的概念跟認識之後,來看看下面這張圓餅圖。大家發現了什麼嗎?(來源:http://news.ltn.com.tw/news/politics/breakingnews/1010261)WbViJLT.png

這樣的結果到底訪問了多少人才做出這樣的投票統計呢?若只有一人投票並且支持楊秋興,也是100%支持度啊!沒有提及樣本數亦無說明抽樣方式,給了一組數據就發布新聞,很顯然這次市長選舉楊秋興100%支持度的結果是有所偏頗。



總結來說,民意調查能否正確反映民意,除了剛剛有提到的樣本代表性還有統計方式之外,問題的適當性也會影響到受訪的人如何回答,如果過度簡化問題,使得民調問題只呈現一個面向,窄化了整體的問題,甚至可能出現引導式問答。在大選前夕,都陸陸續續還會有幾次的民調結果出來,到底民調的數據能不能代表什麼,下次再看到民調的時候不妨多多思考吧!

沒有留言:

張貼留言