新聞類別
國際
詳情#
【明報專訊】全球近年掀起「大數據」(Big data)熱潮,下至商家,上至政府都趨之若鶩。 大數據過往引起的討論多關乎私隱,但西方輿論近日開始探討大數據是否言過其實,《金融時報》、《紐約時報》等紛紛出現質疑大數據的文章,對資訊科技發展有參考價值。
Google被指高估流感數目
觸發這場反思的是Google的流感趨勢追蹤。該計劃可以說是大數據一大里程碑,研究2009年宣布憑搜尋關鍵字追蹤流感趨勢,準確度可跟美國疾病控制及預防中心(CDC)媲美,而且遠為快捷。但《科學》上月刊出研究,比對該計劃及CDC的個案,指Google系統4年來一直高估流感數目,追蹤流感還是傳統方法可靠。
大數據促進了人工智能的發展(Google翻譯軟件便是一例),也讓商家容易地把握顧客購物模式和趨勢。一些大數據支持者更認為,大數據可以令人更快更直接掌握模式,不再需要理論假設去分析,甚至能夠預測未來趨勢。2011年,Kalev Leetarun發表研究稱,拉登藏身之處以至「阿拉伯之春」早在新聞數據中透露端倪,他聲言只要用超級電腦分析環球新聞,便可以準確預測局勢。
令統計學增「虛假關係」
大數據作出了漂亮的承諾,但實際如何?《金融時報》經濟學專欄作家Tim Harford在Big Data: Are We Making a Big Mistake? 一文指出,200年來統計學家利用數據來把握世界都會遇到陷阱,而這些陷阱不會因為數據龐大而消失,反而惡化。沒人可把握全部數據,數據就算如何大也有偏頗,例如不少研究透過分析twitter信息推斷民情,但twitter用戶卻不是那麼有代表性。其次,大數據也令統計學上的「虛假關係」風險大增。紐約大學心理學教授Gary Marcus在最近一篇討論大數據的文章便用到一例,2006年至2011年美國謀殺率跟微軟IE的市場佔有率都大幅下降,兩組數據雖有關聯性,但卻難以想像兩者有因果關係。
「大數據已來 大洞見還未到」
Tim Harford指出,大數據仍然不能解決一直困擾統計學者問題,就是從數據可得到什麼洞見?數據可以推論出現在發生什麼事?而我們可以如何介入改善?他在文末點出:「大數據已來臨,但大洞見還未有到來。」這對投放大量人力物力來蒐集數據的機構或可起當頭棒喝之用。數據雖然變得垂手可得,但它是否如論者吹噓般有龐大價值,卻仍然有待發掘。畢竟,正如倫敦大學帝國學院教授David Hand指出,「沒有人想要數據,我們要的是答案」。
林康琪
Google被指高估流感數目
觸發這場反思的是Google的流感趨勢追蹤。該計劃可以說是大數據一大里程碑,研究2009年宣布憑搜尋關鍵字追蹤流感趨勢,準確度可跟美國疾病控制及預防中心(CDC)媲美,而且遠為快捷。但《科學》上月刊出研究,比對該計劃及CDC的個案,指Google系統4年來一直高估流感數目,追蹤流感還是傳統方法可靠。
大數據促進了人工智能的發展(Google翻譯軟件便是一例),也讓商家容易地把握顧客購物模式和趨勢。一些大數據支持者更認為,大數據可以令人更快更直接掌握模式,不再需要理論假設去分析,甚至能夠預測未來趨勢。2011年,Kalev Leetarun發表研究稱,拉登藏身之處以至「阿拉伯之春」早在新聞數據中透露端倪,他聲言只要用超級電腦分析環球新聞,便可以準確預測局勢。
令統計學增「虛假關係」
大數據作出了漂亮的承諾,但實際如何?《金融時報》經濟學專欄作家Tim Harford在Big Data: Are We Making a Big Mistake? 一文指出,200年來統計學家利用數據來把握世界都會遇到陷阱,而這些陷阱不會因為數據龐大而消失,反而惡化。沒人可把握全部數據,數據就算如何大也有偏頗,例如不少研究透過分析twitter信息推斷民情,但twitter用戶卻不是那麼有代表性。其次,大數據也令統計學上的「虛假關係」風險大增。紐約大學心理學教授Gary Marcus在最近一篇討論大數據的文章便用到一例,2006年至2011年美國謀殺率跟微軟IE的市場佔有率都大幅下降,兩組數據雖有關聯性,但卻難以想像兩者有因果關係。
「大數據已來 大洞見還未到」
Tim Harford指出,大數據仍然不能解決一直困擾統計學者問題,就是從數據可得到什麼洞見?數據可以推論出現在發生什麼事?而我們可以如何介入改善?他在文末點出:「大數據已來臨,但大洞見還未有到來。」這對投放大量人力物力來蒐集數據的機構或可起當頭棒喝之用。數據雖然變得垂手可得,但它是否如論者吹噓般有龐大價值,卻仍然有待發掘。畢竟,正如倫敦大學帝國學院教授David Hand指出,「沒有人想要數據,我們要的是答案」。
林康琪
留言 (0)