新聞類別
副刊
詳情#
【明報專訊】網上有一張流傳甚廣的圖如是說:「談海量數據(big data,又譯大數據)就像年輕人談性,人人都談,但人人都不知道是什麼,於是人人都當作別人都有做,最後人人都聲稱自己在做。」
由於海量數據一詞已變成商業套語,市面上人人對它的誤解也很深。
在討論何謂海量數據之前,應先正本清源,談談何謂數據。
根據牛津字典的解釋,data一詞的定義為:
information, especially facts or numbers, collected to be examined and considered and used to help decision-making, or information in an electronic form that can be stored and used by a computer.
資訊,尤其是事實或數字,被收集作研究、參考和幫助決策之用;或電子型式的資訊,可在電腦儲存和應用。
根據以上的定義,可以提取三個關鍵字:事實、幫助決策、電子型式。
現時的數據可謂無處不在,除了以傳統的研究方法如問卷調查收集的數據之外,還有不少大家日常生活所留下的電子紀錄,例如每天在facebook留下的Like、網上購物的紀錄、對不同電影的評論、上載到YouTube的影片、「打卡」的GPS位置等等。政府和商業機構同樣會產生數據,例如機場飛機的升降紀錄、連鎖店各分店的銷售紀錄等等。很多人誤解,只要收集數據用作分析就是海量數據。個人認為此類行為只可稱作「數據分析」,是沒有什麼技術上的挑戰可言。而真真正正令到分析海量數據變得艱難,是三個V。
分析數據有3難
1. Volume數據量
以一個儲存在我的硬碟的問卷調查數據檔案為例,這個檔案內有一千五百人的調查數據,它的大小只有37KB,約為四秒MP3音樂所佔的容量。任何的統計人員,都應該有足夠的統計知識分析此類小型數據而得出有用的結論。
但想想以下的數據量:
一個人的基因圖譜——約770MB(問卷數據的兩萬倍)
美國國會圖書館所有出版物內容——約10TB(問卷數據的三億倍)
每天Google處理的數據量——約20PB(問卷數據的六千億倍)
面對如此數據量,分析人員都只有束手無策。先不談如何分析以上的數據,現時電腦的儲存裝置愈來愈平,理論上以上的數據是可以用現有硬件妥善的儲存起來。但問題是如何有效地儲存如此巨量的數據,但仍可供分析之用,卻是現時的一大難題。傳統數據庫的關聯模型(relational model)是難以儲存如此巨量之數據,這是數據量巨大仍為電腦科學一大挑戰之原因。
另外,如果數據量如此巨大,亦會挑戰用作分析的電腦。分析的時間會因應數據量增加而變長,若然分析海量數據要等到天荒地老才有結果,這亦無助於決策。故此海量數據亦同時刺激電腦運算研究,例如以平行聯機運算(parallel computing)加快速度、改進演算法等等。
2. Velocity數據產生速度
上面提到,每天Google處理的數據量是20PB,也即是一星期就會產生140PB、一個月就會產生1120 PB(或1EB)……數據產生的速度愈來愈快,不單止有上述數據量的問題;若要緊貼外圍情况,作出精準決策,分析的頻率要增多、速度又要加快。故此很多時都要將數據分析自動化。
3. Variety數據款式
傳統由問卷調查所收集的數據,格式通常都很乾淨,例如是試算表之類。而傳統的統計分析方法,亦都是針對此類格式的數據而設。但現代數據可以是一段對話、一張圖片、一段短片,傳統的統計工具是無法分析此類數據。若要分析就要經過人眼進行內容分析(content analysis),例如要分析facebook上載圖片的selfie比率,就要經人眼看過圖片再對圖片作出評比,決定是否selfie,方可統計。這類內容分析費時失事,况且面對海量數據,根本是沒有可能完全以人手處理。幸而過去二十年人工智能研究,尤其是機器學習、自然語言處理和電腦視覺領域發展一日千里,這類分析可用人工智能軟件代替。
可估計人類行為
當以上3V問題解決,透過統計分析,數據就可以說話。因應海量數據應運而生的一門學科,名為「社會物理」(Social Physics),由美國麻省理工媒體實驗室率先提出。說穿了,人們為何要分析海量數據?無非都只是想理解人類行為模式。以網上商店為例,只要收集的數據夠多,就可用統計學的方式得知買了甲產品的人之後多數也會買乙產品、丙產品。這種人類行為模式可用於估計人類行為,應用例子之一是網上商店在你瀏覽一件產品時會列出你可能有興趣的其他產品。由於數據量高,估計的準確度很高,甚至可以估計人類非常微細、複雜,只存在於潛意識的決策行為。
除了估計行為之外,經過海量數據分析出的人類行為模式,其實只是統計模型,也即是一般人類行為原來是可以歸納成為數學公式,就像物理學的PV=nRT之類公式那樣。理解這些人類行為的公式,我們不單可以更加理解人類自己,更前衛的想法是﹕就像我們知道浮力定理,我們可以用工程學方法去令重物如飛機在空中飛起來;當我們理解人類行為的公式,人類的行為又能否以工程學的方法去操控(Engineered)呢?
誰收集數據 誰有權分析?
更值得大家反思的是,如若人類行為模式可以透過海量數據分析而被估計、理解甚至改變,這些知識的擁有者是誰?是不是誰人收集數據,誰人就有權分析數據,繼而擁有這些知識?現時的版權法和私隱保障法例通常只理會原始資料的保密和公開法則,沒有保障用戶數據可否被分析。部分社交媒體、商業機構和政府甚至保留數據被第三方分析的權利。
壟斷社會物理知識擁有權
當海量數據的分析權都歸收集數據一方,他們就壟斷了社會物理知識的擁有權。試想像專制(或半專制)政府透過分析海量數據完全理解人民的行為,但沒有公布此類知識,只在背後利用這些知識控制市民,人民被蒙在鼓裏,這會否就是歐威爾筆下《一九八四》的現代版?
先進國家政府已開始順應潮流,把政府所收集的數據公開,讓市民都有權分析政府數據,同時也可增加政府的透明度。以英國政府的公開數據網站data.gov.uk為例,現已公開了近兩萬組數據,任由世界各地網民下載分析。香港政府開放數據相對較遲起步,港府的data.one開放數據網站只有四十五款數據可供下載,立法會亦於去年開始在網上公開數據。本地組織Open Data Hong Kong正積極要求港府將更多的數據以可供分析的格式公開,但政府網站仍多以HTML和PDF等等難以分析的格式發布數據。
本人的興趣是文本分析和計算新聞學(Computational Journalism)。上面講過現代數據的款式多,就算政府發布的數據零散,但只要用特定的人工智能方法處理再進行統計分析,仍可有不少有趣的發現,讓我們更加了解現在的香港。
文 陳電鋸
編輯 顏澤蓉
fb﹕www.facebook.com/SundayMingpao
由於海量數據一詞已變成商業套語,市面上人人對它的誤解也很深。
在討論何謂海量數據之前,應先正本清源,談談何謂數據。
根據牛津字典的解釋,data一詞的定義為:
information, especially facts or numbers, collected to be examined and considered and used to help decision-making, or information in an electronic form that can be stored and used by a computer.
資訊,尤其是事實或數字,被收集作研究、參考和幫助決策之用;或電子型式的資訊,可在電腦儲存和應用。
根據以上的定義,可以提取三個關鍵字:事實、幫助決策、電子型式。
現時的數據可謂無處不在,除了以傳統的研究方法如問卷調查收集的數據之外,還有不少大家日常生活所留下的電子紀錄,例如每天在facebook留下的Like、網上購物的紀錄、對不同電影的評論、上載到YouTube的影片、「打卡」的GPS位置等等。政府和商業機構同樣會產生數據,例如機場飛機的升降紀錄、連鎖店各分店的銷售紀錄等等。很多人誤解,只要收集數據用作分析就是海量數據。個人認為此類行為只可稱作「數據分析」,是沒有什麼技術上的挑戰可言。而真真正正令到分析海量數據變得艱難,是三個V。
分析數據有3難
1. Volume數據量
以一個儲存在我的硬碟的問卷調查數據檔案為例,這個檔案內有一千五百人的調查數據,它的大小只有37KB,約為四秒MP3音樂所佔的容量。任何的統計人員,都應該有足夠的統計知識分析此類小型數據而得出有用的結論。
但想想以下的數據量:
一個人的基因圖譜——約770MB(問卷數據的兩萬倍)
美國國會圖書館所有出版物內容——約10TB(問卷數據的三億倍)
每天Google處理的數據量——約20PB(問卷數據的六千億倍)
面對如此數據量,分析人員都只有束手無策。先不談如何分析以上的數據,現時電腦的儲存裝置愈來愈平,理論上以上的數據是可以用現有硬件妥善的儲存起來。但問題是如何有效地儲存如此巨量的數據,但仍可供分析之用,卻是現時的一大難題。傳統數據庫的關聯模型(relational model)是難以儲存如此巨量之數據,這是數據量巨大仍為電腦科學一大挑戰之原因。
另外,如果數據量如此巨大,亦會挑戰用作分析的電腦。分析的時間會因應數據量增加而變長,若然分析海量數據要等到天荒地老才有結果,這亦無助於決策。故此海量數據亦同時刺激電腦運算研究,例如以平行聯機運算(parallel computing)加快速度、改進演算法等等。
2. Velocity數據產生速度
上面提到,每天Google處理的數據量是20PB,也即是一星期就會產生140PB、一個月就會產生1120 PB(或1EB)……數據產生的速度愈來愈快,不單止有上述數據量的問題;若要緊貼外圍情况,作出精準決策,分析的頻率要增多、速度又要加快。故此很多時都要將數據分析自動化。
3. Variety數據款式
傳統由問卷調查所收集的數據,格式通常都很乾淨,例如是試算表之類。而傳統的統計分析方法,亦都是針對此類格式的數據而設。但現代數據可以是一段對話、一張圖片、一段短片,傳統的統計工具是無法分析此類數據。若要分析就要經過人眼進行內容分析(content analysis),例如要分析facebook上載圖片的selfie比率,就要經人眼看過圖片再對圖片作出評比,決定是否selfie,方可統計。這類內容分析費時失事,况且面對海量數據,根本是沒有可能完全以人手處理。幸而過去二十年人工智能研究,尤其是機器學習、自然語言處理和電腦視覺領域發展一日千里,這類分析可用人工智能軟件代替。
可估計人類行為
當以上3V問題解決,透過統計分析,數據就可以說話。因應海量數據應運而生的一門學科,名為「社會物理」(Social Physics),由美國麻省理工媒體實驗室率先提出。說穿了,人們為何要分析海量數據?無非都只是想理解人類行為模式。以網上商店為例,只要收集的數據夠多,就可用統計學的方式得知買了甲產品的人之後多數也會買乙產品、丙產品。這種人類行為模式可用於估計人類行為,應用例子之一是網上商店在你瀏覽一件產品時會列出你可能有興趣的其他產品。由於數據量高,估計的準確度很高,甚至可以估計人類非常微細、複雜,只存在於潛意識的決策行為。
除了估計行為之外,經過海量數據分析出的人類行為模式,其實只是統計模型,也即是一般人類行為原來是可以歸納成為數學公式,就像物理學的PV=nRT之類公式那樣。理解這些人類行為的公式,我們不單可以更加理解人類自己,更前衛的想法是﹕就像我們知道浮力定理,我們可以用工程學方法去令重物如飛機在空中飛起來;當我們理解人類行為的公式,人類的行為又能否以工程學的方法去操控(Engineered)呢?
誰收集數據 誰有權分析?
更值得大家反思的是,如若人類行為模式可以透過海量數據分析而被估計、理解甚至改變,這些知識的擁有者是誰?是不是誰人收集數據,誰人就有權分析數據,繼而擁有這些知識?現時的版權法和私隱保障法例通常只理會原始資料的保密和公開法則,沒有保障用戶數據可否被分析。部分社交媒體、商業機構和政府甚至保留數據被第三方分析的權利。
壟斷社會物理知識擁有權
當海量數據的分析權都歸收集數據一方,他們就壟斷了社會物理知識的擁有權。試想像專制(或半專制)政府透過分析海量數據完全理解人民的行為,但沒有公布此類知識,只在背後利用這些知識控制市民,人民被蒙在鼓裏,這會否就是歐威爾筆下《一九八四》的現代版?
先進國家政府已開始順應潮流,把政府所收集的數據公開,讓市民都有權分析政府數據,同時也可增加政府的透明度。以英國政府的公開數據網站data.gov.uk為例,現已公開了近兩萬組數據,任由世界各地網民下載分析。香港政府開放數據相對較遲起步,港府的data.one開放數據網站只有四十五款數據可供下載,立法會亦於去年開始在網上公開數據。本地組織Open Data Hong Kong正積極要求港府將更多的數據以可供分析的格式公開,但政府網站仍多以HTML和PDF等等難以分析的格式發布數據。
本人的興趣是文本分析和計算新聞學(Computational Journalism)。上面講過現代數據的款式多,就算政府發布的數據零散,但只要用特定的人工智能方法處理再進行統計分析,仍可有不少有趣的發現,讓我們更加了解現在的香港。
文 陳電鋸
編輯 顏澤蓉
fb﹕www.facebook.com/SundayMingpao
留言 (0)