世界統計日談大數據(楊良河、林建)

By on October 22, 2015

本文作者楊良河博士為香港大學統計及精算學系副教授、林建教授為香港浸會大學榮休教授,為《信報》撰寫專欄「數裏見真章

日本Netflix宣傳片段截圖

日本Netflix宣傳片段截圖

執筆為文時,正好是被聯合國選定為「第二個世界統計日」的10月20日。還記得去年在「第一個世界統計日」的晚上,筆者之一就出席了由政府統計處與香港統計學會合辦的晚宴,並被邀為演講嘉賓之一。時間過得真快,一年後的這天,本港又有兩個大型公開講座:一個是由香港統計學會主辦的「優化數據 改善生活」的講座,另一個是由香港大學理學院主辦的「大數據時代下的統計學」。本文的另一位作者正好是第二個講座的講者之一,本文的部分內容亦來自該講座。

Duke University的Dan Ariely教授,把大數據比喻為Teenager sex,因為「所有人都能琅琅上口,但沒有人真正知道怎麼做,每個人都以為別人在做,於是每個人都宣稱自己正在做」【註一】。

我們都是數據的提供者

大數據侵入我們日常的生活圈子,已是不爭的事實。2014年的夏天,Google就徵集了數千志願者,搜集個人有關遺傳的分子結構,用以研究心臟病、癌症等病的成因。另一間公司 Evolv就通過大型的商業機構,搜集了數百萬名應徵工作者的資料,並利用之以幫助公司挑選員工。事實上,我們很多人都是大數據的提供者:只要你在智能電話上安裝了Facebook,你個人的網上連繫就會出現在Facebook的數據庫中,通過研究這些數據,有助於研究每個個人在群體中的影響力,例如在推廣市場時,可以集中於針對某些特別有影響力的「Influencer」來促銷。

數據分析師/科學家

統計學界有一句名言︰「Garbage in,garbage out」,意即是利用不精確的數據,就會得到荒謬的結論。時下通過電子渠道所取得的數據,其精確性不容置疑,但良好的食材如果缺乏一個烹技高明的廚師,也不能調校出美味的佳餚。近年來大數據在四個方面;數量(Volume)、速度(Velocity)、種類(Variety,例如文字、圖像、聲音)及準確性(Veracity)都有迅猛的增長,要駕馭這樣複雜的數據,非要有特定的專才不行。但目前市場上就比較缺少了從事資料的探勘和分析的數據分析師 (Data analyst),而更缺乏的可能是數據科學家(Data scientist)。

資料科學家除了從事大數據的蒐集、整理和初步分析外,還要進一步提出相關的理論來測試數據所顯示的真相、建立相關的統計模型,在眾多因素中作出測試和挑選,利用由數據所得出的結論來制訂相關策略,並與各方面的持份者進行解釋和溝通。

Sexiest job in 21st century

無論是數據分析師或科學家,其薪酬較其他領域的相應人才都更為優厚。美國大學畢業生的平均工資約為4.7萬美元,但數據分析師的年薪平均為5.4萬美元,而數據科學家的平均年薪更高達13.2萬美元(高於相應的高級工程師),無怪乎Harvard Business Review的一位作者,把這類工作稱之為「The sexist job of the twenty first century」【註二】。

美國統計學會(American Statistical Association)的「大數據研究與發展工作小組」(Big Data R&D Initiative Working Group)於2014年為學會撰寫了名為Discovery with Data︰ Leveraging Statistics with Computer Science totransform Science and Society的白皮書(White paper),指出統計學要與計算科學攜手利用數據,為科學及社會多作貢獻。2015年在皇家統計學會(Royal Statistical Society)的主席致辭(Presidential address)中,Professor Diggle指出,統計學由始以來都是數據科學(Data science)的一個重要環節︰從數據中找出結論及規律,正是統計學家的社會任務。

你猜得到顧客的喜好嗎

下面的一個實例,可讓讀者更深入了解統計學在大數據領域中可起的作用。

Netflix是一間電影租賃公司,旗下有17700套電影,客戶有480189名,很多客戶都願意為電影來個喜好排名(Ranking)。圖中每行代表一名顧客, 每列代表一套電影, 相應數字是顧客給電影的排名 。由此而出現的數據矩陣(Matrix,見圖)相當龐大,但由於每個客戶只租賃過少數的電影,所以矩陣內有很多沒有排名的空格(圖內用圓點表示),事實上,矩陣中只有1%的方格是有先後排名的。Netflix最近就舉行了一個競賽,它把部分(例如10%)排名數據收起,把其餘(例如90% )的排名數據向參賽者公布,讓他們競猜他們看不到的排名數據。

結果在Netflix Prize的網站中,高佔鰲頭的一隊,雖然看不到被收起的數據,但猜中率達85.67%之高。有趣的是,該隊的隊長為統計專才,在競猜過程中,用上統計學中的SVD(Singular value decomposition)才有此佳績。

以上的例子,只是大數據冰山之一角。事實上,每個客戶的個人資料(性別、年齡、地址等等)都可利用來作為分析,數據便由二維矩陣變身為N維矩陣,大大增加了分析的難度。但除了在Volume(四個V字之一)上有所擴充外,數據也可以用不同的形式出現(另一個V︰Variety)︰例如客戶可用文字來表達對某一電影的評價,如何把文字數據進行量化,量化後又如何進行分析等,正正是數據分析師/科學家所要面對的問題。

註一︰「Big data is like teenage sex : everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it.」

註二︰ Davenport and Patil,「 Data scientist : the sexist job of the 21st century 」 , Harvard Business Review, 90, number 10, Oct, 2012 : 70-76.

data 22oct

更多楊良河、林建文章:

支持 StartupBeat

如欲投稿、報料,發佈新聞稿或採訪通知,按這裡聯絡我們