You are currently at: ejtech.hkej.com
Skip This Ads
Don't Miss

數據治理重中之重 (車品覺)

By on March 29, 2017

本文作者車品覺,為紅杉資本中國基金專家合夥人、原阿里巴巴集團副總裁,為《信報》撰寫專欄全民大數據

圖片來源:mojix

圖片來源:mojix

什麼是大數據治理?讓我們先用一個常見的場景作解釋。假設你正在為公司建立一個統一的客戶關係管理系統(CRM),首先你要去問不同部門和相關人士,在他們眼中什麼是客戶賬戶?答案不出所料各不相同,大概歸類如下:

行銷部:賬戶是用來記錄銷售的線索。

財務部:賬戶就是有交易的客戶。

法律部:賬戶是通過互動所產生有法律協議的個體。

安全部:賬戶是保證客戶身份的途徑。

須解決三大害

儘管每個定義都正確,但深入分析時,各部門會產生不同版本的數據,甚至會「雞同鴨講」。以電商的用戶活躍度為例,究竟是指哪一種活躍?購買抑或瀏覽?我在阿里巴巴工作時,就試過從各個部門收集客戶性別數據,最終有18種之多。有時不同場景收集到的用戶性別可信度不一樣,有些甚至是通過其購買行為猜算出來的。問題就來了,到底選擇哪一個最正確?這種現象會影響到分析結果,亦會讓機器學習時產生偏差。

為什麼我要強調數據治理(data governance)而不是數據管理(data management)?因為大數據的本質是來自不同源頭的非結構性數據,通俗一點說就是「百鳥歸巢」的結合體,可想而知在未使用之前必須經過整理,行內叫這個過程做「清洗」或者預處理。關鍵是外來的非結構數據品質要保證達到標準,繼而建立全新的大數據治理架構和規範。

首席數據官(CDO)這個職位就是為了應對數據治理的挑戰。行業組織和供應商已經開發出各種各樣的數據治理框架,關注點包括戰略、策略、協同、職責、安全和合規等等。

總而言之,數據治理是大數據及人工智能的前提,否則就會淪為Garage-in Garage-out(不可靠數據產生不可靠結論)。大數據治理就是在使用數據的過程中,解決數據乏力(Data rust)、數據雜質(Data dirty)和數據斷裂(Data broken)這三害,三者解決方案缺一不可。

更多車品覺文章:

支持EJ Tech



如欲投稿、報料,發布新聞稿或採訪通知,按這裏聯絡我們