管理數據由最初開始(車品覺) – StartupBeat

管理數據由最初開始(車品覺)

By on September 12, 2017

本文作者車品覺,為紅杉資本中國基金專家合夥人、原阿里巴巴集團副總裁,為《信報》撰寫專欄全民大數據

過去兩三年,很多企業建立數據湖。(網上圖片)

過去兩三年,很多企業建立數據湖。(網上圖片)

數據管理的需求隨着數據對企業的重要性而變化,也會衍生出更多儲存模式,數據庫、數據倉庫、圖計算(Graph)、流計算(Spark)、數據湖(Datalake)等技術不斷推陳出新。建立數據湖的背後邏輯是數據積累愈多愈好,在過去兩三年,很多企業已經或者正在建立數據湖。數據湖的巨大吸引力在於,大家相信有了愈多數據資源後,就能對業務產生更大價值。但人們往往很快發現,除了技術能力之外,如何安全和合規地使用這些資源比想像中困難得多。最近因為在研究有關跨境數據的安全標準,令我對企業如何處理個人私隱數據更加關注,尤其是跨國的個人數據絕對不能忽視。你可以想像一些跨國互聯網公司的情況,一個不小心失誤的後果,可以是數十億元的罰款。

「導體」減使用阻力

古言「善泳者溺」,數據也是如此。數據來源之錯亂,讓合規情況更複雜,大數據從業者所期望的穩定管理模式也很難實現。這意味着用意良好的數據湖很容易變成一個累贅,最終只會向少數用戶開放資源,跟初衷背道而馳。對資訊收集者來說,既耗費了資源,又沒有得到好處,竹籃打水一場空。根據我的實踐經驗,要做好數據治理,應按照數據的生命周期步步為營,管理最好能從攝取數據之時就開始,盡可能追蹤數據從「未經加工」到「準備就緒」到「銷毀」的整個過程,我們把這些數據上的數據稱為中繼數據。數據治理的目標是為了更有效運用數據資源,而中繼數據正是治理的根據所在。

最近有創新公司提供名為「數據導體」的服務,其功能就是充分利用元數據去減低企業使用數據時的「阻力」。首先讓企業在選擇使用數據前,透過中繼數據對來源作出更全面分析,為使用場景判斷出數據所需的樣本大小和敏感級別,同時也可節省成本及減低合規風險。「數據導體」不僅評估內部數據,還可識別外部數據的可用性,又能促使數據來源保持恰當的數據品質保證。換言之,用戶可以毫不費力地迅速知道哪些數據可用,而不必靠猜或者長時間搜索。

作為曾經的數據管理層,我敢說大數據的使用成本正在加速上漲,而「數據導體」正是生態圈中應運而生的產業。就像交通擠塞了,自然有人會想到在路上起「天橋」一樣。

(編者按:車品覺最新著作《覺悟.大數據》現已發售)

歡迎訂購:實體書、電子書

更多車品覺文章:

支持 StartupBeat

如欲投稿、報料,發佈新聞稿或採訪通知,按這裡聯絡我們