「流計算」愈趨重要 (車品覺)

By on November 7, 2017

本文作者車品覺,為紅杉資本中國基金專家合夥人、原阿里巴巴集團副總裁,為《信報》撰寫專欄全民大數據

對做數據的人來說,「雙11」購物節是一次年度大考。(新華社資料圖片)

對做數據的人來說,「雙11」購物節是一次年度大考。(新華社資料圖片)

每年一度的「雙11」購物節又來了,對我們做數據的人來說又是一次年度大考,真的猶有餘悸。過去幾年,每當幾億人享受網購的時候,媒體對着數據大熒幕為打破交易紀錄而歡呼的背後,還有一班技術人員在默默地觀看着自己努力的成果。當中不得不介紹的是「流計算」技術,它是「雙11」的即時指揮大屏、全球直播媒體大屏、商品投放排序優化、個性化推薦等功能的幕後功臣。

用一個簡單比喻,假如你站商場門口,四方八面顧客向着你走來,而你要不斷預測進來的人的性別、年齡、 喜好、購買力等等。在人流一刻也不停歇的同時,我們要從數據中分析最新人流的特徵趨勢,並決定門口的電子海報內容如何最能吸客。

能快速持續處理數據

從上面的事例中,數據的價值轉瞬即逝,或是隨着時間流逝而貶值,因此有必要在事件出現後即時進行分析處理。過去的傳統做法,是把持續到達的數據先存到數據庫中,之後才作分析;不過,移動互聯場景要求快速連續的數據得到即時處理,而「持續處理」是數據流應用的典型特徵,執行此類動態計算的程式被稱為「流計算」。

典型的移動互聯的數據來源都是即時、數量大、不間斷,最貼切的例子應該是Real Time Bidding(即時競價)的廣告,標準的回應時間是200毫秒內。

試想一下,淘寶要根據用戶偏好、地理位置、歷史點擊等資訊,動態估算不同頁面中一個廣告被點擊的可能性。一個主頁面可能每秒鐘有成千上萬次訪問,每個頁面包含多個廣告。為了及時插入基於流量的點擊付費模式的有效廣告,選擇最佳位置展現最相關的廣告是核心競爭力。這種系統極需要一個低延遲、可擴展、高可靠的數據流處理引擎。

流計算的重要性會隨着智能時代及物聯網的深入而變得愈來愈重要,同時也意味着大數據的技術也在不斷革新。企業要明白在新科技時代,單純「以不變應萬變」已經此路不通。

(編者按:車品覺最新著作《覺悟.大數據》現已發售)

歡迎訂購:實體書、電子書

更多車品覺文章:

支持 StartupBeat

如欲投稿、報料,發佈新聞稿或採訪通知,按這裡聯絡我們