Don't Miss

解決獎勵函數漏洞 (車品覺)

By 信報財經新聞 on May 10, 2023

本文作者車品覺，為紅杉資本中國專家合夥人、阿里巴巴商學院特聘教授暨學術委員會委員，為《信報》撰寫專欄「全民大數據」。

你曾經有養狗的經驗嗎？姑勿論主人對狗狗期望高低，訓練寵物時都少不免要給予獎勵。最常見的把戲，莫過於主人向狗狗發出一個指令（狀態），例如「坐下」（Sit），牠會根據指令，做出坐下的行動（Action），在狗狗正確地執行了指令後，主人會給予獎勵（Reward）。通過不斷地重複發出指令、成功執行行動和給予獎勵的行為，狗狗會獲得更多的累積獎勵（包括快樂）並完成訓練任務。

以上是正向強化學習的簡單原理，強化學習是人工智能（AI）的一個應用方式，例如在自動駕駛、聊天機械人等領域，這些智能應用通過與環境的交互，不斷地接受指令並從行動中學習，而「獎勵函數」正是用來評估智慧應用的行為模式與目標是否吻合，通過達成最大化獎勵來優化智能應用。

可想而知，當獎勵策略是強化學習的關鍵，如果關注太單一的任務及目標，而沒考慮到在完成任務過程中的不合理情況（例如作弊或意外），讓獎勵變得不合理。

我們把這種情況稱之為「獎勵函數漏洞」（Reward Hacking），這漏洞最終會影響機器學習和人工智能應用的可靠性和安全性。

讓我舉一個活生生的例子，在學校裏學生的表現，往往是通過考試成績來評核的。如果學生在考試奪得高分，就容易得到老師讚許，甚至可以獲得獎學金。

不過，倘若過度「獎勵」學生的考試成績，而不關注學生的實際學習情況和能力，那麼學生可能會傾向死記硬背來考取高分，最終獲得獎勵，但實際上可能未必真正掌握到應用知識和技能。因此，執教者需要因應學生的學習情況和能力，設計更加多樣化的獎勵方式來鼓勵學生，這可能包括更多的實踐、項目研習和體驗，嘗試從多方位角度評估，以確保學生正確被激勵。

執教者須因應學生的情況，設計更加多樣化的獎勵方式，以確保學生正確被激勵。（Freepik網上圖片）

解決「獎勵函數漏洞」方法之一，是增強獎勵函數的魯棒性（Robustness），使其能夠更好地抵禦異常及危險意外情況，盡可能地避免漏洞的出現。然而，有時「人算不如天算」，且說在學校使用ChatGPT做作業，就已經造成獎勵漏洞。世界各地大學對此持着不同意見，可見現實生活中的「加強學習」更比想像中為複雜。

(編者按：車品覺著作《覺悟．大數據》現已發售)

歡迎訂購：實體書、電子書

支持EJ Tech

如欲投稿、報料，發布新聞稿或採訪通知，按這裏聯絡我們。

Tweet

Pin It

Latest News

中美矛盾｜外媒：華為秘密資助美國大學前沿研究
外電引述消息人士報道，中國電訊設備商華為正在通過一個位於華盛頓的獨立基金會，秘密資助哈佛等美國大學的前沿研究。

Posted May 3, 2024

0

非法盒子的風險（林國誠）
坊間有不少非法的機頂盒聲稱可以讓用家免費收看不同地區的電視節目、電影及足球賽事直播，但這類機頂盒提供的內容未經授權，它們更可能帶來安全風險和網絡保安問題。

Posted May 3, 2024

0

明日黃花的Siri與AI手機革命（黃岳永）
現時每人至少一部智能手機，應該沒有多少人記得PDA（Personal Digital Assistant），更多人認識的名字應該是Palm Pilot，這種自帶手寫筆且布滿大號按鈕的掌上電腦，在十多年前這種電腦可是不少商務人士的最愛。

Posted May 3, 2024

0

新型電池｜固態電池薄如紙 1分鐘叉爆
瑞士蘇黎世聯邦理工學院（ETH Zürich）旗下初創BTRY，利用半導體生產的特殊塗層技術，開發一種超快充電的固態電池，理論上一分鐘充電100%，並能承受劇烈溫度變化，聲稱使用壽命多一般電池約10倍。

Posted May 3, 2024

0

AI之戰｜Microsoft 泰國建數據中心
微軟行政總裁納德拉（Satya Nadella）近日出訪東南亞三國，周三（5月1日）在曼谷會晤泰國總理色他（Srettha Thavisin），透露會在當地建設第一座數據中心，為超過10萬人裝備人工智能（AI）技能，當中包括培訓旅遊及酒店行業人才。

Posted May 3, 2024

0

AI趨勢｜LinkedIn創辦人AI分身聆聽動作多
職場社交平台領英（LinkedIn）聯合創辦人霍夫曼（Reid Hoffman），最近接受人工智能（AI）虛擬分身視像訪問。他在網誌提到，AI分身如就一面鏡子，有助他換位思考。

Posted May 3, 2024

0

澳拓商用量子電腦支援醫療運輸行業
澳洲政府宣布向美國量子電腦初創PsiQuantum投資9.4億澳元（約48億港元），構建全球首台「商用」量子電腦系統，擁有100萬個物理量子位元（Qubit），預計2027年底投入營運。

Posted May 3, 2024

0

EJ Tech Video

POPULAR POSTS

港大初創LPC｜3D建築繪圖技術結合AI提升消防安全

 智能手機之戰｜Samsung 首季營業利潤飆9.3倍料生成式AI需求續強勁

 中美矛盾｜外媒：華為秘密資助美國大學前沿研究

 小米進軍電動車市場｜雷軍：汽車蝕錢程度算中等偏少

 AI測天氣｜華為雲夥香港天文台天氣預報增至15天

 本地創科動態｜科大5億「紅鳥基金」撐初創冀組20億風投專攻深科技

 生物塑膠半年降解｜美國研生物複合塑膠嵌入細菌孢子遇堆肥激活分化快速降解

 Apple最新動態｜傳設歐洲AI實驗室廣招Google專家

 澳拓商用量子電腦支援醫療運輸行業

 Google裁員｜解僱數百核心員工部分職位轉至印度、墨西哥

成為 EJ Tech 會員

接收最新創科資訊

Click here to unsubscribe

解決獎勵函數漏洞 (車品覺)

更多車品覺文章：

支持EJ Tech

Latest News

EJ Tech Video

POPULAR POSTS

成為 EJ Tech 會員