You are currently at: ejtech.hkej.com
Skip This Ads
Don't Miss

解決獎勵函數漏洞 (車品覺)

By on May 10, 2023

本文作者車品覺,為紅杉資本中國專家合夥人、阿里巴巴商學院特聘教授暨學術委員會委員,為《信報》撰寫專欄「全民大數據」

你曾經有養狗的經驗嗎?姑勿論主人對狗狗期望高低,訓練寵物時都少不免要給予獎勵。最常見的把戲,莫過於主人向狗狗發出一個指令(狀態),例如「坐下」(Sit),牠會根據指令,做出坐下的行動(Action),在狗狗正確地執行了指令後,主人會給予獎勵(Reward)。通過不斷地重複發出指令、成功執行行動和給予獎勵的行為,狗狗會獲得更多的累積獎勵(包括快樂)並完成訓練任務。

以上是正向強化學習的簡單原理,強化學習是人工智能(AI)的一個應用方式,例如在自動駕駛、聊天機械人等領域,這些智能應用通過與環境的交互,不斷地接受指令並從行動中學習,而「獎勵函數」正是用來評估智慧應用的行為模式與目標是否吻合,通過達成最大化獎勵來優化智能應用。

可想而知,當獎勵策略是強化學習的關鍵,如果關注太單一的任務及目標,而沒考慮到在完成任務過程中的不合理情況(例如作弊或意外),讓獎勵變得不合理。

若只過度獎勵考試成績,可能令學生傾向死記硬背來獲得高分。(路透資料圖片)

我們把這種情況稱之為「獎勵函數漏洞」(Reward Hacking),這漏洞最終會影響機器學習和人工智能應用的可靠性和安全性。

讓我舉一個活生生的例子,在學校裏學生的表現,往往是通過考試成績來評核的。如果學生在考試奪得高分,就容易得到老師讚許,甚至可以獲得獎學金。

不過,倘若過度「獎勵」學生的考試成績,而不關注學生的實際學習情況和能力,那麼學生可能會傾向死記硬背來考取高分,最終獲得獎勵,但實際上可能未必真正掌握到應用知識和技能。因此,執教者需要因應學生的學習情況和能力,設計更加多樣化的獎勵方式來鼓勵學生,這可能包括更多的實踐、項目研習和體驗,嘗試從多方位角度評估,以確保學生正確被激勵。

執教者須因應學生的情況,設計更加多樣化的獎勵方式,以確保學生正確被激勵。(Freepik網上圖片)

解決「獎勵函數漏洞」方法之一,是增強獎勵函數的魯棒性(Robustness),使其能夠更好地抵禦異常及危險意外情況,盡可能地避免漏洞的出現。然而,有時「人算不如天算」,且說在學校使用ChatGPT做作業,就已經造成獎勵漏洞。世界各地大學對此持着不同意見,可見現實生活中的「加強學習」更比想像中為複雜。

(編者按:車品覺著作《覺悟.大數據》現已發售)

歡迎訂購:實體書、電子書

更多車品覺文章:

支持EJ Tech

如欲投稿、報料,發布新聞稿或採訪通知,按這裏聯絡我們