You are currently at: ejtech.hkej.com
Skip This Ads
Don't Miss

中大電子工程學系教授李丹 為失聲者留下獨有聲線 (潘天惠)

By on May 20, 2022

本文作者潘天惠,為《信報》撰寫專欄「訪談錄」。

「廣東話真係好正!」中大電子工程學系教授李丹,14歲由內地來港才首次接觸廣東話,自1992年起醉心研究語音處理技術,去年成功為即將失聲的喉癌病人設計出「獨家留聲機」,將來有望留住更多香港好聲音。

「Rec唔recognize到呀?哈哈,一個英文字中間夾雜中文,對我們來說是非常有趣。」他開懷大笑,說得雲淡風輕。停一停、想一想,今日我們用語音轉化文字只需要幾秒鐘,但是背後的漫長研究,又何止花了十年功。

「去年夏天,有學生在社交平台見到有網友求助,得知有位女士因喉癌復發,即將接受手術,之後會喪失說話能力,兒子希望把母親的聲線留下。」初步了解後,李丹認為與團隊做的研究相似,「成件事有得諗」,馬上聯絡其家人安排後續事宜,「原理跟Siri差不多,利用人工智能技術生成語音模型,特別之處在於採用病人的獨有聲線。」

中大教授李丹花了半生青春研究廣東話語音轉化技術,造福後世。(吳楚勤攝)

中大教授李丹花了半生青春研究廣東話語音轉化技術,造福後世。(吳楚勤攝)

當時,距離病人接受手術剩下10日,但一般研究項目需要錄音超過10小時,究竟在有限時間內如何做到?「實際上,我們只剩下7日進行錄音,考慮到身體狀況等不同因素,我們無法要求病人長時間不停講,於是我們見面5次,大方向是錄得幾多得幾多,最終有效錄音為5小時左右。」他有條不紊地交代經過。

「研究角度上未必夠用,但時間無多,我們只能盡做,刻意收錄風格不同的對話,頭一次先錄日常用語,之後再錄其他內容。」頓一頓,他再說:「她本身在教會工作,便要求她讀一段《聖經》,再講一些辦公室用到的句子,如『可唔可以幫我攞份文件』之類。」

故事點播機

去年6月開始錄音,病人7月初開刀,9月左右「獨家」應用程式便告面世,他滿意地表示:「要找發聲工具不難,難在要做到語速、語氣、說話風格似足當事人,為了讓用家更容易操作,我們預設了常用句子,如『潘生你好』,只需改一個字,便能對另一個人說話。」

李丹即場向記者示範,果然神奇到一個點,不知來龍去脈的話,根本不可能分辨到聲音是由AI模仿出來,「家人和朋友聽起來覺得很親切,病人很高興,甚至可預先錄製講話,再配合PowerPoint做分享會,不認識她的人,如果只聽語言短訊,完全無法知道她已失去說話能力。」

去年有位女士因喉癌復發,即將接受手術,之後會喪失說話能力,兒子希望把母親的聲線留下,李丹(右一)利用人工智能技術生成語音模型。(信報資料圖片)

去年有位女士因喉癌復發,即將接受手術,之後會喪失說話能力,兒子希望把母親的聲線留下,李丹(右一)利用人工智能技術生成語音模型。(信報資料圖片)

有關應用程式目前不適合其他人使用,但中大團隊仍為病人建立了專屬伺服器,「我們最初只是想幫助她,她覺得效果理想,期望未來幫到更多人,於是我就主動聯繫耳鼻喉科醫生,目前也在跟進幾個病人,最大問題是,實驗室日常工作是教學,即使學生願意犧牲私人時間,一旦太多病人找上門,怕人手和資源應付不來,現階段還在探討將來如何走下去。」

或許,「獨家留聲機」短期內未必能廣泛應用,但預計今年內推出的「故事點播機」,相信會是父母們的福音。「原意是鼓勵小朋友自己創作故事,目前還有少少沙石,但已準備得七七八八。」他解釋,這款應用程式收錄了約100個兒童故事,能讓小朋友自行改動內容,如角色名字、顏色、地點等,數十秒便可生成全新故事,非常有趣。

語音處理技術今日走入了尋常百姓家,但原來並非學界熱門研究範疇,受歡迎程度遜於圖像處理、臉部識別或元宇宙,李丹在1992年入行時全港只有兩個語音工程師,「今日包括我在內,香港只有五六個教授,為何那麼少?原因很多。」他的博士論文導師程伯中,1985年創立中大語音處理實驗室,後來獲擢升為中大副校長。

李丹(箭嘴)在每科的最後一堂,也會與學生合影留念。他為近兩年面授課減少而深感可惜。(受訪者圖片)

李丹(箭嘴)在每科的最後一堂,也會與學生合影留念。他為近兩年面授課減少而深感可惜。(受訪者圖片)

學生極搶手

自上世紀七十年代開始,英美開始研究語音處理,他表示:「兩大骨幹技術是speech recognition和text to speech,但進展不似預期,到九十年代初,依然停留在單字轉化,直至2012年研究人員把深度學習(deep learning)技術運用在speech recognition之上,才出現階梯性上升,加上智能手機增加了應用空間,工業界大飛躍,技術逐漸『落地』。」

「語音工程師現在炙手可熱,美國大公司動輒出到20萬美元年薪,我的學生畢業後都被騰訊、阿里巴巴、美團、華為等羅致,奈何本地學生比例不見大增長,高水平的學生仍以讀醫和法律為主。」他感慨道。

世事如棋,這名語音工程師在1984年入讀中大時,原來主修數學,「當年仍未搞清楚前途,升上大學才發覺純數講求抽象思考,與中學截然不同,愈讀愈吃力,後來發現電子工程幾有趣,聽過高錕的講座,便在一年班下學期轉系,成績中上。」他畢業後繼續讀碩士,然後到城市理工學院(城市大學前身)出任教學助理兩年,首次體會春風化雨的滋味,「回到港大讀博士,我跟的教授正是處理廣東話的語音技術,假如當年的師父是做半導體的,也許我今日就做半導體,哈哈。」

然而廣東話市場有限,為何不擁抱十多億人口的市場?他爽快回答:「起初是興趣不大,但慢慢發覺廣東話好正,博大精深,一來保存了很多中古音,二來韻母特別豐富,加上香港是全球擁有最多一流語言學家的地方,每次交流獲益良多。」

「廣東話有六聲,另加3個入聲,但高低音男女不同,如斜坡和車坡,已在語音處理上造成極大困難,而且廣東話是中國擁有最多虛詞的語言,什麼㗎、啫、喎……」李丹愈講愈興奮,「語言是流動的,香港人習慣中英夾雜,一句rec唔recognize到呀?哈哈,一個英文字加插中文,系統該如何處理呢?對我們來說是非常有趣!」

1987年,李丹(左一)與中大電子工程系同學慶祝陸運會和水運會取得佳績。(受訪者圖片)

1987年,李丹(左一)與中大電子工程系同學慶祝陸運會和水運會取得佳績。(受訪者圖片)

蘋果買數據

他的團隊建立的廣東話語音數據庫,曾經是全球最大,連蘋果初代廣東話語音識別,也要向他們買數據,但他直言自己較關注小眾利益,「過去十多年,主要研究包括利用語音技術作出關於病理的前期篩查,如3至5歲的小朋友有否語言發展遲緩、有否黐脷筋,盡早發現,盡早處理。」想一想,他再說:「有些人中風後講的每個字,你都聽得明,但一整句聽是完全沒有意思,如今利用語言分析,我們甚至可以知道大腦哪個位置受傷,從而作出針對性治療。」

30年轉眼即逝,李丹早已看淡名利:「我不在乎改變世界,不需要很多人的掌聲,只要幫到一個人,我會盡力去幫。」學生時代,他曾經是中大合唱團團長,同時熱愛打籃球,時至今日仍保持每星期打兩次的習慣,更會飛到海外參加分齡賽,「學無止境,我覺得自己是幸運兒,在大學有機會與很多高人交流,自問性格八卦,什麼都想學,試過跟隨言語治療師去山東實地考察,深信比起自己整天坐在辦公室看論文更有意義。」

花了半生研究廣東話語音轉化,偏偏他不是廣東人。「我14歲才隨家人來香港,插班中四,那時才開始接觸廣東話。」

父母當年在內地是知識分子,爸爸教數學,媽媽教音樂和體育,但來港後只能在工廠打工賺錢,「有記憶以來都是自己顧自己,父母連我幾時考試都未必知,更別提教我功課、考試,就算之後揀讀數學,也算不上受到亡父影響,但自小喜歡閱讀相信與父母有關。」

他在1996年結婚,育有一子一女,坦言深受太太啟發,閱書無數的他認為,兒女經是一輩子看不完的書,「太太讀社工,畢業後教書,她令我更願意了解其他人,教育上要避免先入為主,就如教自己的子女,當他們慢慢長大,中學開始不會再聽你講,相處方式不同,但我仍堅持親手寫信給女兒,看不看我就無從得知,哈哈!」

前中大電子工程系教授程伯中(左)是李丹(右)的博士論文導師。(受訪者圖片)

前中大電子工程系教授程伯中(左)是李丹(右)的博士論文導師。(受訪者圖片)

撰文:潘天惠

[email protected]

更多訪談錄文章:

支持EJ Tech

如欲投稿、報料,發布新聞稿或採訪通知,按這裏聯絡我們