廣東話影片添字幕 AI數秒完成

By on September 14, 2020

原文刊於信報財經新聞「StartupBeat創科鬥室

黃偉俊指近年不少人涉足影片攝製。(黃潤根攝)

黃偉俊指近年不少人涉足影片攝製。(黃潤根攝)

廣東話是港人母語,由於它有「九聲六調」(九個聲調,六種音高)說法,一向被視為相對難學的語言,即使是人工智能(AI)語音辨識技術,對廣東話的辨識能力亦普遍低於英文及普通話。本地初創Datax最近研發一個廣東話字幕平台「字幕𠹌Subanana」,協助YouTuber、教師及製作公司等,最快幾秒內把影片內的廣東話內容,轉化成字幕。

Datax創辦人及行政總裁黃偉俊接受訪問時稱,公司之所以研發廣東話字幕平台,皆因他留意到愈多愈多人需要涉足影片攝製工作,教師在肺疫期間亦不例外。希望這工具可協助各界影片製作人,解決加字幕這繁瑣工序。

Datax本身是一個數據蒐集平台,透過一班數據貢獻者,為AI系統開發者提供所需數據,從而訓練AI系統。黃偉俊透露,今次的廣東話字幕平台,同樣要涉及AI技術,但相關的語音辨識系統並非團隊自行研發,而是外接第三方系統的應用程式介面(API)。

Subanana平台辨識廣東話,準確度約有七成。(網上圖片)

Subanana平台辨識廣東話,準確度約有七成。(網上圖片)

用戶只要在Subanana平台,輸入影片的YouTube超連結(影片長度不超過15分鐘),或直接上傳影片檔案(檔案容量不大過500MB),在短短幾秒內,系統即會自動生成字幕。

Subanana系統準確度約七成

黃偉俊補充,第三方語音辨識系統只會把影片內容,轉成一大段無斷句的文字。之後便要靠Subanana系統,根據影片的音訊波形(audio waveform),以及一些廣東話常用於句子結尾的字詞(例如喎、啊等)分析斷句,把文字整合或分隔為句子。目前系統辨識廣東話,準確度約有七成。

根據記者的試用經驗,系統有時未能把一小段文字,準確地分成多句句子,於分隔句子方面仍有改善空間。黃偉俊期望,日後系統可進一步分析影片畫面,從而更準確地掌握斷句位置。記者亦發現,系統間中會誤用同音或讀音相近的字,例如「又」被錯誤辨識成「有」、「件事」被辨識為「電子」等,因此字幕生成後,用戶切記自行校對。

「字幕𠹌 Subanana」利用AI技術,幾秒內將影片內容,轉化成廣東話影片字幕。(網上圖片)

「字幕𠹌 Subanana」利用AI技術,幾秒內將影片內容,轉化成廣東話影片字幕。(網上圖片)

支持 StartupBeat

如欲投稿、報料,發佈新聞稿或採訪通知,按這裡聯絡我們