Don't Miss

微軟AI聽3秒錄音扮人聲推語言模型VALL-E 可合成任何說話

By 信報財經新聞 on January 11, 2023

原文刊於信報財經新聞「StartupBeat創科鬥室」

人工智能（AI）發展一日千里，微軟近日針對文本到語音合成（Text-to-Speech, TTS）技術，發表「神經編解碼器語言模型」VALL-E，只要向AI提供3秒鐘錄音，便可以準確模擬當事人的聲音。VALL-E若學會一種特定聲音，就能合成對方任何說話，甚至模仿語氣及說話情景。

新模型跟操控聲波等常見做法不同，VALL-E所具備的語音合成能力，源於Meta Platforms去年10月推出的EnCodec技術，其巧妙之處在於系統能分析一個人的聲音，再利用AI訓練數據計算出到底這句話該如何發聲，再產生相應的音訊編解碼器（Audio Codec）。

能模仿聲線語氣

微軟在VALL-E示範網站上列出數十個AI模型的語音例子。介面左邊的Text為英文段落，Speaker Prompt及Ground Truth兩項，代表原有的人聲錄音。前者只有數秒長度，用作訓練VALL-E系統；後者按照Text字眼原文朗讀。此外，Baseline為傳統TTS合成例子，VALL-E代表以新模型輸出，方便網民聆聽兩者分別。

蘋果電子書增旁白

除了保留說話者的聲線特色及語氣，VALL-E更可模仿錄音樣本的「聲學環境」，例如訓練錄音來自電話時，AI合成出來的語音效果，亦模擬了講電話的感覺。不過，微軟擔心被人濫用技術，甚至用來冒充他人身份，故不設VALL-E代碼供人試用。

話分兩頭，蘋果公司上周也更新Apple Books服務，在部分精選的英文電子書，包括文學、歷史及女性小說，推出AI數碼旁白功能，共有Jackson及Madison男女配音選擇，令有聲讀物的製作及發行更簡單。至於小說以外的電子書，則交由Mitchell及Helena兩把聲音負責。

愛爾蘭網站Research and Markets去年有報告指出，全球有聲讀物的市場規模，到2030年將達到350.5億美元（約2734億港元），複合年均增長率（CAGR）為26.4%。微軟亦對AI前景感到樂觀，新聞媒體Semafor引述知情人士稱，該企傳再投資AI美企OpenAI，金額達100億美元（約780億港元）。

支持EJ Tech

如欲投稿、報料，發布新聞稿或採訪通知，按這裏聯絡我們。

AI Apple Apple Books feature Microsoft Text-to-Speech VALL-E

Tweet

Pin It

Related Posts

中國禁西方Apps｜WSJ：Apple 從中國Apps Store 下架WhatsApp

中國禁西方Apps｜WSJ：Apple 從中國Apps Store 下架WhatsApp

APP Store｜iOS非官方App Store上架年費12.5元

APP Store｜iOS非官方App Store上架年費12.5元

電動車能源｜港企研氫燃料電池轉化率提三成安全性可保障

電動車能源｜港企研氫燃料電池轉化率提三成安全性可保障

三星跑贏蘋果｜本港5G網速測試三星S24勝iPhone 15

三星跑贏蘋果｜本港5G網速測試三星S24勝iPhone 15

Latest News

中東局勢｜Google員工抗議公司與以色列政府提供技術支援28員工遭解僱
Google 解僱28名員工，這批人反對谷歌取得以色列政府雲合約。

Posted April 19, 2024

0

數碼港「初創企業綠色科技減廢」分享會｜企業研發應用程式用戶玩遊戲可推動ESG
今日（19日）下午，數碼港舉行「初創企業綠色科技減廢」分享會。會上有初創企業代表分享如何將綠色科技與回收減廢相結合，促進香港可持續發展。

Posted April 19, 2024

0

中國禁西方Apps｜WSJ：Apple 從中國Apps Store 下架WhatsApp
《華爾街日報》(WSJ）報道，蘋果公司應中國政府要求將WhatsApp和Threads從其在中國的應用商店下架，這是中國加強互聯網管控審查的最新例證。

Posted April 19, 2024

0

一卡兩號重要性（林國誠）
經常穿梭香港及內地的人士，若沒有內地手機號碼，基本上無法滿足生活所需。為方便在內地工作或吃喝玩樂，一卡兩號或虛擬號碼服務應運而生。

Posted April 19, 2024

0

聖馬力諾之心（黃岳永）
會面對失敗從來非易事，然而，失敗是經營中不可缺的一課。中小型的失敗就像受傷，當被割傷或燒傷並知道疼痛，我們就會迅速離開「災難源頭」，作出改變及處理傷口。在很多時候，小損失反而能助企業避開一劫。

Posted April 19, 2024

0

靈活機械人｜美機械人靈活動作超常理
美國機械人科企波士頓動力（Boston Dynamics）介紹新一代機械人Atlas，它採用純電力摩打驅動。機身印上巨型編號001，頭部設大量傳感器，正面及背面均有環形燈，方便以燈光與人類交流。

Posted April 19, 2024

0

APP Store｜iOS非官方App Store上架年費12.5元
蘋果公司為遵守歐盟的《數碼市場法》，容許當地市場設立第三方App Store，惟僅限於27個歐盟國家。iOS開發者Riley Testut針對歐盟地區，獨家推出開源應用程式商店AltStore PAL，讓任何人免費分發其應用程式，並已獲蘋果官方開綠燈。平台專為側面加載而設，iPhone必須運行iOS 17.4或以上作業系統，每年訂閱費1.5歐羅（約12.53港元），以補貼蘋果徵取的核心技術費。

Posted April 19, 2024

0

EJ Tech Video

POPULAR POSTS

Call的士APP｜的士又傳加價？Call的士APP哪一款最熱門？電子支付回贈幾多？HK Taxi滿意度最高？

自動駕駛｜應科院自動駕駛穿梭巴士今年載客穿梭西九文化區配備車聯網科技

 生成式AI投資｜生成式AI去年吸1968億較前年飆8倍美國佔61個模型佔主導內地持專利最多

 香港首個自主訓練AI模型｜科大領導研究支援中文英語

 個人電腦AI化｜AMD今季推AI桌面CPU Ryzen PRO系列設16型號第二季起支援惠普聯想等設備

 身份安全｜SailPoint AI管理數碼身份防被駭揪出「孤兒賬號」堵塞漏洞

 Tesla 救人｜美國男突發心臟病靠Model Y保命

 中國速度的低空經濟（廖錦興博士）

圖文並茂溝通有法（鄧淑明博士）

AI書寫偵測｜Turnitin：全年600萬篇論文八成內容為AI撰寫

成為 EJ Tech 會員

接收最新創科資訊

Click here to unsubscribe

微軟AI聽3秒錄音扮人聲 推語言模型VALL-E 可合成任何說話

能模仿聲線語氣

蘋果電子書增旁白

支持EJ Tech

Related Posts

Latest News

EJ Tech Video

POPULAR POSTS

成為 EJ Tech 會員

微軟AI聽3秒錄音扮人聲推語言模型VALL-E 可合成任何說話