Don't Miss

IBM開發新AI數據集 自動翻譯軟件程式碼

By on May 13, 2021
IBM將Project CodeNet發布到GitHub上,開放予全球研究人員訪問,教授AI自動翻譯程式碼。(IBM網上圖片)

IBM將Project CodeNet發布到GitHub上,開放予全球研究人員訪問,教授AI自動翻譯程式碼。(IBM網上圖片)

人工智能(AI)及機器學習(ML),運算能力超乎想像,既可虛構五官輪廓,亦可翻譯全球各地語言。至於電腦專用程式碼,國際商業機器(IBM)在周一的Think 2021會議上,宣布啟動Project CodeNet大型數據集,並發布到軟件代碼託管平台GitHub上,開放予全球研究人員訪問,教授AI自動翻譯程式碼,讓不同電腦之間溝通。

時至今日,軟件應用於金融服務、醫療保健、智能手機及智能家居,甚至汽車都具備超過1億行代碼。尤其企業推行現代化,必須淘汰老舊軟件,將系統升級轉型。不過翻譯程式碼,牽涉大量邏輯規則,活像人類交談,須兼顧上文下理。不論調試、維護及更新,既棘手又費時。

IBM首席科學家Ruchir Puri網站提到,CodeNet是一個龐大數據集,由大約1400萬個代碼片段及5億行代碼組成,涉及55種以上的電腦編程語言。主力教授AI及ML系統如何翻譯代碼,適用上世紀開發的COBOL、Fortran、Pascal,以至近年流行的Java、C++及Python。

CodeNet是一個龐大的數據集,涉及55種以上的電腦編程語言。(IBM網上圖片)

CodeNet是一個龐大的數據集,涉及55種以上的電腦編程語言。(IBM網上圖片)

代為轉換一半代碼

在Project CodeNet幫助下,AI成功轉換50%至60%的代碼,其餘必須經由人手執漏。Ruchir Puri補充,CodeNet還可用於代碼搜索,以及重複代碼檢測功能,讓軟件開發人員以AI技術,成功揪出有問題的代碼,改善運算效能及記憶體用量。

Ruchir Puri舉例,一間大型汽車客戶曾向IBM求助,要求更新3500多個Java文件,包含超過100萬行代碼;這些代碼是在十多年來,使用多代Java技術開發而成,其價值高達2億美元。他提到以AI幫手,企業遷移代碼的過程,由一年縮短至四個星期。

支持 StartupBeat

如欲投稿、報料,發布新聞稿或採訪通知,按這裏聯絡我們