計畫主持人/ 通訊系江振宇副教授
本研究獲科技部2020年科技突圍計畫補助

透過深度學習,由電腦自動朗讀文字不算新技術,然而除了冷冰冰的Google小姐機器人聲音之外,如何讓電腦合成語音更溫暖?通訊系江振宇副教授近期研發漸凍人病友客製化文字轉語音系統,讓病友透過輔助工具輸入,就能以代表語音和親屬溝通。

江振宇長年投入文字轉語音系統研究,看見許多漸凍症病友因為病情而失去清晰的說話溝通能力,希望以具有病友音色和抑揚頓挫的合成語音來表達自己,保留代表病友本人身分(identity)的語音,保留病友與親屬溝通的溫度。

漸凍症病友感謝學者投入研發能量協助保存聲音

運用相關技術,團隊也和新聞媒體合作,提供更多富感情的讀報加值服務,拉近科技與生活的距離。

「以二號女友為例,她堅持不下廚,你要娶一個巧婦,就形成對立局面。」乍聽之下沒有意義的一串文字,原來其中隱含許多語音學的秘密。透過發音分析,江振宇和團隊得以判斷說話者的發音狀況,藉由這些病友錄製的測試語句,更能進而累積為專屬「語料庫」,再透過機器深度學習,合成更多有意義的聲音。

長期關注語音處理與媒體信號處理,江振宇2012年起主持「語音暨多媒體訊號處理實驗室」,尤其特別投入文字轉語音研究,但多以基層學術研究為主。直到2020年應臺科大劉益宏教授邀請,加入科技部「科技突圍(breakout)實驗專案」,協助研發整合漸凍症病友智慧溝通系統,執行該計畫的子計畫二「回聲計畫- 漸凍症病友文字轉語音系統之建立」,加上本校通訊工程學系碩士班畢業學生創業團隊「聲帆股份有限公司」協力執行,學術研究成果順勢得以加值並落地應用。

「為漸凍人錄音,比我原來預估困難很多!」藉由測試語句,江振宇和團隊將病友分為四級,最理想的是整句話和正常人無異,但隨著病程發展,漸漸出現斷句問題等韻律異常、構音異常甚至不完全等狀況。目前團隊技術可處理韻律異常問題,但除了技術之外,如何和時間賽跑、如何克服錄音困境…更是必須與漸凍症友們共同經歷的殘酷現實。

江振宇解釋,以目前的技術來說,只要擁有說話者15-30分鐘的聲音,就足以建立屬於自己的聲音資料庫。然而對於漸凍症患者來說,唸一段15分鐘的話,可能要花至少兩個小時,加上許多病友行動不便,無法到專業錄音室錄音,一般居家環境過於嘈雜之下,又要消耗更多力氣。

好不容易錄製語料之後,後續還要剪接、標記發音、修正,再耗費腦力模擬出最適合的聲音。耗時費力之外,面對病友、家屬、治療師和居中社工之間不同的認知與期待,如何細緻溝通,對於工程背景出身的江振宇和團隊成員更是一大考驗。對此,他希望後續能有社工專業人員加入團隊,集合學校更多不同專業領域能量,發展出更好的執行模式。

江振宇發現,除了漸凍人之外,包括聲音障礙、中風等患者,都有借助科技與外界溝通的需要,除了現行的介面之外,包括眼動滑鼠輸入、快取輸入等,都是後續可優化的作法。只是他估計,目前在政府補助下,不含後續維護,每個個案成本能壓在五萬元內,但如果要進入商業運轉,至少要七到十萬、甚至二十萬才能持續維運。對一般經濟弱勢家庭而言,可能需要仰賴政府補助或他人出資輔助。

參與計畫的病友阿倫表示,自己發病兩年來,深刻感受病程發展帶來的各種變化,知道自己會不斷退步,因此格外積極參與這項研究,趕緊保存自己的聲音,期待他日無法正常說話時,還能透過語音轉換系統和學齡子女溝通,持續陪伴家人。

漸凍人協會沈心慧理事長也提到,隨著時間過去,漸凍病友不僅慢慢失去肌肉能力,還會失去「為自己發聲」的力氣,感謝科技部支持學界投入漸凍病友智慧溝通系統研發,協助媒介人文關懷與科技,幫助病友留存自己的聲音和溝通溫度。

「這是練功!」運用長期研究基礎投入社會公益服務,看似進入冷門領域,但江振宇卻很有遠見:「如果這種技術可以,代表我們什麼聲音都可以處理!」放眼未來,除了持續建立更多不同類型病友資料庫,他還期待有一天能開放程式,歡迎學術界自由加入,並繼續研發包括台客語、中英文夾雜、以及表達情緒的合成語音等功能,真正讓科技更靠近人性。

江振宇與實驗室學生團隊