AWS 最新的文本轉(zhuǎn)換語音已經(jīng)有播音員的感覺了

文本語音轉(zhuǎn)換引擎因?yàn)闄C(jī)器學(xué)習(xí)技術(shù)的發(fā)展而取得了巨大進(jìn)步。我們以前很容易分辨出計(jì)算機(jī)合成的聲音,現(xiàn)在完全不一樣了。亞馬遜云計(jì)算部門 AWS 今天發(fā)布了全新的自然文本轉(zhuǎn)換語音模型,和模仿新聞播報(bào)員的語音風(fēng)格。
亞馬遜在發(fā)布會(huì)上表示:“語音質(zhì)量很重要,但要讓機(jī)器合成的語音聽起來更真實(shí)、更有吸引力,我們還有很長的路要走。談到語音的風(fēng)格,毫無疑問,人類的耳朵可以分辨新聞節(jié)目、體育節(jié)目、大學(xué)課程等等; 事實(shí)上,大多數(shù)人在適當(dāng)?shù)恼Z境下使用適當(dāng)?shù)恼Z音風(fēng)格,這有助于別人去理解他們的表達(dá)。”
這種全新的新聞播報(bào)員語音風(fēng)格目前有兩種美式口音,亞馬遜已經(jīng)和《今日美國》、加拿大的《環(huán)球郵報(bào)》以及其他一些公司取得合作,來幫助他們實(shí)現(xiàn)文本語音化。
你可以聽一下這段:
這項(xiàng)全新服務(wù)官方稱之為 Amazon Polly Newscaster,它是多年來對(duì)文本轉(zhuǎn)換語音的研究成果。這款全新的轉(zhuǎn)換引擎共有 11 種口音,其中 3 種是英式英語,8 種是美式英語,與谷歌的 WaveNet 等類似的自然語音引擎沒有什么不同。
這段是女聲:
在這個(gè)充斥著假新聞的時(shí)代,使用這種聽起來像真正的新聞播音員一樣的合成語音,一開始會(huì)有點(diǎn)難以接受。不過換個(gè)角度想,以前用人工讀的文本現(xiàn)在可以用合成的也是好事一件。電腦合成聲音有很多不錯(cuò)的用途,而且從 AWS 提供的示例來看,新的合成音色比之前的要更加耐聽。
AWS’ new text-to-speech engine sounds like a newscaster