11 月 17 日消息,微軟 Azure 神經網絡文本轉語音服務 (又稱“Neural TTS”,“智能語音合成”) 能幫助用戶將文本轉換為逼真的人工智能聲音,它適用于多種應用場景,包括智能語音助手、客服對話機器人、有聲內容朗讀、游戲角色語音等。在過去的幾個月中,微軟 Azure 智能語音合成技術在語音自然度、聲音豐富度和多語言支持等方面取得了快速進展。
今天微軟官方為大家帶來了最新的神經網絡語音合成聲碼器 HiFiNet2 。
聲碼器是 TTS 中的關鍵組件之一,它基于輸入的文本或聲學特征來合成音頻樣本。目前,通過 HiFiNet2 聲碼器技術,微軟已經將微軟 Azure 智能語音合成產品全面升級到 48kHz 聲音模型,進一步為用戶帶來更高保真、高效率和可擴展的 AI 語音音質體驗。這項更新包括 400 多個音色,覆蓋全球超過 140 個國家和地區的語言。
48kHz 語音模型
在文本轉語音技術中,音頻的保真度是用來衡量音質的一項重要標準。高保真聲音不但可以給用戶傳達更豐富、更細膩的音質,同時還可以將音色的失真和變形降至最低。隨著采樣率的提升,聽眾可以聽到更精準的細節和更真實的音色。在視頻配音、游戲和唱歌等需要更精細、更沉浸的聲音體驗的復雜場景中,更高保真度的輸出(如 48kHz 采樣率)將給用戶帶去前所未有的全新感官體驗。
現在,隨著 Azure 深度神經網絡語音合成服務將全平臺 AI 聲音升級到 48kHz 采樣率,微軟率先在業界為 AI 聲音用戶帶來真正高保真度的聲音體驗。
關鍵詞: 微軟