亞馬遜推出全新Nova Sonic語音到語音模型可深入理解人類對話,捕捉語氣、語調和節奏 | 速途網
速途網4月9日訊(報道:喬志斌)今日,亞馬遜宣布推出全新語音到語音模型——Amazon Nova Sonic。這款基礎模型將語音理解和生成功能統一于單一的模型中,使AI應用程序中的語音對話更貼近人類的真實交流。通過簡化語音應用開發流程,并提供深入理解人類對話微妙性的能力,Nova Sonic在客戶服務通話自動化、旅游、教育、醫療和娛樂等領域展現出卓越的應用潛力。
在過去十余年間,亞馬遜始終引領著語音技術的發展,從打造全球領先的個人AI助手Alexa到開發各類云服務如Lex、Polly和Connect等。然而,要讓語音AI為客戶創造更多實際價值,它必須能夠理解人類對話的微妙與復雜性。傳統語音應用開發需協調多個模型,包括語音轉文字識別、語言理解和生成回復以及文本轉語音,這種分散的方法難以保留自然對話中的聲學情境和細微差別。
Amazon Nova Sonic采用全新方法應對這些挑戰。該模型摒棄了使用多個不同模型的方式,而是將理解與生成功能統一于單一模型中。這使得Nova Sonic能夠根據語氣、風格等聲學情境調整生成的語音響應,并理解人類對話中的自然停頓與猶豫。此外,它還能實時調取相關信息,提供更自然且實用的交互體驗。
基于Amazon Nova Sonic構建的應用示例展示了其強大的功能,如在旅游AI代理中通過客戶語氣的變化來調整語調并實時查詢價格信息,以及企業客戶從基于公司數據生成響應的能力中受益。這些功能加上其超快的推理能力,使Nova Sonic支持的語音應用更加自然和實用。
亞馬遜表示,推出Amazon Nova Sonic彰顯了公司在先進基礎模型領域的持續創新,并致力于為每一位客戶提供實際價值。