阿里通義開源首個CoT音頻模型
阿里通義語音團隊最新開源的泛音頻生成模型ThinkSound,主要用于視頻配音,主打讓每一幀畫面都有專屬匹配音效。據介紹,它首次將今年大熱的CoT思維鏈推理引入了音頻領域,解決了傳統視頻配樂技術往往只能生成單調的背景音,而難以捕捉畫面中的動態細節和空間關系的難題。目前ThinkSound一共有三種型號(1.3B、724M、533M)可選,開發者可在GitHub、HuggingFace、魔搭社區下載體驗。
文章評價

發布
發布
阿里通義語音團隊最新開源的泛音頻生成模型ThinkSound,主要用于視頻配音,主打讓每一幀畫面都有專屬匹配音效。據介紹,它首次將今年大熱的CoT思維鏈推理引入了音頻領域,解決了傳統視頻配樂技術往往只能生成單調的背景音,而難以捕捉畫面中的動態細節和空間關系的難題。目前ThinkSound一共有三種型號(1.3B、724M、533M)可選,開發者可在GitHub、HuggingFace、魔搭社區下載體驗。