10月29日,开源社区Hugging Face最新趋势榜显示,Soul App张璐团队推出的开源模型SoulX-Podcast在发布仅一天后即登顶TTS(Text To Speech,文本到语音)模型趋势榜。

作为全球最具影响力的AI开源平台之一,Hugging Face汇聚了数百万开发者与海量模型,SoulX-Podcast能在激烈竞争中快速位列榜首,不仅反映出其在语音合成领域的技术实力,也体现出开源社区对该模型的关注。
据悉,SoulX-Podcast由Soul AI Lab联合西北工业大学ASLP@NPU团队与上海交通大学X-LANCE Lab共同研发并开源。该模型专为多人、多轮语音对话场景设计,能够在中文、英文以及四川话、粤语等多语种和方言之间灵活切换,还支持副语言风格表达,如笑声、叹息等,使语音内容更具真实感与情感层次。
传统TTS系统在复杂对话环境中常面临上下文衔接不自然、缺乏情绪控制、人物语调单一等问题。SoulX-Podcast通过改进建模结构和数据策略,在语音连贯性、角色情感控制与韵律自然性等方面实现突破,能稳定生成超过60分钟的多轮对话语音,角色切换流畅、情绪转变自然,呈现出更接近真人交流的声音效果。这一特性使其在播客制作、虚拟语音互动以及语音克隆等场景中均表现突出。

在开源社区发布后,SoulX-Podcast引发了广泛讨论。众多AI从业者与技术爱好者在Hugging Face社区及社交平台上分享体验与技术分析,对这一国产语音合成模型的开放能力表示认可。Hugging Face首席执行官Clément Delangue也转发了相关讨论,进一步扩大了模型在国际社区中的影响力。
此次SoulX-Podcast登顶Hugging Face榜单,既显示出当前业界对AI语音交互技术的高度热情,也是外界对Soul在AI交互研究方面的持续投入与技术积累的认可。Hugging Face趋势榜基于全球开发者的实际使用与互动数据生成,SoulX-Podcast取得优秀成绩,表明其在易用性与创新性方面获得用户认可,也让国产AI语音技术的进展受到更多国际关注。
Soul张璐团队长期关注“AI与社交”的结合方向,持续在语音对话合成、全双工通话、拟人化表达等领域推进研究与应用。通过开源SoulX-Podcast,团队在语音交互技术上再次取得重要进展,为业界提供了可复用、可拓展的技术框架。该成果的开源与传播,正在推动更多开发者参与语音生成技术的研究与实践,促进AI语音生态的开放共建。
免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。
