VITA-QinYu 团队打造了一套覆盖自然对话、角色扮演、歌唱三大类的全链路数据处理流水线，累计构建 12K 小时自然对话数据、2.6K 小时角色扮演数据、1.2K 小时歌唱数据，并通过多轮筛选、标注、合成优化，让每一类数据都精准匹配模型能力训练需求，为三大核心能力的落地筑牢基础。

自然对话数据：双层筛选 + 情感优化

从多源文本中筛选 155 万条中英样本，通过长度限制、正则过滤、模型打分剔除低质内容；对高分样本做情感分析与口语改写，生成 40 万条富含情绪的自然对话；合成 9 万 + 独特说话人语音查询，提升模型对不同声线、口音的适配性。

角色扮演数据：三阶段流水线保障人设统一

从有声书中提取 2 万 + 角色，定义人口统计、声线风格等四大属性；通过属性约束提示词，生成 8 万 + 轮贴合人设的多回合脚本；为脚本标注情绪指令，用指令式 TTS 生成精细控制韵律与情绪的语音数据，累计 2.6K 小时。

哼唱数据：无乐谱适配日常场景

收集 5000 首热门歌曲，分解片段并提取 MIDI 旋律；通过零样本 SVS 生成高保真 vocal 片段，绑定统一声线；将标准化点歌指令改写为「唱一段青花瓷」等口语化查询，构建 1.2K 小时歌唱数据。

⏩开源共建！代码模型全开放，邀开发者一起完善

为了让更多开发者能够参与到表达型语音大模型的研发中，推动技术的快速迭代与场景落地，做出了一个重要决定——将模型的训练代码、权重全面开源，并打造了一套易用的 Web demo 演示系统，支持流式传输与全双工交互。

这套系统融合了 Whisper 语音识别、TEN 框架实现打断检测能力，还原了真实自然的人机语音交互场景，开发者无需复杂部署，即可快速体验自然对话、角色扮演相关的效果能力，更能基于开源代码与模型，进行二次开发、场景定制与技术优化。

从基础的语音交互优化，到个性化的角色音色定制，再到歌唱能力的升级、垂直场景的适配，VITA-QinYu 的开源为开发者提供了全新的技术底座，期待全球开发者的加入，一起完善模型能力，探索更多新可能。

⏩未来可期

目前 VITA-QinYu 的角色扮演与歌唱能力仍处于早期探索阶段，团队表示未来将持续优化模型，进一步提升表达丰富度、场景适配性与生成质量。而此次开源，更是为行业注入了新的活力，让更多开发者能够参与其中，共同推动 AI 语音交互技术的发展。

这款「能说、会演、善唱」的 AI 语音大模型，正在为智能助手、沉浸式交互、数字人、语音娱乐、在线教育等领域，打开全新的想象空间。

相信在开源社区的共同努力下，VITA-QinYu 将不断进化，让 AI 语音的交互体验更贴近人类，让科技真正拥有「人情味儿」。

永久福利直投简历

简历投递：join@speechhome.com

扫码关注我们

助力AI语音开发者的社区

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

自然对话数据：双层筛选 + 情感优化

角色扮演数据：三阶段流水线保障人设统一

哼唱数据：无乐谱适配日常场景

南京大学等联合发布开源语音大模型VITA-Qinyu,首发支持角色扮演+哼唱

最新文章

热门文章

随机文章

南京大学等联合发布开源语音大模型VITA-Qinyu,首发支持角色扮演+哼唱

自然对话数据：双层筛选 + 情感优化

角色扮演数据：三阶段流水线保障人设统一

哼唱数据：无乐谱适配日常场景

江苏 | 南京特殊教育师范学院 | 招聘辅导员2人,教师岗22人 | 截止4月20日

明天开始验收!南京重磅新地铁,本月通车!

最新文章

热门文章

随机文章