微软亚洲研究院

AI Next 播客 | 对话夏炎&杨蛟龙：AI创作浪潮下，内容生产将如何被重塑？

已发布 2026年4月30日

分享这个页面

《AI Next》是微软亚洲研究院推出的一档利用 AI 技术制作的播客，内容聚焦 AI 前沿技术、科研趋势与社会影响。第一季主要围绕当今智能发展的核心议题，探索前沿趋势。 

在第七期节目中，我们邀请到了微软亚洲研究院的首席开发经理夏炎和首席研究员杨蛟龙，与大家共同探讨 AI 如何从“生成工具”逐步演进为“创作伙伴”。当一个人就能完成过去需要一个团队才能实现的播客、动画甚至虚拟场景创作时，AI 带来的不仅是效率的提升，更是创作门槛的显著降低。那么，《AI Next》节目制作所采用的三项核心技术，背后隐藏着怎样的设计思路？AI辅助创作还面临哪些关键挑战？面向未来，创作者又将如何与 AI 协同头脑风暴，进一步激发创意潜能？

嘉宾介绍

夏炎

微软亚洲研究院首席开发经理，曾参与微软亚洲研究院多个重要项目的研发，包括微软学术搜索、必应图片及实体搜索、英文聊天机器人、微软小英等。目前，他主要从事 AI 基础设施相关工作，参与的项目包括 BitNet 和 VibeVoice等。

杨蛟龙

微软亚洲研究院首席研究员，带领团队开展空间智能领域的前沿研究，方向包括但不限于三维重建与生成、以人为中心的建模、物理世界具身智能等。杨蛟龙及其团队的部分研究成果已落地应用于微软多款产品，例如微软Copilot、微软Azure AI等。

杨蛟龙长期担任计算机视觉领域顶级会议与期刊的程序委员会委员及审稿人，包括 CVPR、ICCV、ECCV、TPAMI、IJCV 等；同时担任 CVPR、ICCV、ECCV、WACV、MM等会议领域主席或资深领域主席，以及权威期刊《国际计算机视觉杂志》（IJCV）副主编。

也欢迎大家在小宇宙、喜马拉雅和Apple播客订阅、收听、分享！

作为一档由 AI 合成的播客栏目，《AI Next》播客音频和宣传视频背后包含微软亚洲研究院在合成 AI 领域的三项关键技术：VibeVoice 具备自然、富有表现力的语音合成能力，能够为最多4位说话者合成长达90分钟的高质量对话语音，为用户带来更灵动的声音互动感受。VASA 可将静态肖像与音频信号结合，合成情感逼真且拥有细腻面部表情的说话头像，为内容创作及辅助教育提供了全新的呈现方式。TRELLIS 则是一个 3D 物品生成模型，能依据文本提示或图片信息构建相应的 3D 效果，让复杂的概念设计可以在立体空间中被“看见”。目前，VASA 和 TRELLIS 技术可在微软的 Copilot 产品中体验，VibeVoice 也已在 Hugging Face 上开源。三项技术的加持将为内容创造者和听众带来 AI 技术演进的真实体验。

如下是《AI Next》第七期播客内容的文字整理：

AI 让创作回归讲内容本身

主持人：过去两年，AI 驱动的内容创作工具飞速发展。写稿、配音、视频制作……许多曾经依赖专业技能或团队协作的工作，如今一个人就能高效完成。在两位看来，AI 为创作者带来的最大红利是什么？从开发者的视角出发，你们最初研发这类技术时，最希望解决什么问题？

夏炎：我认为，AI 最重要的贡献是推动了创作的民主化。以前，高质量内容往往需要专业设备或团队支持，比如录音棚、摄影器材，普通人很难参与。现在借助 AI，一个人就能完成配乐、剪辑、语音合成等原本需要多人协作的环节，表达的门槛大大降低。

我们团队做VibeVoice的核心目标，是希望消除创作过程中的“执行摩擦”。就像用非母语写作，大量精力会耗费在语法和词汇上，无暇专注于内容本身。但大模型能帮创作者绕过这些细节问题，直接聚焦于“想表达什么”。无论是做播客还是视频，AI 承担的是执行层的琐碎工作，让人更专注于讲好故事，这才是创作的核心。

杨蛟龙：从我们的角度看，这类技术最本质的价值是提升全社会的生产力。夏炎提到的是“从不能做到能做”，而我们看到的是“从能做到高效做”。以 TRELLIS 三维生成技术为例，过去手工建模可能需要几天，现在利用 AI，两小时甚至更短就能完成。这种效率跃升，释放的不仅是时间，更是创造力。

此外还有社会价值。像 VASA 项目，我们最开始有一个宏伟的愿景：未来当用户与 AI 实时对话时，如果有一个具备表情和情绪反应的虚拟形象，它在提供信息的同时，还能带来陪伴感和情绪支持。无论是作为助手、对话伙伴，还是情感寄托，这种“有温度”的交互，可能是 AI 2.0 时代的关键方向。

揭秘《AI Next》制作中的三项生成技术

主持人：接下来我们着重介绍一下刚才提到的几项技术。《AI Next》这档播客节目背后有三项关键技术：播客的主体声音由 VibeVoice 生成；宣传动画中嘉宾的说话头像由 VASA 驱动；虚拟录音室环境则是用 TRELLIS 构建的。首先请夏炎介绍一下 VibeVoice。

夏炎：简单来说，VibeVoice 是一个支持超长语音合成的框架，最长可生成 90 分钟的音频，并能同时处理最多 4 个说话人。用户只需提供一段约 30 秒的参考音频，再输入一段长文本，模型就能生成对应的语音。它的底层架构是基于大语言模型的，经过专门微调后，具备了对声音的理解与生成能力。

VibeVoice 目前已有开源版本。出于安全考虑，开源版本对音色做了一些限制，提供了大约 20 到 30 个不同的合成音色，不对应任何真实人物，用户可以用它们进行创作。

此外，开源版本也支持实时流式输入和输出。在很多语音合成场景中，文本是由大模型实时生成的。为了降低延迟，模型不需要等整段脚本准备完毕才开始发声，而是输入几个词后就能立即输出语音。这种能力对实时会议、同声传译，以及陪伴聊天等延迟敏感的应用场景非常关键。

主持人：请蛟龙介绍一下 VASA。

杨蛟龙：VASA (opens in new tab) 是一个虚拟讲话人视频生成技术，目标是实现低延迟、实时驱动。用户只需提供一张人物头像图片和任意音频，即可实时生成说话视频，并支持流媒体广播。我们的研究重点是如何让虚拟人说话时更逼真、生动。除了嘴型准确，我们还希望它具备类似真人的微表情，比如细微的喜怒哀乐，以及自然的习惯行为，如眼睛往哪看、低头思考等。

这项技术历经多次迭代。VASA 1 是一个小模型，依赖大量人脸先验知识，后续版本采用更大的模型和视频生成技术路线，在保持实时性的同时提升了上限，目前支持头部驱动，未来还将扩展至身体和肢体动作。

输入VASA 的图像类型也很多元，可以是真人照片、游戏角色，也可以是卡通形象。另外，早期仅支持单图，新版本已支持多图输入，这样可通过同一人物的多个视角提升形象稳定性和还原度。

主持人：请再介绍一下 TRELLIS。

杨蛟龙：TRELLIS 是一个原生的三维生成大模型，支持基于文本或图像输入生成三维资产。该技术生成的结果是一个三维网格（Mesh），其输入可以是一张图片或二维图像生成技术产生的虚拟物体图片。TRELLIS能够将这些输入转化为三维网格，从而用于构建三维场景及后续仿真工作。

在具身智能与物理AI等领域的工作中，这种模拟方式非常符合需求。此外，TRELLIS 也可应用于三维动画制作及3D打印领域，以满足相关需求。对于创作者而言，尤其是在游戏制作领域，TRELLIS 大幅提升了工作效率。

多人对话语音如何保持连贯、自然

主持人：目前市面上大多数语音合成工具只能处理短文本，或支持单人、双人播报。VibeVoice 是如何实现一次性生成多达 4 人的对话，并保持每个角色音色和情绪连贯？

夏炎：以往的语音模型受限于上下文长度和压缩能力，生成片段通常只有几分钟。VibeVoice 创新地提出了 Speech Tokenizer，能极大压缩音频编码帧率。普通语音采样率是 16K 或 24K 赫兹，一般模型每秒会压缩成几十个词元（token），压缩倍率在百倍量级；而 VibeVoice 的压缩率超过 3000 倍，每秒仅需 7.5 个 token。
由于基于大语言模型，VibeVoice 支持长达 64K 的上下文，相当于数千秒的音频。这意味着在生成第 90 分钟的内容时，模型仍能“看到”最初输入的参考音频，从而保证整体音色一致。此外，我们在训练中还采用了课程学习策略，从几K的 token 逐步增加至64K，循序渐进，先易后难。

主持人：多说话人之间的语气和节奏，又是如何保持自然的？

夏炎：这主要依赖大语言模型的能力。VibeVoice 背后有一个叫 Next-token Diffusion 的机制。传统语言模型预测的是下一个文本 token，而我们要预测的是声音 token。这些 token 会通过一个 Diffusion 过程，转化为声学解码器可理解的表征。模型最后还会接一个 diffusion-head，再由 VAE decoder 还原出声音。
因为有大语言模型参与，VibeVoice能感知输入文本的情绪倾向，比如文本是开心的，还是在讲述悲伤的故事，并在生成 diffusion-head 的输入时自动调整，从而输出更自然的语音。
另一个关键就是数据质量。大家常关注模型架构创新，但数据处理流程的改进同样重要。只有高质量的数据输入，模型才不会“学歪”。

主持人：VibeVoice ASR 是不是就在通过提升训练数据质量，让 VibeVoice 生成效果更好？

夏炎：是的。这有点像“左右互搏”。VibeVoice ASR 本身是一个高精度音频转录工具，可用于会议记录等场景。但对于研究员而言，它更重要的价值是自动标注音频数据。有了高精度的文本标注，训练数据的质量会更高，模型产生幻觉的概率就会降低。

让虚拟形象有微表情和呼吸感

主持人：如果说 VibeVoice 赋予了 AI 有生命力的声音，那 VASA 更像是给了 AI 面孔和表情，最关键的是让微表情、眼神、口型与语音精准同步。你们在技术上是怎么捕捉这种动态关联的？又是如何攻克微表情和眼神这类难点的？

杨蛟龙：早期的 VASA 1 和我们近期的新模型其实是两条完全不同的技术路线。先说 VASA 1，它从 2023 年开始研发，2024 年发布，核心目标是让表情、眼神、口型和语音的情感节奏精准匹配。

当时我们提出的方法是把视频进行解耦，就是将一段视频分解为表观、ID、表情和姿态等独立成分。这种解耦既要干净，比如ID空间里不含表情，还要足够丰富。因为人类对视频极其敏感，哪怕嘴角上扬只有两个像素的差异，感受都会完全不同，所以 VASA 1 的重点是学习一个解耦且表现力强的潜空间。由于是小模型，我们注入了大量人脸先验知识，设计了特定的网络结构，以确保在生成时无法改变 ID，只能调整其他部分。

在损失函数设计上，我们也做了大量解耦方向的尝试。此前主流方法依赖关键点或三维人脸模型来实现，但其表现力太弱，显得僵硬。我们转而在海量视频中学习并构建人类表情的潜空间，用它提取视频中的关键特征，再与音频对齐。之后采用 Diffusion 模型训练，在 2023 年就较早实现了以音频为条件，联合生成头部动作、大姿态和精细表情，效果很好。

主持人：VASA 1 已经把表情、口型、姿态做得很细了，为什么还要开发新模型？两代最大的区别是什么？

杨蛟龙：VASA 1 毕竟是小模型，局限很明显——它只能生成头部影像。但未来在虚拟世界中，AI 应该能生成任意物体，在任意空间里操作，手里拿着任意东西讲解或演示。这显然超出了 VASA 1 的能力。

当前视频生成技术已能产出电影级画质，但基本依赖大模型，计算代价高。我们的目标是覆盖更大的区域，所以现在能看到喉结、胸口衣物的自然起伏，未来还可能加入手部动作。而这就必须放弃原有技术路线。这其中的关键挑战是如何让稍大的模型，比如 1B 参数的模型，来实现实时生成。

为此，我们在架构上做了两项创新：第一，提出 reference-based VAE。传统 VAE 对每段视频独立压缩重建；而我们的方法以一张参考图像为基础，再去压缩其他视频帧，压缩比提升 64 倍，潜空间大幅缩小。第二，在生成模型上采用 AR Diffusion 架构，更适合自回归、小窗口、流式生成。

要保证表情、嘴部和所有动态精准，音频作为条件输入至关重要。同时，数据质量也非常关键。我们优先选用音画严格同步、且具有强表现力的视频。这样模型才能学到音频与微表情、嘴型、甚至思考停顿等细微动作之间的对应关系。

TRELLIS.2让3D生成迈入高精时代

主持人：下面我们再来聊聊 TRELLIS。刚才我们说到 TRELLIS.1 率先实现了仅凭一张图就可以生成完整的 3D 效果，这在当时非常惊艳。它是通过怎样的技术思路，实现从 2D 到 3D 这种跨维度的突破的？

杨蛟龙：TRELLIS.1 是一个具有突破性的、生成三维物体的大模型。我们在进行 3D 的 VAE 开发时，借用了二维基础模型 DINOv2 来构建潜空间。对于一个给定的三维物体，我们尝试将其压缩成一个潜空间表征。具体做法是使用多视图方法，每个视图提取 DINOv2 的表征，并将这些表征反投影到一个三维体素中，再对这个体素进行处理。这种借助二维模型的方式，帮助实现了三维物体的压缩。

然而，该方法不是原生3D的处理方式。原生 3D 应该全程在三维空间里处理，而先投影到 2D 再反投影回去会导致信息丢失，比如内部结构和细小文字等细节难以保留。因此，我们认为接下来的研究应该要替换掉这个框架。

主持人：TRELLIS.2 又做了哪些创新升级？

杨蛟龙：TRELLIS.2 的一个重要改进点就在于不依赖二维模型，而是进行原生的三维压缩和三维潜空间处理。为了找到更好的三维表征方法，我们参考了图形学中的对偶轮廓（Dual Contouring）技术，它能将场信息高效转换为高质量的 3D 网格，同时保留内部结构、尖锐特征及各种细小细节，甚至可以应对开面和穿插结构等复杂情况。我们将这一技术作为核心表征手段，应用在了三维原生压缩和生成框架中。

在压缩方面，我们也做出了多项创新。例如，提出了 SC-VAE 压缩技术，利用 DCAE 技术实现了三维层面的极致压缩，达到了 16 倍的压缩率，这在三维空间领域前所未有。在相同的压缩比下，我们的模型重建精度比其他模型高出一个数量级。只有达到这样的压缩率，才能进一步提高生成效果。基于此，我们利用互联网上公开的数据进行了大规模训练，最终形成了 4B 参数的模型TRELLIS.2，这也是开源界最大的模型之一。

让AI创作告别“开盲盒”

主持人：尽管现在AI 的创作能力已经非常惊人了，许多专业创作者也已将其引入工作流，但在实际使用中仍常有“开盲盒”的感觉，如结果不稳定、细节难控制、一致性不足等。在两位看来，当前 AI 创作最大的痛点是什么？最大的技术挑战又是什么？

夏炎：“开盲盒”的原因是AI生成质量不稳定导致的。这反映出 AI 内容创作在稳定性与可靠性上仍有明显短板。未来无论是提升模型本身的质量，还是开发自动评估机制，都是值得深入探索的方向。

另一个关键问题是可控性。比如，TRELLIS 有个天然优势是其生成的 Mesh 格式，可直接导入 3D 软件进行精修。但 VASA 和 VibeVoice 生成的视频和语音，目前缺乏成熟的编辑工具来微调语气、节奏或细微表情。因此我们希望通过开源，让广大社区用户或团队开发可控性方案，帮助创作者解决这一问题。同时，我们也希望让技术更民主、成本更低，甚至无需 GPU 就能使用。所以，目前我们正在推进 CPU 加速方面的研究。

此外，还有一个探索方向，是物理世界的规律。虽然大模型对视频的理解越来越好，但语义上仍存在歧义。人类默认世界符合物理常识，而小模型却尚未掌握。在如何把大语言模型中的物理常识有效融入音视频生成过程方面，也还有很多空间可以探索。

杨蛟龙：要实现更精确、稳定、一致的结果，最根本的方法仍是提升基础模型能力，包括探索新架构、构建更有表现力的潜空间、使用更多高质量数据等。我们已在这些方向上持续推进，并开发下一版本的TRELLIS。

除了加强基础模型，后训练也是提升可用性的常见手段。目前大语言模型和图像/视频生成模型普遍会通过强化学习等方式进行后训练，使输出结果更稳定、更符合人类偏好。虽然我们的科研重心是如何提升基础模型，但也已在后训练方面展开了一些尝试，希望能从另一角度为基础模型更加稳定、可用提供帮助。

关于夏炎提到的可控性，我非常认同。我想补充的是，模型层面的可控与可编辑能力也非常重要。例如，在训练模型时对数据进行更复杂的处理，加入可选的控制条件等，可以让用户在使用时更稳定地获得预期效果。

另外，如果一次生成的结果某些方面不够好，但其他部分很出色，理想情况是能保留优质部分，仅对不足之处重新采样修正。这类策略也能显著减少“开盲盒”次数。当然，我们的研究重点仍在基础模型的突破上，希望开放基础模型后，社区和学界能在可控性与后训练方面进一步探索。

AI 从生成工具走向创意协作者

主持人：大模型已经解决了能不能生成的问题。那么在技术落地和实际使用的角度，你们觉得下一阶段 AI 创作中决定其价值上限的关键是什么？

杨蛟龙：从应用落地的角度来看，我认为可控性是决定上限的关键。当前的基础模型已经在质量、分辨率、真实感等方面提供了较高的下限。但在工业级创作中，真正重要的是让模型能够按用户需求反复修改、精确控制，并且结果可复现、支持多人并行或串行协作。这些能力在未来一段时间内，将决定 AI 创作工具能否从“玩具”变为真正的“生产工具”。

夏炎：刚才提到的可控、可信、符合物理规律，主要还是单一模型的能力。从整体创作的角度看，我觉得需要有一个团队来共同头脑风暴。我们之前做的多智能体创作就体现了这一点。单个创作者的想法有限，容易钻牛角尖，而一个团队互相启发，创意就会源源不断。如果有一个聪明的 AI 能模拟不同角色，从专业角度给出建议，那么人类作为核心角色可以根据这些信息进行筛选。这样 AI 不仅解决了技术执行问题，还在创意层面上提供了支持。

主持人：当 AI 从工具进化为懂你的创作伙伴，人机协作的边界正在被重新定义。感谢夏炎和蛟龙带来的分享。现在你是怎么使用 AI 来辅助创作的？你最希望 AI 扮演什么样的角色？欢迎大家在评论区留下你的看法。我们下期再见。

研究领域

Artificial intelligence