Nouvelles et reportages
LLM2CLIP:以大语言模型重塑跨模态表征学习的文本基石
在跨模态表征学习中,将不同模态的信号映射至统一的共享表示空间,进而驱动检索、理解与生成等一系列下游任务,是其核心目标。 而文本在所有模态中具有天然的独特性。它不仅是一种输入信号,更是人类对世界进行结构化认知、梳理概念体系以及开放世界知识的载体。正因为此,文本监督的质量,往往决定了跨模态表征空间的上限。更强大的文本监督信号能够引导模型在对齐过程中,学习到更复杂、更细粒度,也更具语义结构的表征空间。…
从“实心泥塑”到“高精度资产”,TRELLIS.2重构3D生成规则
在 AI 时代,当文生图早已是秒出“大片”,文生视频也能复刻好莱坞级特效时,3D 生成却仍停留在难以令人满意的阶段——细节模糊、结构失真,缺乏立体感。 当你满怀期待地输入“一个透明的玻璃瓶”,AI 却只给出了一个实心的“泥疙瘩”。当你想要一座椰林摇曳、白沙碧海的海滨小镇,得到的却是橡皮泥捏成的模糊雕塑。你希望生成一棵枝叶轻盈飘逸的枫树,AI 却无法完整还原枝叶的自然形态与立体结构。 以上种种都是当…
《AI Next》是微软亚洲研究院推出的一档利用 AI 技术制作的播客,内容聚焦 AI 前沿技术、科研趋势与社会影响。第一季主要围绕当今智能发展的核心议题,探索前沿趋势。 在《AI Next》第四期中,我们邀请到微软亚洲研究院首席科学家韦福如,从第一性原理出发,与大家探讨当前 AI 发展中最核心、具有争议的前沿问题。为何 Scaling 仍是 AI 的第一性原理,但必须走向“科学规模化”;为什么…
刘璟:在系统建造者时代,让计算基础设施实现“自我进化”
编者按:如今,大模型和生成式人工智能的爆发正把计算推向前所未有的复杂境地:硬件以惊人的速度迭代,应用负载瞬息万变,而传统系统却仍被束缚在过往的固化规则中。面对这种“上下皆动”的挑战,刘璟和同事正试图在人工智能的不可预测性与系统的刚性之间,为操作系统注入全新的自主适应能力。 在计算机科学的世界里,系统一直扮演着沉默的基石角色,它托举着上层应用的高效运行,却深埋于底层硬件的复杂逻辑之中。对微软亚洲研究…
机器人缺大规模数据?VITRA用人类视频重建VLA预训练新范式
编者按:数据稀缺是目前限制通用机器人操作大模型进展的重要因素之一。基于遥操的机器人轨迹获取成本高、多样性不足、本体多变,难以获得支撑大模型预训练的海量数据。在人形机器人的发展路径中,人类可被视为最重要的参考形态之一。因此,直接使用真实的人类数据进行预训练,比用机器人数据具有更大的潜力。因为人类的形态和动作模式更稳定、通用,人类数据规模大、多样化且易于获取,更可能达到规模化,以提升模型的泛化能力。…
《AI Next》是微软亚洲研究院推出的一档利用 AI 技术制作的播客,内容聚焦 AI 前沿技术、科研趋势与社会影响。第一季主要围绕当今智能发展的核心议题,探索前沿趋势。 《AI Next》第三期节目,我们将目光投向近年来发展迅速的 Agent(智能体)和 Agentic AI,与微软亚洲研究院首席研发工程师杨玉庆与高级研究员王韵,共同探讨 AI 如何从对话式“助手”演进为能够被人放心委托任务的智…
微软亚洲研究院2025年终盲盒已就位,开启你新一年的AI能量!
2025年,全球智能技术正经历从语言交互向场景落地的深刻转变。身处变革之中,我们深知,唯有通过扎根实践的科研,才能创造持久的价值。 在微软亚洲研究院,科研从未止步于理论的象牙塔,成果也从来不只是顶会上的论文数量。它们正化作触手可及的技术原力,去应对每一个真实的挑战,持续推动 AI 向前、向深、向善而行。 岁末将至,我们将这一年的智慧结晶、探索实践与对未来的希冀,悉数藏进了十个精心设计的“科研盲盒”…
《AI Next》是微软亚洲研究院推出的一档利用 AI 技术制作的播客,内容聚焦 AI 前沿技术、科研趋势与社会影响。第一季主要围绕当今智能发展的核心议题,探索前沿趋势。 在《AI Next》的第二期节目中,我们与微软技术院士、微软亚洲研究院常务副院长郭百宁博士和副院长边江博士一起探讨了具身智能领域的最新研究进展以及未来的应用方向。为什么具身智能必须通过行动来理解世界?具身智能又是如何通过与世界交…
《AI Next》是微软亚洲研究院推出的一档利用 AI 技术制作的播客,内容聚焦 AI 前沿技术、科研趋势与社会影响。第一季主要围绕当今智能发展的核心议题,探索前沿趋势。 在《AI Next》首期节目中,我们与微软亚洲研究院资深首席研究员杨凡博士,共同探讨了 AI 推理的本质:它如何在速度与正确性之间权衡,如何实现“既有直觉、又讲逻辑”,以及智能体推理(agentic reasoning)如何为未…