a tall building lit up at night

微软亚洲研究院

AAAI 上新 | 从金融模拟到类人推理,聚焦大模型的能力边界

已发布 | 更新

编者按:欢迎阅读“科研上新”栏目!“科研上新”汇聚了微软亚洲研究院最新的创新成果与科研动态。在这里,你可以快速浏览研究院的亮点资讯,保持对前沿领域的敏锐嗅觉。

本周,第 40 届AAAI人工智能会议(AAAI 2026)在新加坡举行。微软亚洲研究院有多篇论文入选,内容涵盖了多模态生成、复杂逻辑推理、类人特质对齐及垂直行业模拟等多个前沿领域。 


本期内容速览

1. DigMA:基于扩散引导元智能体的可控金融市场生成

2. HiTVideo:用于增强自回归大语言模型文本到视频生成能力的层级标记器

3. 对齐如何增强大语言模型的多语能力?从语言神经元角度展开的研究

4. HTSIR:通过多粒度检索优化提升长上下文摘要能力

5. IROTE:通过上下文自我反思优化引导大语言模型展现类人特质

6. MoHoBench:通过不可回答的视觉问题评估多模态大型语言模型的诚实性07基于熵的探索性推理方法

7. 基于熵的探索性推理方法

1. DigMA:基于扩散引导元智能体的可控金融市场生成

text

论文链接:https://arxiv.org/abs/2408.12991 (opens in new tab)

在金融市场研究与交易系统开发中,构建既逼真又可控的市场模拟环境一直是一个核心难题。由于真实市场的订单流噪声强、不平稳且有复杂的多尺度结构,所以传统基于规则或统计假设的模拟方法难以复现细微的动态变化。现有的学习型方法虽在拟合历史分布上有所提升,但普遍缺乏对特定情景的精确控制能力,例如,在给定收益目标、波动水平或极端行情下生成一致的订单行为。这种不可控性严重限制了市场模拟在风险评估、策略回测和情景分析中的实际价值。 

针对上述问题,微软亚洲研究院的研究员们将“可控金融市场生成”建模为一个条件生成任务,提出了名为 DigMA(Diffusion Guided Meta Agent)的新框架。该方法采用两阶段建模思路:首先,利用条件扩散模型学习市场的宏观动态分布,再将其抽象为中价收益率、订单到达强度等易于建模的中间状态,并在此过程中引入目标条件以刻画不同市场情景;随后,在扩散模型生成的潜在市场状态引导下,融合了金融经济学先验知识的元智能体将通过随机过程逐笔生成订单行为。在这种架构中,扩散模型充当“元控制器”,负责刻画和约束整体市场形态;元智能体则在微观层面生成符合该形态的具体订单,从而有效衔接宏观市场目标与微观交易行为。 

diagram
图1:DigMA框架图

基于真实股票市场数据的结果显示,DigMA在多个维度上优于现有基线模型。一方面,其在收益、波动率等关键指标上表现出显著的可控性,生成结果能稳定贴合预设情景。另一方面,其生成的订单流在分布特征和典型市场风格事实(如订单到达模式和价格变动结构)上与真实市场高度一致。此外,研究证明该生成式市场环境可以直接用于高频交易策略评估,在计算效率和稳定性上具备极高的实际应用价值。

2. HiTVideo:用于增强自回归大语言模型文本到视频生成能力的层级标记器

text

论文链接:https://arxiv.org/abs/2503.11513 (opens in new tab)

视频数据天然兼具空间和时间维度,相较于静态图像,其冗余信息更多、动态变化更复杂,且生成过程要求将语言描述与视觉内容实现深度对齐。这带来了两大核心难题:高效编码挑战,如何在不损失语义与时空细节的前提下,实现长时序视频的高倍率压缩?跨模态桥接挑战,如何缩小语言与视觉间的领域差异,使生成模型在理解复杂语义的同时,精准产出高质量视频帧?

传统的视频标记器(tokenizers)往往在“压缩率”与“保真度”之间徘徊,低的压缩率会导致序列过长,增加建模难度;过度压缩则会牺牲生成质量。这种权衡局限了基于自回归的大语言模型的视频生成潜力。

为应对上述挑战,本篇论文提出了一种层级视频标记器HiTVideo。该方案基于三维因果变分自编码器(3D causal VAE)构建了多层离散代码本(discrete codebooks),将视频内容编码为层次化的符号序列。

具体而言,该方法将视频分解成粒度不同的两个层次:高层码本负责捕捉全局语义信息,具备极高的压缩比;低层码本负责保留细粒度的时空细节。通过层次化编码,模型能够在显著降低每像素位数(BPP)的同时,确保语义的完整性,从而可以在序列长度与信息保留之间取得最优平衡。

HiTVideo的设计灵感部分来源于传统动画的分层制作理念,也就是如何在自回归生成的过程中由粗到细生成。编码过程中,高压缩层负责抽取核心语义提示,引导自回归模型勾勒出符合文本指令的视频概要;低压缩层则在后续阶段补充视觉细节,大幅提升最终视频的真实感与时空连贯性。

HiTVideo在长时段视频(例如 8秒、64 帧)的编码任务上表现出显著优势。一方面,与基线视频标记器相比,HiTVideo能将视频比特率降低约70%,极大提升了自回归大语言模型处理长序列的效率。另一方面,即便在大幅压缩的情况下,HiTVideo的重建质量依然极具竞争力,生成的视频在语义一致性和时空连贯性方面表现优异,从而证明了层级结构在缓解压缩与质量矛盾方面的有效性。此外,本研究还探讨了不同层次标记之间的权衡关系,并强调高压缩语义标记在文本到视频任务中对简化语言引导建模的优势。 

diagram
图2:HiTVideo 标记器的整体架构

3. 对齐如何增强大语言模型的多语能力?从语言神经元角度展开的研究

text

论文链接:https://arxiv.org/abs/2505.21505 (opens in new tab)

在多语言自然语言处理领域,即便大语言模型在高资源语言上表现卓越,也会出现在低资源语言上理解与生成能力薄弱的情况。这种性能不平衡源于训练语料的分布不均,同时也受限于模型内部跨语言知识编码机理的模糊性。尽管“多语言对齐”(Multilingual Alignment)机制通过构建共享语义空间,实现了能力从高资源语言向低资源语言的迁移,但其内部运作机理及细粒度的能力提升机制仍缺乏深入研究。现有工作多侧重于宏观性能指标的评估,鲜有从神经元层面解析语言能力的演进,这在一定程度上限制了对模型多语处理机制的掌握。

针对这一挑战,研究员们提出了一种精细化的神经元识别算法,希望在神经网络内部区分不同类型的“语言神经元”,并以此分析对齐前后模型多语能力的演化。研究员们将神经元细分为三类:

  • 语言专属神经元(language-specific):仅对特定语言表现出高激活度;
  • 语言相关神经元(language-shared):对多种而非全部语言表现出高激活度;
  • 通用神经元(language-agnostic):对所有语言均保持高激活。

这一分类框架弥补了以往仅区分“专属”与“通用”两类的局限,使得分析维度更加细致。该研究通过计算神经元在不同语言下的激活概率分布,结合激活熵与最大激活概率构建评分机制,实现了对神经元类型的自动化识别。

随后,研究员们利用该分类体系剖析了模型在执行多语推理任务时的神经行为,并将推理过程解构为四个关键阶段——多语理解、共享语义空间推理、多语输出空间转换以及词汇空间输出。分析表明,每一阶段对不同类型神经元的依赖模式存在显著差异。最后,研究员们还对比了应用典型多语对齐方法(如 MAPO)前后,神经元激活分布的变化及其对多语能力的贡献差异。

chart
图3:MistralMathOctopus 模型在 MGSM 数据集上不同类型神经元的层级分布图

研究表明,多语言对齐通过显著改变模型内部神经元的激活模式可以增强性能。对齐后,语言相关神经元和通用神经元在更多语言上的激活度得到了提升,有效桥接了高、低资源语言间的语义鸿沟,改善了跨语言推理的表现。此外,该研究还揭示了“自发多语对齐”现象,即模型在无显式对齐训练时,内部神经元也会展现出自然对齐的趋势。

4. HTSIR:通过多粒度检索优化提升长上下文摘要能力

text

论文链接:https://cm-edgetun.pages.dev/en-us/research/publication/improving-long-context-summarization-with-multi-granularity-retrieval-optimization/

在长文档问答与摘要任务中,大语言模型仍面临显著挑战。一方面,有限的上下文窗口以及“中间信息丢失”问题,使模型难以对超长文本形成整体理解;另一方面,现有的检索增强生成方法通常以孤立的文本片段作为检索单位,难以整合同一文档内部跨段落、跨章节的逻辑关系,从而削弱模型回答复杂问题的能力。基于人类阅读过程中逐步整合与概括信息的认知特点,该研究尝试引入文档结构与多粒度摘要机制,以提升长文档场景下的检索与生成质量。

本篇论文提出了一种分层、两阶段摘要驱动的信息检索框架HTSIR,在检索前对文档进行结构化预处理。具体而言,文档被拆分为章节、连续文本块以及由多个文本块组成的组,并分别在不同层级上生成摘要,从而构建包含根节点(章节级摘要)、中间节点(多块文本的摘要)和叶节点(细粒度原文块)的层次化检索结构。对于缺乏明确章节结构的文本,本文的方法借助大语言模型进行主题划分后,执行了相同的分层摘要流程。不同粒度的节点会被整合到一个“折叠集合”中,使模型能在统一的向量空间内直接进行相似度计算,从而避免传统树遍历的高复杂度。在查询阶段,HTSIR首先通过向量检索筛选候选节点,随后由重排序模型进行精细排序,最终将最相关的上下文输入大语言模型生成答案。此外,该研究还引入了一个可选的反馈驱动精炼模块,通过模型的自我反思与迭代修订进一步提升摘要和回答质量,无需额外的训练成本。

diagram
图4:HTSIR框架图

在NarrativeQA、QASPER、QuALITY和QMSum四个长文本基准数据集上的实验结果表明,HTSIR框架在多项指标上均显著优于传统检索方法和主流 RAG 系统。无论结合BM25、SBERT 还是 DPR 等不同检索器,分层摘要检索都能稳定提升问答准确率、F1 值和 ROUGE 分数,验证了多粒度信息整合对下游生成任务的有效性。与依赖知识图谱的图结构 RAG 方法相比,HTSIR在大幅降低计算和构建成本的同时取得了更优或可比的性能;相较其他树状检索方法,其优势在于充分利用了文档内在的逻辑结构,而非仅依赖主题聚类。消融实验进一步显示,细粒度、摘要级和全局级节点的联合使用能够提供互补信息,而这是性能提升的重要来源。

5. IROTE:通过上下文自我反思优化引导大语言模型展现类人特质

text

论文链接:https://arxiv.org/abs/2508.08719 (opens in new tab)

在大语言模型快速演进的今天,其在语言理解与生成上的表现已日益趋近人类。然而,尽管模型能够熟练地模仿语法和知识结构,但在呈现稳定且可控的类人特质(如人格、价值观及道德倾向)方面,仍面临巨大挑战。传统依靠简单提示词(prompting)或少量示例(few-shot)作为上下文来“诱发”特质的方法往往存在不稳定性,且一致性较差。这不仅导致模型难以按照预期方式输出结果,更限制了模型在个性化交互、社会行为模拟等场景下的应用。为提升模型在特定类人特质下的表现,亟需一种能深入引导并约束模型内部特质的新方法。

为应对上述挑战,微软亚洲研究院提出了基于上下文自我反思优化(In-Context Self-Reflective Optimization)的 IROTE 框架。其核心思想是让模型在生成过程中进行实时自我评估与动态调整。

具体而言,该研究利用大语言模型在多轮生成任务中的上下文处理能力,构造了一种内生性的“自我反思”提示词,以及对应的优化机制。该过程无需依赖外部监督模型,也无需进行模型参数调整,而是通过设计特定的上下文“自我反思”结构、评估标准及优化算法,驱动模型在内部循环中审视自身输出。IROTE算法定义了“唤发性”(evocativeness)和“简洁性”(compactness)两个优化目标,当模型识别到行为偏离预设特质(如人格倾向或价值表达),或提示词过于冗长时,会进行自我修正。

text, email
图5:IROTE框架图

实验表明,IROTE 在多项类人特质诱导任务上表现出显著优势。相比其他提示词生成及优化算法,该框架能更稳定地引导模型产出符合特定特质的行为模式,有效降低了特质诱导的不稳定性。评估结果显示,无论是在社会科学标准化问卷上,还是在复杂的问答对话、文本续写、故事生成等更为复杂的任务中,IROTE均展现出了更强的特质诱导能力。

值得注意的是,IROTE 的内在反思优化机制摆脱了对大规模人工标注数据的依赖,大幅降低了人工调优标注的需求。研究认为,这种自我反思优化方法不仅为提升大语言模型在个性化交互等实际应用中的表现开辟了新路径,也为理解大型模型的行为特性提供了重要参考。 

6. MoHoBench:通过不可回答的视觉问题评估多模态大型语言模型的诚实性

text

论文链接:https://arxiv.org/abs/2507.21503 (opens in new tab)

多模态大型语言模型(MLLMs)在视觉问答等任务上取得了长足进步,但在实际应用中,它们仍频繁输出误导性或不可信的信息。尤其在视觉信息不足以回答问题时,模型往往会“凭空编造”答案,这种行为严重损害了用户信任与系统安全性。虽然纯语言模型的“诚实性(honesty)”研究(即如何在无法回答时明确拒绝或表达不确定性)已引起关注,但在多模态场景下,此类能力的系统性评估与改进仍处于起步阶段。图像与文本的联合理解增加了判断“知识边界”的复杂性,而现有的对齐研究多侧重于减少幻觉(hallucination)或提升有用性,缺乏对“何时应拒绝回答”这一核心诚实性问题的针对性衡量。

为填补这一空白,微软亚洲研究院的研究员们构建了 MoHoBench (Multi-modal Honest Benchmark),这是首个专门用于评估 MLLMs 在面对不可回答视觉问题时诚实行为的大规模基准。

研究员们首先从两个图像数据集(如 COCO、HaloQuest)出发,利用多模态上下文生成机制产生候选问题。然后根据定义的四类不可回答视觉问题(包括语境依赖性、基于错误前提、主观/哲学性以及模糊描述性)进行多轮筛选和人工验证,最终得到约 12,000 多个高质量样本。这些样本覆盖了模型在视觉输入不足时应明确拒绝回答的典型情形。

基于 MoHoBench,研究员们设计了专门的诚实性评估指标,并对 28 种主流 MLLMs 进行了全面的基准测试,系统比较了它们在正确拒绝不可回答问题上的表现。此外,该研究还考察了图像信息的干扰性,例如通过改变图像质量来分析视觉输入对诚实性决策的影响,进一步揭示多模态信息如何影响模型的判断。为探索改进方向,研究员们实现了初步的诚实性对齐方法,包括监督微调和基于偏好学习的优化策略,以提升模型在不可回答情形下的拒绝行为。 

graphical user interface, text, application, chat or text message
图6:MoHoBench 示意图。(a) 数据构建;(b) 数据示例;(c) 评估框架

实验结果揭示,在不可回答的视觉问题上模型表现出明显的诚实性缺失,倾向于生成“自信的错误回答”而非拒绝。这种失败不仅源于语言生成机制的问题,而是更深层次地受视觉信息如何被模型处理的影响——简单的视觉嵌入和联合推理机制并不足以支撑在视觉信息不足时做出恰当的“不知道”响应。尽管一些顶尖模型如 GPT-4o 和 o1 在一般视觉问答任务中表现优秀,但它们在 MoHoBench 上的拒绝率仍然偏低。对齐实验显示,通过监督学习和偏好优化可以在一定程度上提升模型在不可回答场景中的诚实表现,为未来发展更具信任度的多模态 AI 提供实证基础。

7. 基于熵的探索性推理方法

text

论文链接:https://arxiv.org/abs/2506.14758 (opens in new tab)

在大语言模型的推理能力研究中,如何在维持准确性的同时鼓励模型进行深层次、多样化的推理仍是核心挑战。目前的强化学习(RL)优化往往侧重于深度挖掘(exploitation),即趋向于重复已获得高奖励的已知路径,这极易导致推理表现停滞,难以产出具有创造性或长逻辑链的结果。与此相对的是探索(exploration) 策略,即鼓励模型在推理时尝试新的逻辑路径和更深的推理链条,但现有工作未能有效衡量并利用这一机制。由于缺乏对探索性推理行为与模型内部特征之间关系的解析,科研人员难以设计出既能鼓励深入推理又能保持稳定优化的方法,这在复杂问题求解、长文本推理等任务中尤为明显。 

为破解这一困境,本篇论文提出了一种基于熵(entropy)的探索性推理方法。研究员们首先从理论与实证角度出发,考察了语言模型在推理过程中行为与熵之间的关系,并发现高熵区域往往对应以下三类探索性推理行为:关键性 token(决定性或连接推理步骤的词语)、反思性行为(如自我验证与修正)以及在基础模型中不常见的稀有推理行为。这一观察提示熵可作为探索性推理的指示信号。

基于这一洞见,研究员们对标准强化学习框架做出了最小程度的修改,即在优势函数(advantage function)中加入基于熵的项,从而鼓励模型在策略优化过程中产生更长、更深的推理链。与传统最大熵方法不同,该策略并非盲目鼓励不确定性,而是在保持原有优化方向的基础上,通过熵奖励促使模型更积极地探索多样化、长程的推理链条。该方法实现极为简便,且能完美兼容 GRPO 和 PPO 等主流 RL 算法。

chart
图7:(上)研究员们在 PPO 或 GRPO 的优势函数基础上,增加了一个极简的基于逐词熵(per-token entropy)的项;(下)这种基于熵的优势函数能有效鼓励大语言模型进行探索性推理,即便在 K 值极大的情况下,也能获得优越的 Pass@K 表现。

该熵增强策略在标准推理评估指标 Pass@K(衡量语言模型在 K 次尝试中成功推理能力的上界估计)上获得了显著提升。尤其在 K 值极大时,模型展现出更强的逻辑韧性,在长推理链中依然能保持高正确率,成功突破了传统性能瓶颈。此外,通过对高熵区域与具体推理行为的量化分析,研究员们进一步证实加入熵项后模型在关键性 token 识别、自我修正等探索性行为上的提升,这些能力均与更复杂的逻辑推理任务成功完成密切相关。研究还展示了该策略如何在不牺牲原始策略收敛性和稳定性的前提下,引导模型在决策空间中进行更具深度和创造性的推理尝试。

继续阅读

查看所有博客文章