微软亚洲研究院

BizGenEval：为商业视觉内容生成建立一把真正有用的“标尺”

Publié April 7, 2026

Partagez cette page

近年来，图像生成模型的飞速发展令人瞩目。从早期的通用图像生成，到如今逐步迈向更具实用价值的视觉内容创作，这一领域正经历从“好看”到“好用”的关键跃迁。然而，在繁荣表象之下，一个核心挑战正日益凸显：现有主流评测基准仍以自然图像为主，缺乏面向商业设计场景的系统性评估，无法有效衡量模型在结构化和多重约束下的表现。

与通用图像相比，商业视觉文档往往包含高密度文本、复杂版式结构以及多种视觉元素的协同布局，其生成与评估的难度明显更高。这也使得“如何科学评估模型是否真正具备商业可用性”成为行业亟待回答的问题。

为了填补这一空白，微软亚洲研究院推出了 BizGenEval。这是首个面向商业视觉内容生成的系统性基准测试。该工作不仅为评估模型能力提供了全新的标尺，也为生成式 AI 迈向工业级商业落地指明了发展方向。

BizGenEval: A Systematic Benchmark for Commercial Visual Content Generation

论文链接：https://arxiv.org/abs/2603.25732 (opens in new tab)

项目主页：http://aka.ms/bizGenEval (opens in new tab)

代码与数据：https://huggingface.co/datasets/microsoft/BizGenEval (opens in new tab)

图1： BizGenEval数据构建与评测流程

真实场景 × 核心能力：构建商业视觉生成的系统评估框架

评估一个模型是否具备真正的商业价值，必须将其置于真实的商业语境中。BizGenEval 贴近实际行业需求，围绕典型商业使用场景，系统性地覆盖了五类具有代表性的视觉文档类型：

网页 (Webpages)：包含结构化布局、文本和功能界面元素（如标题、分段、按钮等）的网页设计任务。
幻灯片 (Slides)：用于报告、讲座和商业场景的演示文稿，具有层次结构、项目符号列表和对齐的视觉元素。
图表 (Charts)：条形图、折线图等多系列图表，涉及数值、坐标轴和图例的精确渲染。
海报 (Posters)：结合排版、图形和布局设计的宣传或信息海报，强调视觉层次和构图平衡。
科学插图 (Scientific Figures)：学术论文中的插图，包括图表、流程和说明，通过组件、箭头和注释形成清晰的结构。

通过这五大核心题材的划分，BizGenEval 能够精准地总结各种前沿模型在不同商业应用领域下的生成能力，为行业应用落地提供最直观的参考。

仅关注“生成了什么”远远不够，更重要的是理解模型是“如何生成”的。为此，BizGenEval从能力本质出发，系统性构建了四个关键评估维度，为模型优化与演进提供清晰指引：

文本渲染 (Text Rendering)：评估模型对不同类型文本内容的渲染能力，包括短标题、长段落、表格及其与其他组件的整合。
布局控制 (Layout Control)：关注空间组织与结构的表达能力，涵盖整体布局、复杂流程结构，以及箭头、区块和元素的层次排列。
属性绑定 (Attribute Binding)：考察模型对颜色、形状、样式、图标和数量等视觉属性的控制，强调对细粒度元素的把控。
基于知识的推理 (Knowledge-based Reasoning)：测试模型的推理和领域知识，包括跨不同领域（如物理、化学、艺术、历史等）应用客观世界常识的能力。

这四大能力维度与五类商业题材交叉组合，构成了 20 个多样化的评估任务，系统覆盖了商业视觉文档生成中的关键挑战与核心痛点，为模型能力评估提供了一套更加完整且具有实践指导意义的框架。

图2：BizGenEval五类商业题材示例图

拒绝“无效数据”：从高质量构造到精细化评估的全链路升级

在数据构造方面，BizGenEval 摒弃了依赖模型随机生成的方式，全程采用“人工精筛 + 专业打磨”的高标准方案，精心打造了400个具有代表性的专业评测样例，以确保评估结果真正贴近实际应用需求：

300 条真实内容需求：围绕文本、布局和属性等核心评估要素，研究员们从专业的在线来源中人工筛选、收集了真实的商业设计范例。基于这些真实的参考资料，再结合大语言模型与人类专家的协同改写，进而生成特定于任务的提示词，高度还原了人类设计师在真实工作流中的确切需求。
100 条“硬核”知识推理任务：为进一步提升评测深度，BizGenEval额外引入了 100 个基于知识的提示词，涵盖物理、化学、数学、历史和艺术五个专业领域。通过设计如“生成包含化学方程式、化学实验的教学幻灯片”等高难度推理任务，重点考察模型的知识理解与逻辑推理能力。

与此同时，在评估机制上，BizGenEval 也对传统方法进行了系统性重构。针对商业视觉文档中结构复杂、约束密集的特点，传统的全局相似度指标已难以胜任。为此，研究员们提出了结构化检查清单式（Checklist）评估体系，让细微瑕疵无所遁形：

针对每一条测试样例，由人类专家设计 20 项细粒度二元校验问题（是 / 否），逐项核验生成结果；
整套基准共包含 8000 个精细校验项，用于精准评估生成的图像是否满足复杂的视觉约束；
在评估环节，采用最先进的多模态大语言模型作为自动评判工具，以确保评估的准确性与可扩展性。

核心发现：能力分层已出现，但离真实生产仍有关键鸿沟

基于 BizGenEval 对 26 个主流图像生成模型的系统评测，可以看到一个非常清晰的趋势：当前商业视觉内容生成能力已经出现明显分层，头部商业 API 显著领先。以 Nano-Banana-Pro 和 Nano-Banana-2.0 为代表的模型，在五大题材上的平均成绩分别达到 76.7/93.7 和 68.5/92.5；相比之下，大量模型在更严格的测试集（hard-set）上得分较低，说明它们虽然可以生成“看起来不错”的结果，但距离真实商业场景所要求的稳定可用性还有明显差距。

更进一步看，幻灯片、网页和海报相对更容易，而图表与科学插图明显更具挑战性。即便是 GPT-Image-1.5 这样的强模型，在这两个题材上的 hard-set 分数也下降到 28.2 和 27.8，反映出精确数值渲染、结构关系表达和复杂约束满足，依然是行业共性难题。

表1：前沿图像生成模型在五类商业视觉内容场景中的性能对比

从能力维度上看，当前模型的真正短板不只是“美观度”，而是“可控性”和“可验证性”。头部模型在“文本渲染”和“基于知识的推理”上已经表现出较强能力，例如 Nano-Banana-Pro 在这两个维度上分别达到 86.4/95.0 和 82.6/96.2；但在“布局控制”和“属性绑定”等精细控制任务上，表现仍明显受限。这意味着，复杂版式控制、空间关系建模和细粒度属性绑定依然没有被真正解决。这进一步说明，商业视觉内容生成的核心挑战，并非“生成一张像样的图”，而是“将正确的信息，以正确的形式，放在正确的位置上”。

与此同时，研究还发现，自然图像基准（benchmark）上的高分并不能直接迁移到商业场景，例如 GPT-Image-1.0 和 Qwen-Image 在 GenEval 上表现优异，但在 BizGenEval 上却排名靠后，证明了商业内容生成需要一套不同于自然图像生成的系统能力。

表2：前沿图像生成模型在四项核心能力维度上的性能对比

明晰能力差距，方能更好地前行

BizGenEval 的意义不仅在于补齐了一项关键评测基准，更在首次系统性地回答了一个面向真实落地的问题：当生成式 AI 从“生成图像”走向“生成可直接使用的商业内容”时，能力短板究竟在哪里？

实验结果表明，当前模型已初步具备商业视觉内容的风格生成能力，但在精确文本生成、严格布局控制、属性指定和知识一致性等决定实际可用性的核心能力上，仍存在显著不足。也正因此，BizGenEval 希望提供的不仅是一份“成绩单”，更是一把真正面向产业场景的“标尺”，帮助科研人员和产业界看清差距，并为下一代商业视觉内容生成模型指出更具体的优化方向。

图3：不同前沿模型在五大商业题材的性能差异

Domaines de recherche

Artificial intelligence

En relation

微软亚洲研究院