a tall building lit up at night

微软亚洲研究院

CHI上新 | 从工具到伙伴:人机协作迈入“深度共融”时代

已发布

编者按:欢迎阅读“科研上新”栏目!“科研上新”汇聚了微软亚洲研究院最新的创新成果与科研动态。在这里,你可以快速浏览研究院的亮点资讯,保持对前沿领域的敏锐嗅觉。

人机交互领域最具影响力的国际顶级会议之一CHI于本周在西班牙巴塞罗那举行。本期“科研上新”精选了微软亚洲研究院入选该大会的六篇论文,展示生成式AI在创意内容创作、无障碍交互及信息可视化等领域的前沿探索。 


本期内容速览

1.DuoDrama:通过大语言模型辅助的人类反思支持剧本优化

2.从困境到成功:屏幕阅读器用户在计算机使用中的情境感知引导

3.从编剧能动性视角看人机协作共创

4.InfoAlign:用于信息图叙事的人机协同创作系统

5.通过跨时间情感建模实现更自然、更具陪伴感的虚拟智能体‌

1.DuoDrama:通过大语言模型辅助的人类反思支持剧本优化

text

论文链接:https://programs.sigchi.org/chi/2026/program/content/223501 (opens in new tab)

当前剧本创作工具在润色阶段难以有效协调“角色内心体验”与“外部故事结构”的双重反思视角。这导致编剧常陷入单一视角的局限,无法同时满足角色内部心理真实性与外部总体叙事结构的要求。

为突破这一瓶颈,研究员们基于斯坦尼斯拉夫斯基的沉浸式体验与布莱希特的间离效果的表演理论,设计了名为DuoDrama的系统及“基于经验的反馈生成工作流”(ExReflect)。该系统让每一个AI智能体先在经验角色中模拟角色内心独白,再切换至评估角色(扮演该角色的演员)生成反馈,从而在单一评估流程中实现内在心理真实性与外在叙事一致性的动态平衡,最终在每一个剧本场景中通过多智能体架构提供多角色的反馈。

Diagram
图1:基于经验的反馈生成工作流(ExReflect),用于人类反思。一个智能体依次扮演同一场景中的两个利益相关者角色。在体验角色中,智能体采用某个利益相关者的身份和交互情境来生成个人体验。随后,它再切换到评估角色,采用不同的利益相关者视角,基于该个人经验生成反馈。这种设计使反馈植根于个人经验,同时引入了评估距离,从而在内部沉浸感与外部批判之间取得了平衡。

对十四名专业编剧的研究表明,DuoDrama在反馈质量与叙事对齐度上显著优于传统基线方法。实验结果显示,该系统生成的反馈不仅在情感洞察、行为动机、人物关系等五个维度上表现出更高的内容丰富度与具体性,还有效提升了编剧反思的深度与广度。与缺乏经验基础的评估模式相比,DuoDrama通过锚定角色主观经验,减少了抽象、空泛的建议,使反馈更具可操作性;同时,相较于单纯的角色扮演模式,其引入的外部审视视角更能激发创作者的修改意愿。

这种结合沉浸式演绎与批判性抽离的双轨机制,不仅解决了剧本润色中视角割裂的问题,也为教育、设计等其他需要情境化反思的人机协作领域提供了普适性的设计范式。

2.从困境到成功:屏幕阅读器用户在计算机使用中的情境感知引导

text

论文链接:https://programs.sigchi.org/chi/2026/program/content/223238 (opens in new tab)

目前,主流界面普遍是以视觉为中心的设计,导致屏幕阅读器用户在计算机操作中面临陡峭的学习曲线与频繁的障碍。现有教程也严重依赖视觉描述和鼠标操作,缺乏针对键盘导航和屏幕阅读器用户的无障碍指导,从而迫使用户依靠低效的在线搜索或同伴求助。

为突破这一局限,研究员们设计了按需获取帮助的AI助手AskEase,通过管理多源上下文,如桌面截图、屏幕状态、屏幕阅读器轨迹及聊天历史等,来推断用户意图,并结合检索增强生成(RAG)技术整合软件文档,生成符合屏幕阅读器使用习惯的无障碍分步指导。AskEase系统采用无缝交互设计,最大限度地减少了用户寻求帮助时的注意力中断。

AskEase 会自动收集和管理多种上下文来源,以增强情境感知能力,并提供精准且适合屏幕阅读器用户的指引。它主要考虑三类上下文:(1) 环境上下文,包括突出显示焦点元素的桌面截图、结构化屏幕状态以及实时屏幕阅读器轨迹;(2) 知识上下文,例如检索到的软件文档以及针对屏幕阅读器用户的响应偏好原则;(3) 对话上下文,包括聊天记录和当前卡住的步骤。

在屏幕阅读器用户中进行的研究显示,AskEase在任务成功率上显著优于用户常用工具,例如搜索引擎和通用AI助手,同时显著降低了用户的感知工作负荷,包括体力消耗、操作难度与挫败感等。参与者能够借助情境感知问答、自适应支持和屏幕描述等功能,独立完成学习新兴AI工具及处理无障碍问题等复杂任务。

结果表明,这种基于大语言模型的上下文感知辅助系统不仅能有效弥补通用AI助手在无障碍支持上的不足,更有望促进计算领域的包容性,让视障用户在教育、就业和社会参与中获得更多平等机会。

Diagram
图2:AskEase流程图

3.从编剧能动性视角看人机协作共创

text

论文链接:https://programs.sigchi.org/chi/2026/program/content/222136 (opens in new tab)

随着生成式人工智能在剧本创作领域的深入应用,创作者虽获得了效率提升,却仍面临如何持续协调人机协作关系、避免技能退化及保持创作主体性的深层挑战。现有研究多聚焦于特定时刻的人机协作瞬时记录,缺乏对创作者如何通过能动性主动塑造协作范式的长期思考。

为此,基于班杜拉的人类能动性理论,研究员们通过为期两周的定性研究,对19名专业编剧与AI共同创作剧本的全过程进行了追踪,综合运用与AI的共创记录、半结构化访谈等方法,系统探究了编剧在intentionality(意向性), forethought(前瞻性), self-reactiveness(自我调节性), self-reflectiveness(自我反思性)四个维度的人类进步。

Diagram
图3:研究概述。本图首先展示了研究员们如何将人类能动性的四个属性与研究的三个问题联系起来。此外,它还简要总结了用于解答研究问题的研究方法,以及研究的总体发现。

研究员们发现,编剧并非被动接受AI输出,而是通过制定计划、评估反馈及策略调整来主动驾驭协作过程,将AI的干扰转化为创作契机。通过持续互动,编剧重构了工作流程,将AI深度嵌入从构思到自我校验的全周期,并增强了创作信心;同时,AI也从工具演变为可信的协作伙伴甚至情感支持者。

然而,这种深度依赖也引发了关于核心技能弱化的担忧。基于此,研究员们提出了支持人类能动性的未来AI系统设计建议,强调AI应作为计划制定伙伴、前瞻性思考者和反思导师,以支持创作者在效率提升与能力可持续发展之间取得平衡。

4.InfoAlign:用于信息图叙事的人机协同创作系统

text

论文链接:https://programs.sigchi.org/chi/2026/program/content/222874 (opens in new tab)

当前信息图创作工具在多步骤设计过程中难以维持视觉故事与用户意图的对齐,导致创作者在与AI的协作中面临巨大的一致性挑战,包括从长篇非结构化文本构建故事、匹配语义视觉设计,以及安排叙事布局。为解决这一问题,研究员们首先通过访谈明确了设计需求,并对70个真实世界的信息图进行了定量分析,提炼出了故事结构特征与空间布局类型之间的关联规律,并据此构建了用于自动化布局推荐的规则引擎。

在此基础上,研究员们提出了一种以叙事为核心的工作流,包含故事构建、视觉编码与空间构图三个阶段,并基于此开发了人机协同创作系统InfoAlign,支持用户从文本输入开始,在各阶段对AI生成结果进行干预和调整。

Diagram
图4:InfoAlign基于长篇或非结构化文本输入以及跨领域用户查询生成的叙事型信息图示例:(A) 惊涛骇浪(泰坦尼克号幸存者);(B) 解读暗能量(天体物理数据);(C) 水资源(用水情况);(D) 心理健康洞察(心理健康关键因素)。

对多名信息图创作者中进行的研究表明,InfoAlign能够在整个创作流程中有效保持故事的连贯性,其生成的图标、图表及高亮文本在语义上与故事高度契合。参与者普遍认可系统的可用性、创造力支持及美学效果,平均评分均超过6分(满分7分)。

交互日志分析显示,用户倾向于对图标和高亮等富有表现力的视觉元素进行精细化调整以注入个人意图,而对故事文本和结构则主要进行局部修正,证实了系统在自动化效率与人工控制权之间取得了良好平衡,为数据驱动的故事叙述提供了高效且灵活的创作范式。

5.通过跨时间情感建模实现更自然、更具陪伴感的虚拟智能体‌性

text

论文链接:https://programs.sigchi.org/chi/2026/program/content/222950 (opens in new tab)

虽然当前虚拟陪伴智能体的发展已从单纯的任务执行转向长期关系维系,但在跨时间维度的社交行为与内部情感联动建模上仍存在显著缺失,导致交互体验呈现碎片化与虚假感。为了解决这一核心挑战,微软亚洲研究院的研究员们提出了跨时间情感建模(CTEM)框架,旨在通过建立行为历史与即时情感表达的双向耦合机制,赋予智能体随时间演变的情感状态与连贯的行为逻辑。

基于CTEM框架,研究员们开发了一个轻量级即时通讯伴侣智能体“Auri”,并在为期21天的实地研究中,通过对96名18至26岁参与者开展混合方法评估,深入探究了其在日常互动中的表现。

Diagram
图5:轻量级的伴侣智能体Auri,旨在通过跨时间情感建模来建立长期的情感纽带。Auri能够随着时间的推移,提供情境连贯且情感共鸣的交互体验。

实验表明,CTEM框架显著提升了用户对智能体连贯性与情感和谐度的感知。定量数据显示,移除行为生成或情感表达模块会导致用户感知的连贯特质概率大幅下降,而恢复多模态交互则进一步放大了连贯性印象。同时,参与者的情绪状态在与完整版Auri互动后得到了显著改善。

这一研究验证了跨时间情感建模在增强陪伴自然度方面的有效性,也为未来情感智能体的伦理设计与个性化适配提供了重要的理论依据与实践启示。