《AI Next》是微软亚洲研究院推出的一档利用 AI 技术制作的播客,内容聚焦 AI 前沿技术、科研趋势与社会影响。第一季主要围绕当今智能发展的核心议题,探索前沿趋势。
在第六期节目中,我们邀请到微软亚洲研究院首席研究员李东胜博士,一同探讨 AI 与大脑的深层关联。以人脑为灵感而诞生的神经网络,究竟与大脑是单纯的模仿与被模仿关系,还是存在更深度的联结?AI 该如何向历经亿万年进化的人脑学习高效的机制,人脑又能从快速发展的 AI 中获得哪些新的认知与启发?这场双向借鉴的探索,又将如何重塑智能的未来?
嘉宾介绍
李东胜博士
李东胜博士,微软亚洲研究院首席研究员,主要研究方向为机器学习和脑科学-AI 交互计算。近年来,李东胜博士在相关领域的知名期刊和会议中发表论文 100 余篇,出版专著 1 部,申请国际专利 10 余项。李东胜博士 2007 年本科毕业于中国科学技术大学,2012 年博士毕业于复旦大学。2019 年,他被复旦大学计算机学院聘为客座教授、行业博士生导师。目前,他还担任中国计算机学会协同计算专业委员会执委和上海计算机学会计算机视觉专业委员会副主任。
也欢迎大家在小宇宙、喜马拉雅和Apple播客订阅、收听、分享!



作为一档由 AI 合成的播客栏目,《AI Next》播客音频和宣传视频背后包含微软亚洲研究院在合成 AI 领域的三项关键技术:VibeVoice 具备自然、富有表现力的语音合成能力,能够为最多4位说话者合成长达90分钟的高质量对话语音,为用户带来更灵动的声音互动感受。VASA 可将静态肖像与音频信号结合,合成情感逼真且拥有细腻面部表情的说话头像,为内容创作及辅助教育提供了全新的呈现方式。TRELLIS 则是一个 3D 物品生成模型,能依据文本提示或图片信息构建相应的 3D 效果,让复杂的概念设计可以在立体空间中被“看见”。目前,VASA 和 TRELLIS 技术可在微软的 Copilot 产品中体验,VibeVoice 也已在 Hugging Face 上开源。三项技术的加持将为内容创造者和听众带来 AI 技术演进的真实体验。
如下是《AI Next》第六期播客内容的文字整理:
主持人:过去十年,AI在图像、语言等领域的发展突飞猛进。然而,我们对于人类大脑的认识却仍然非常有限。在你的研究中,是否有某个时刻深刻体会到,大脑的运作方式可能远比我们想象的更精妙,也更值得AI学习?
李东胜:我可以举两个例子,首先是能耗。人脑的功耗约为10到20瓦,相当于一个普通灯泡的功率。但当下的 AI 大模型运行在一块高端 GPU 上的功率就达几百瓦,模型更大时则需要多块GPU协同,总功耗可达数千甚至上万瓦。这种两到三个数量级的效率差距,表明大脑中必然存在着许多高效且尚未被AI掌握的机制。这是非常值得 AI 学习的一个方向。
其次是神经元的复杂性。现在的人工神经网络是对生物神经网络的模拟。例如,多层感知器(Multilayer Perceptron, MLP)就是设计用来模拟神经元网络进行计算的。但研究发现,生物神经元的复杂程度远超当前的MLP。例如计算机里常用的“异或”操作,需要一个人工神经网络才能实现。而脑科学研究发现,人脑中有特定的神经元,单个就能完成这一操作,其能力堪比多层人工神经网络。这种能力是在进化中形成的,除了“异或”操作,可能还有许多未知的复杂神经元功能。若能挖掘并利用这些机制,将大幅提升现有 AI 的能力。
人脑的高效机制如何启发AI
主持人:神经网络的设计初衷是模仿大脑神经元,就当前阶段而言,你如何看待 AI 和人脑的关系?AI是在模仿大脑,还是说大脑仅提供了一种设计参考,又或者二者存在未被揭示的深层联系?
李东胜:这个问题比较复杂。早在AI研究初期,上世纪50年代就有两派设计理论,分别是符号主义和连接主义。连接主义认为,要通过模拟大脑来实现智能,从目前看来,这一派别取得了非常大的成功。
但是,观察近年来的技术发展,越来越多的神经网络设计已经不局限于模拟大脑。例如 Transformer,其核心的注意力机制虽受大脑启发,但整体结构在大脑中尚未找到对应的原型,当然,也有可能是我们还没发现。
这种分化的根源在于进化目标的差异。生物神经元进化是为了物竞天择下的生存繁衍,而 AI 的进化目标则是由开发者定义的,如强大的语言理解力、多模态能力或具身智能。这些设计的目的,一方面是复现智能,另一方面是让 AI 帮助人类解决问题。
当前人类面临的已非单纯的生存挑战,而是如何实现更好的发展与更高端的追求。优化目标不同,自然导致所需技术路径的差异。大脑机制对 AI 确实有启发,但并非所有机制都是必要的。例如,大脑存在一种冗余机制,在执行同一个任务时,大脑有些神经元不会全量发放,而是由不同部分的神经元轮流激活来完成。这源于生物系统固有的不确定性,不能保证每次执行都一模一样,而冗余机制又不会让某些神经元被过度使用。但在电子硬件系统中,这种冗余可能并非必需,因为GPU等硬件可以方便地更换。所以,现阶段的AI并不需要完全复制这种生物冗余机制。
人类智能和 AI 智能存在联系,但优化目标既有重叠也有分别。例如,我们需要具身地解决一些问题时,目标可能是一致的。像我要扫地,未来机器人也要去扫地,这就是一个共同目标,采用的机制可能也一样。
此外,未来我们也将从 AI 身上学到很多。随着AI 越来越强大,未来在某些领域可能会超越人类。比如医疗诊断,如果AI 的诊断准确率超过人类专家,其背后必然运用了人类尚未掌握的知识。如果将这些知识挖掘出来,那么也将能帮助人类学习,提升我们的医疗诊断水平。这是一个相互学习、共同进步的过程。
主持人:人类教 AI 的方向之一就是脑启发的 AI,其核心是从人脑的信息处理机制中汲取灵感。那么,当前业界脑启发 AI 的主流技术路线有哪些,又有哪些比较重大的成果?
李东胜:谈到脑启发,效率是一个核心借鉴点,正如前面所讲,人脑的效率远高于现在的 AI。这方面的主流技术就是脉冲神经网络(Spiking Neural Networks, SNN)。整体来看,脑启发 AI 的技术路线主要可以从硬件和算法两层来看。
硬件层面,主要是芯片厂商在推动。例如,英特尔推出了好几代类脑神经拟态芯片,IBM 也有类似的研究,国内如清华大学的“天机芯”曾登上《Nature》封面。这些都是硬件上的代表性工作。
算法层面,我们团队近几年的工作是缩小脉冲神经网络和主流人工神经网络的差距。脉冲神经网络效率高却没能成为主流,主要原因在于其准确率与传统模型相比仍有一些差距。我们的研究发现,脉冲神经网络更适合处理时序数据,因为生物脉冲天然就是时序的。在视觉、听觉、语言等时序任务上,脉冲神经网络可以达到甚至超越传统网络的性能。
最近还有一些新的工作,例如模拟大脑零阶优化能力。现在大模型微调时也会用到这种技术。这些原理与大脑机制一致,部分也能通过理论推导得出,属于人脑与 AI 的共通机制。我们还有表征一致性方面的研究,通过让AI 学到的表征与人脑表征相似,从而提升 AI 解码大脑的效果,脑机接口效果也会更好。总体来说,脉冲神经网络仍是当前脑启发 AI 最核心的研究方向。
规模智能与效率智能的竞争与融合
主持人:除了已被运用到 AI 中的大脑机制,还有哪些人脑的信息处理机制,是脑启发 AI 有待进一步研究的方向?
李东胜:从信息处理的角度来看,现在的神经网络主要还是做数值计算,利用的是频率信息。但脑科学研究显示,大脑中还存在阿尔法波、贝塔波等脑电波,这些波本身携带大量信息,而现在的人工智能网络对这些信息利用较少。我们团队最近正在尝试这方面的研究。
Max Welling去年提出的Kuramoto Neuron技术,就是通过相位信息对世界进行建模,与传统神经网络建模方式不太一样。如何让人工神经网络更好地利用相位信息,是一件值得探讨的事情。
另外一个方向是时间和空间的复杂性。现在,空间的复杂性研究比较多,比如卷积神经网络的层级设计,借鉴了人脑视觉皮层从初级(V1)到高级(V5)的层级化处理机制。但对时间多尺度的研究,仅在时序领域有应用,而像自然语言处理领域,虽然稀疏注意力、层级注意力机制有考虑时间尺度优化,但整体探索仍不深入。然而时间多尺度的优化,正是提升 AI 效率的关键。
主持人:如果说大模型代表了“规模智能”,脑启发的 AI 代表了“效率智能”,未来这两条路线会是竞争关系,还是会走向融合?
李东胜:这个很难说。从规模上看,AI在神经元数量上超过人类是必然的。人脑神经元数量约 860 亿,进化缓慢,而 AI 的规模可以快速且几乎无限地增长。不过,现在规模法则(Scaling Law)也面临清晰的瓶颈。它的能耗越来越高,但地球上的能源有限,为了追求经济效益,AI一定要走效率路线。从商业角度看,许多大语言模型的推理成本已高于收益,模式不可持续。
要提升效率,脑启发是一个非常重要的技术路线。整体来看,AI 的发展主要依托理论指导和大脑启发两大方向。理论路线的难点在于,很多数学性质受现实条件制约难以实现,且目前对神经网络的理论分析还不透彻。相比之下,借鉴进化了亿万年的人脑,可能是一条更有效的路径。当然,脑启发也受限于我们对大脑的有限认知。脑科学的新发现将持续为此领域注入动力。
脑启发助力破解物理世界理解难题
主持人:大脑进化出智能,很大程度是为了控制身体在复杂世界中的生存。近期 Physical AI(物理AI)成为热点,其核心是让 AI 理解因果和物理法则。你怎么理解这个概念?让 AI 具备真正的类脑智能,是否必须让它具身化,去经历物理世界的磨合?
李东胜:Physical AI 确实非常重要。我们的世界可以分为虚拟和现实两部分,AI 之前的成功主要集中在虚拟世界,而现实世界在人类生活中占比更大,AI 要想在现实世界取得成功,就必须真正理解这个世界。
从理解世界的角度,现在的 AI 和人脑差距巨大。如果说AI在自然语言处理上已接近或超越人类,那么它对物理世界的理解还远远不及人类。因为物理世界的复杂性远超语言,它是一个四维时空连续体,这意味着AI需要的训练数据量要比自然语言大得多。
我曾与一位教授探讨,视频领域何时能出现类似 GPT 的大模型,得到的答案是,按照当前的技术路线,全世界的视频数据总和,可能都不足以训练出高性能的物理世界模型,且其所需的参数量和计算力,也远超当前的自然语言大模型。如果还硬走 Scaling Law 的路线,则需要花费比解决语言问题大得多的算力和资源。
另一条路就是借助脑启发来取得突破。我们团队正在研究如何让具身智能更接近人类。例如,我们借鉴了认知心理学中的系统1与系统2理论。系统 1 是快速、直觉、低耗能的处理模式,比如不假思索地拿起水杯喝水。系统 2 负责处理复杂的任务,比如用大拇指和中指以一个很别扭的姿势拿杯子,因为不经常做,就要思考该怎么去抓,过程就会慢,也更耗能。
这两种系统结合,本质上是效率与性能的平衡,既能高效地解决简单任务,又能精准应对复杂问题。这种方式可能更适合用来解决实际的具身智能问题。
AI 成为理解大脑奥秘的新工具
主持人:现在也出现了AI反向帮助人类更好地理解大脑的趋势。在你看来,目前 AI 在脑科学研究中有哪些具体的应用或者突破?
李东胜:AI可能会是未来理解大脑最重要的工具。回想为期十年的欧洲脑计划,到 2023 年结束时,这个计划的负责人说并没有取得预想中的成果。然后他们就把所有的期望都押在了未来的新技术上,主要就是 AI。当下脑科学的观测技术越来越先进,能捕捉到细粒度的神经信号,但随之产生的海量数据,仅靠人工根本无法完成分析,AI就成了最强的工具。
我们团队也在进行相关研究。比如在神经科学实验中,需要观测神经元的激活状态,探针探测到的是大量神经元信号叠加的“共同效应”,很难拆解出单个神经元的激活情况。我们尝试用AI学习,这对于未来往大脑里放探针的实验非常有帮助。我们成功实现了对具有方向选择性的神经元的识别,虽然这一结果只是复现了传统实验的结论,但它证明了 AI 在神经信号解码中的可行性。未来神经科学家若能利用我们这一AI 工具,从原始实验数据中挖掘新的大脑机制,将有助于推动脑科学的发展。
AI 赋能脑健康,推动精准普惠医疗
主持人:除了增强对大脑的理解,AI促进脑健康也正在成为医疗领域的热点。你和团队近年来也把AI 应用到了像阿尔茨海默病、自闭症、新生儿癫痫这些疾病的理解中。相比传统的临床方式,AI 能带来哪些独特的价值?目前这些应用进入临床的进度如何?
李东胜:AI 带来的价值是非常巨大的。首先是提升准确率,帮助人们更好、更准确地发现问题。比如新生儿的癫痫检测是临床中极具难度的诊断任务,人类专家也难以做到精准判断,而AI 在这个任务上的表现已经超越顶尖专家的准确性。如果把该技术部署到新生儿重症监护病房,将可以为新生儿癫痫的及时干预提供关键支持,进而大幅提升医疗服务质量。
其次是提升医疗效率。传统的筛查和诊断效率比较低,以阿尔茨海默病为例,原来的“金标准”需要做量表,甚至抽取脑脊液,耗时又耗力,成本也高。现在使用影像学方法,通过AI分析核磁共振影像,可以快速、低成本地辅助诊断。
第三是促进医疗资源均衡。当前发达地区、大城市拥有优质的医疗资源,而欠发达地区的医疗资源匮乏,甚至连能解读脑电图的医生都很稀缺。AI 辅助诊断工具的出现,能让一位医生服务更多患者,甚至提升诊断效果,有效弥补欠发达地区的医疗短板,让优质医疗资源触达更多人群。
最后是实现精准治疗。现在的很多方案是“一刀切”,但不同患者的病情、体质存在差异,同一治疗方案的效果也截然不同。比如帕金森病的脑部刺激治疗,每位患者的病情与反应各异。若采用统一的刺激参数,疗效会大打折扣,而个性化的刺激方案能显著提升治疗效果。以前这种个性化方案需要医生耗费大量精力,难以大规模开展,但有了 AI,定制化过程可能会变得非常快。
侵入式与非侵入式脑机接口的能力边界
主持人:这两年,脑机接口也备受关注,消费级的脑电头环已经能实现简单的意念控制,但离真正的“读心”或者高速通信还很远。从技术角度看,侵入式和非侵入式脑机接口,目前的能力边界在哪里?
李东胜:侵入式和非侵入式脑机接口的技术特点存在明显差异。从非侵入式的角度,它最大的优点是空间覆盖率高,最多可贴256个电极,几乎能覆盖所有脑区,可实现的功能场景更多,但它的信号要穿过头皮、头骨,经过脑组织衰减,采集到的信号极其微弱,再加上采集技术的限制,数据的信噪比较低。
这就导致它虽能覆盖多种场景,但精准度普遍不高。同时,人脑的个体差异极大,甚至同一个人在不同时间的大脑状态都不同,数据分布处于动态变化中,进一步增加了任务难度,导致准确性难以提升。针对这些问题,我们团队正在研发脑电基础模型,希望通过大量数据训练,缓解个体差异大和信噪比低的问题,拉近非侵入式与侵入式脑机接口的准确率差距。
从侵入式的角度来说,它的问题在于,应用范围受限。只有重度抑郁、帕金森病,瘫痪或渐冻症患者等,在没有选择的情况下才会用。同时,侵入式只能在少量脑区植入电极,无论是贴在大脑表面的电极,还是深层插入的电极,能采集信号的区域都非常小,空间分辨率也非常有限。它只能完成对应脑区负责的任务,无法实现多场景的功能拓展。
主持人:你刚才提到了脑电基础模型,能否展开介绍一下这一模型?
李东胜:去年我们发布了NeuroLM 的工作,这是首个采用GPT范式训练的多任务脑电基础模型。脑电是时间序列,类似于自然语言序列。而处理序列数据主要有双向处理和单向的 next-token prediction 两种方式,我们的研究构建了全球第一个基于单向预测的多模态脑电基础模型,就是基于之前的脑电信号预测下一个token,并将脑电与自然语言数据共同训练,相当于可以用语言和脑电进行交互。
这样一来,你就可以用自然语言和模型沟通。例如,你问它“这段脑电里有没有癫痫波的特征?”或者“当前这段脑电处于睡眠的哪个阶段?”然后它可以给出回答。这在行业内是一个比较有突破性的成果。
主持人:这种基础模型如何帮助缩小非侵入式与侵入式之间的准确率差距?
李东胜:缩小差距的核心是缓解了侵入式和非侵入式脑机接口存在的几个关键问题。例如,人和人之间的差异性,可通过大量数据来抹平。再如信噪比低的问题,如果数据量足够大,它学到更多的信号,那信噪比低的问题就缓解了。两者融合,模型的泛化能力就变强了。过去每个脑电任务都需要单独训练模型,现在一个脑电基础模型就能完成多个任务,而且有较好的效果。
非侵入式脑机接口的未来与交互新形态
主持人:最后让我们畅想一下未来,随着人工智能的演进,非侵入式的脑机接口还会有怎样的发展?
李东胜:未来非侵入式脑机接口的发展,必然依赖可穿戴设备的升级而迭代。现有的非侵入式设备要么是全头包裹的脑电帽,要么是笨重的头环,佩戴体验差;也有团队研发了脑电耳机,但这类设备仅能采集耳朵周边的信号,头顶、枕叶等关键脑区的信号无法采集,应用场景受限。非侵入式脑机接口要普及,硬件设备就要实现质的飞跃,既要能采集到更多脑区的信号,又要提升佩戴舒适性,让用户愿意长期使用。
同时,算法上也要持续进步。当前很多脑电解码的准确率仅为 60% 左右,而实际应用需要 80% 甚至更高,比如脑电打字,日常使用的准确率要求在 95% 以上,但现在非侵入式只能做到70%至80%,远未达到实用标准。
但我相信,随着设备和算法的改进,这些问题未来肯定会解决。未来,脑电设备可能会像手机、键盘、鼠标一样,成为日常人机交互的一部分。每个人都可以戴着它,非常自然地与 AI 交互,甚至与其他人进行沟通。
主持人:今天我们看到AI 与人脑并不是简单的模仿与被模仿,而是在效率、智能和理解世界的方式上,相互学习、共同进化。也许未来的突破,正是来自这两条路径的交汇点。 最后,感谢李东胜博士的分享。我们下期《AI Next》再见!
相关阅读:
- 署名文章:当AI遇见大脑:电脑与人脑协同“进化”
- 文章:脑启发设计:人工智能的进化之路
- 文章:守护人类健康:人工智能赋能医疗领域创新应用
- 论文:Joint Adaptation of Uni-modal Foundation Models for Multi-modal Alzheimer’s Disease Diagnosis. (opens in new tab)
- 论文:Online Pseudo-Zeroth-Order Training of Neuromorphic Spiking Neural Networks (opens in new tab)
- 论文:EgoBrain: Synergizing Minds and Eyes For Human Action Understanding
- 论文:Translating Mental Imaginations into Characters with Codebooks and Dynamics-Enhanced Decoding. (opens in new tab)
- 论文:NeuroLM: A Universal Multi-task Foundation Model for Bridging the Gap between Language and EEG Signals. (opens in new tab)
- 论文:Habitizing Diffusion Planning for Efficient and Effective Decision Making. (opens in new tab)
- 论文:SimSort: A Data-Driven Framework for Spike Sorting by Large-Scale Electrophysiology Simulation.
- 论文:Toward Relative Positional Encoding in Spiking Transformers (opens in new tab)
- 论文:Learning Topology-Agnostic EEG Representations with Geometry-Aware Modeling (opens in new tab)
- 论文:Protecting the Future: Neonatal Seizure Detection with Spatial-Temporal Modeling (opens in new tab)
- 论文:Seeing through the Brain: Image Reconstruction of Visual Perception from Human Brain Signals (opens in new tab)
- 论文:CircuitNet:A Generic Neural Network to Realize Universal Circuit Motif Modeling (opens in new tab)
- 论文:Synergizing habits and goals with variational Bayes. (opens in new tab)
- 论文:Efficient and Effective Time-Series Forecasting with Spiking Neural Networks. (opens in new tab)
- 论文:Advancing Spiking Neural Networks for Sequential Modeling through Central Pattern Generators. (opens in new tab)
- 论文:EEG2Video: Towards Decoding Dynamic Visual Perception from EEG Signals. (opens in new tab)
- 论文:Personalized progression modelling and prediction in Parkinson’s disease with a novel multi-modal graph approach. (opens in new tab)
- 论文:Unlocking the potential: T1-weighed MRI as a powerful predictor of levodopa response in Parkinson’s disease. (opens in new tab)
- 论文:Unsupervised Video Anomaly Detection for Stereotypical Behaviours in Autism. (opens in new tab)
- 论文:Leveraging Pretrained Representations with Task-related Keywords for Alzheimer’s Disease Detection. (opens in new tab)
声明:
《AI Next》是微软亚洲研究院推出的一档利用 AI 技术制作的播客,旨在探索合成生成式技术在内容制作和传播中的新形式与可能性。节目中的语音均非真人录制,而是由研究技术原型合成。其中,嘉宾语音由 VibeVoice 技术基于既定文字内容以及嘉宾声音样本合成,宣传视频中的嘉宾人物头像由 VASA 技术基于音频内容以及卡通风格合成和渲染。
作为一项探索性播客节目,《AI Next》中涉及的相关技术仍处于研究阶段,生成内容的表现可能受多种输入因素的影响。节目制作及发布遵循人工智能、数据安全与隐私保护相关的法律法规。节目中所使用的语音、文字与图像均获得嘉宾授权,仅用于科研与科普展示。微软亚洲研究院将持续对相关技术进行优化,提升节目的收听体验。
随着人工智能技术的快速发展,确保相关技术能被人们信赖是一个亟需解决的问题。微软主动采取了一系列措施来预判和降低人工智能技术所带来的风险。微软致力于依照以人为本的伦理原则推动人工智能的发展,早在2018年就发布了“公平、包容、可靠与安全、透明、隐私与保障、负责”六个负责任的人工智能原则(Responsible AI Principles),随后又发布了负责任的人工智能标准(Responsible AI Standards)将各项原则实施落地,并设置了治理架构确保各团队把各项原则和标准落实到日常工作中。微软也持续与全球的研究人员和学术机构合作,不断推进负责任的人工智能的实践和技术。
所有使用或转载本节目的个人与机构,在引用与传播时需明确标注相关内容“由AI技术合成”或者不得移除已有的标识,并避免任何可能引发误导或侵犯他人权益的使用方式。若您发现本节目内容或相关技术被非法使用,请通过微软安全响应中心(Microsoft Security Response Center)网站 (opens in new tab)进行举报。