喜讯 | 新国大何丙胜教授荣获2026年度Google研究奖项，推动大规模AI模型自我优化-新加坡国立大学广州创新研究院

近日，Google公布2026年度机器学习研究与教育奖（张量处理器专项）获奖名单。新国大广州创新研究院PI（Principal Invetigator，学术带头人）、新加坡国立大学计算机学院何丙胜教授凭借“TPU（张量处理器）训练与推理的轻量自动化性能优化”（Lightweight and Automated Performance Optimization of Training and Inference on TPUs）项目成功入选，该项目旨在研发能够自动发现、定位并修复性能瓶颈的智能化工具，推动大模型训练与推理性能优化从“专家驱动”迈向“自动驱动”。

行业困局

训练大模型，远不是“写好代码按个键”那么简单

训练大语言模型，并非写好代码、按下运行键就可以。正如谷歌专门为大模型训练推理打造的张量处理器一样，大语言模型通常部署在成百上千的处理器上：各个单元像齿轮一样咬合运转，交换数据、拆分任务、保持同步。一旦哪个环节出错，系统便会降速，昂贵的硬件资源只能闲置。

问题在于，定位和修复这类性能瓶颈至今仍高度依赖人工经验。工程师们不得不反复分析性能剖析日志，通过不断试错来调整系统配置。这一过程对系统优化与工程实践能力要求较高，而相关专业人才和技术积累往往是许多研究团队面临的短板。

破局者

何丙胜教授拿下Google研究奖，要让AI训练“自己优化自己”

新加坡国立大学计算机学院何丙胜教授正致力于打破这一困局。他的项目“TPU训练与推理的轻量自动化性能优化”入选2026年度Google机器学习研究与教育奖（张量处理器专项），旨在构建面向分布式AI系统的自动化性能优化框架，实现性能瓶颈的智能诊断与自主修复，降低大模型训练与推理过程中的调优门槛和运维成本，推动性能优化从依赖专家经验向智能化、自动化转变。

该项目创新性地以性能剖析为基础，构建具备自主诊断与优化能力的智能系统，使性能分析从“发现问题”进一步迈向“解决问题”。

与传统工具仅标记问题、留待人工解读不同，这套新工具能够在最大限度减少系统干扰的前提下精准识别性能瓶颈，并自主生成可执行的优化方案。与何丙胜教授共同参与项目的还有访问研究员Weihao Cui、新国大广州创新研究院博士奖学金得主Junyi Hou以及博士生Feng Yu。

何丙胜教授团队的长期目标很明确：降低大规模机器学习系统优化的技术门槛，使高效的大规模机器学习能力惠及更广泛的科研群体，而不再局限于少数系统优化专家。

应用前景

Transformer、MoE全阶段覆盖，这项研究要“把技术交出去”

项目重点面向大语言模型训练与推理场景，适用于稠密Transformer架构和混合专家（Mixture of Experts，MoE）模型，并覆盖预训练、微调和推理全过程。尤其对于MoE模型，其动态路由机制在提升计算效率的同时，也显著增加了分布式系统的性能优化难度。项目研发的自动化优化技术有望有效降低此类复杂系统的调优门槛，提高资源利用效率。

此外，推荐系统和嵌入密集型应用等依赖大规模分布式基础设施的工作负载，也面临计算、存储与通信协同优化等共性挑战，因此同样具备广阔的应用前景。

目前该项目正以Medusa Compute开源计划的形式推进，相关成果计划在机器学习与系统领域的顶级会议发表。

文章英文版原载于NUS Computing，原文标题为Making Large-Scale AI Self-Optimising: NUS Computing’s He Bingsheng Receives 2026 Google Research Award

原文链接：https://www.comp.nus.edu.sg/bytes/making-large-scale-ai-self-optimising-nus-computings-he-bingsheng-receives-2026-google-research-award/