近日,由新国大生物医学工程系及电子与计算机工程系助理教授、新加坡国立大学广州创新研究院PI(Principal Investigator,学术带头人)金玥明设计的算法正让AI逐步贴近临床医生的思维与行动模式。她将计算机视觉与生物医学科学融合,推动大型AI模型与临床实践的精细需求精准对接。依托一系列高影响力研究,她系统探索AI如何在医疗场景中实现从感知、推理到前瞻预判的能力跃迁,为临床医生提供更可靠、透明的精准诊疗支持。

金玥明助理教授及其研究团队成员正在展示Medical SAM Adapter的视觉输出成果,该成果可赋能医疗人工智能感知与临床决策支持。
适配AI通用模型,实现精准医疗感知
金玥明助理教授近期发表于《Medical Image Analysis》(MedIA 2025)的研究,始于一个临床医生使用AI进行医学影像感知时常见的挑战:那些在日常照片解析中表现出色的模型,在处理医学影像时却往往力不从心——因为医学图像对比度低、解剖结构复杂且难以预测。而若针对每一个新数据集从头训练专用模型,不仅成本高昂,而且耗时费力。
面对这一难题,金玥明助理教授及其团队另辟蹊径:他们并未构建全新模型,而是为现有通用模型设计了一个轻量级“适配器”。该方法对Segment Anything Model(SAM)通用视觉模型的一小部分参数进行微调,同时引导其理解计算机断层扫描(CT)、磁共振成像(MRI)和超声等医学影像的特征。这种增量式的调整,使SAM能够快速掌握医学影像的“专业语言”,而无需重写其原有的“视觉词汇库”,由此成功开发出“医疗SAM适配器”(Medical SAM Adapter,简称 Med-SA)。

Medical SAM Adapter与基础版SAM在多种医学影像任务中的视觉对比,包括CT、MRI和超声图像分割。
Med-SA 兼具结构紧凑与高效的优势,在涉及多种器官、涵盖不同成像模态的17项分割任务中,均展现出卓越性能。该研究证实,仅需极低的额外成本,就能将大型基础模型精准调校至临床应用所需的精度水平。
“我们希望医生能够像自然观察医学图像那样,直观、即时地与分割工具交互,” 金玥明助理教授表示,“它既要响应迅速,又能契合医生的专业判断,这便是Med-SA的核心设计目标。” 目前该研究已获得800余次学术引用及1200余个GitHub星标,深受全球科研人员与开发者的认可。
“我们这种简洁而高效的适配器技术,已被广泛认为是推动大型基础模型应用于医学图像分割的重要AI架构。”她补充道。
跨领域统一,拓展感知边界
如果说Med-SA让通才变成了专家,那么金玥明助理教授另一项名为Pro-NeXt(发表于IEEE TPAMI 2025)的模型则追求相反的目标:构建一个能跨专业领域识别细微视觉差异的统一架构。
细粒度视觉分类任务要求具备专家级的“慧眼”,例如区分疾病类型、服装面料分级,或辨识艺术品中的微妙风格。传统模型通常为每个领域单独训练模型,彼此孤立,难以跨领域迁移应用。Pro-NeXt则提出一种统一架构,能够识别不同专业领域中的细微视觉差异,在涵盖医学、设计等5个领域的12个数据集上均表现优异。
该模型通过学习不同领域间共通的细微视觉逻辑,同时保持足够的透明度,让人类专家能够理解其推理过程。这种通用性为未来描绘了一幅令人振奋的图景:一个单一的AI核心架构可同时服务于多个行业,避免陷入无数任务专用模型的碎片化困境。对医院而言,这意味着诊断工具能像医生处理不同病例那样灵活应变。
“这项研究提出的统一模型,极大地简化了AI在各类任务和场景中的应用方式 —— 从青光眼筛查到新冠病毒诊断皆可覆盖。我们的统一模型以前所未有的速度提升了诊断精度,并推动了AI在医院中的实际部署,"金玥明助理教授补充道。
从感知迈向推理,构建可理解的智能体

IMVR实验室AI研究方向概览,涵盖医疗感知、手术机器人、多模态推理框架及医疗健康基础模型。
支持临床诊断与治疗,仅靠精准感知远远不够,具备推理能力的AI能进一步提升准确性与可解释性,让临床医生使用起来更直观、更便捷。大型语言模型已在这一领域展现出一定潜力,但遗憾的是,在需要结合上下文、证据支撑和严谨逻辑的复杂医疗决策中,它们往往存在短板。
为此,金玥明助理教授及其团队进一步开发了“智能体推理框架”(Agentic Reasoning,发表于ACL 2025),以一种有效的方式弥补这一短板。该系统由三个核心智能体组成:网络搜索、代码执行与结构化记忆。三者协同构成一个简约而连贯的问题解决工具集,不仅能够主动检索信息、通过代码验证想法,还能系统梳理事实之间的逻辑关联,从而支持更可靠、可解释的推理过程。
在标准推理基准测试及一项临床案例研究中,该框架的表现优于使用更复杂工具的精密系统。在真实医疗治疗方案规划场景的评估中,执业临床医生对其输出结果的评价是 “清晰且实用”。“我们专注于研究人类解决复杂任务的推理方式,因此我们的方法能够直观、高效地实现复杂临床任务的自动化,在提升准确性的同时增强可解释性,” 金玥明助理教授说,“我们的目标并非模仿人类智能,而是让AI成为一位严谨可靠的合作伙伴。”
从推理走向预判,智能导航与临床前瞻性
除了理解与推理,预测未来状态对辅助临床决策同样至关重要——例如生成下一步手术操作以辅助导航,或模拟疾病未来进展以优化治疗计划。金玥明助理教授和她的团队进一步开发了“多尺度时序预测模型”(Multi-scale Temporal Prediction, MSTP,发表于NeurIPS 2025),让AI学会“预见下一步”。
MSTP模型从多个时间维度分析事件:阶段、步骤和具体动作。它以增量方式生成预测结果,如同电影镜头般随着手术推进逐步拼接完整。为确保预测的一致性,该模型采用了一个由多个AI智能体协作构成的网络,智能体之间相互验证工作成果,保障短期与长期预测的连贯性。
该系统在真实手术流程录像上进行了测试,其预测结果比传统方法更贴近专家评估。“这套预测性AI系统可支持手术导航,并推动手术机器人自动化发展,从而减轻外科医生负担、优化手术室工作流、缩短患者等待时间,”金玥明助理教授补充说:“走出手术室,这套模型还可应用于养老场景。提前识别身体异常,是守护长者居家安全的关键。”
在手术室中,时机决定一切。外科医生通过影像、手势以及团队间的眼神交流,时刻把握手术节奏。每一次扫描、每一道切口、每一次机器人辅助操作,都会产生海量、复杂且持续不断的视觉数据。AI若想在这一动态且复杂的环境中发挥作用,不仅要学会 “看见”,更要理解 “所见之物的意义”。
金玥明助理教授及其团队开发的一系列开创性医疗AI技术,使AI得以成为临床医生的得力协作者——从增强感知,到深度推理,再到前瞻预测,全面推动临床工作流程的智能化。她的研究始终秉持一个信念:以技术创新解决实际问题,创造兼具实用价值与社会影响力的医疗科技。
参考文章:
《Medical AI to see, reason and anticipate》
https://cde.nus.edu.sg/news-detail/medical-ai-to-see-reason-and-anticipate/


