技术文章

CV技术在医疗领域中有哪些应用？Salesforce、谷歌、斯坦福综述文章登上Nature子刊

时间：2024-06-06 16:48:01 点击次数：

　　最近，来自 Salesforce AI 研究院、谷歌、斯坦福大学等机构的研究人员合作撰写了一篇文章，综述了基于深度学习的计算机视觉技术在医疗领域中的现状与应用。该论文发表在 Nature 旗下期刊 npj Digital Medicine 上。

　　十年来，人工智能取得了前所未有的进展，包括医学在内的许多领域都有望从中受益。在该论文中，研究者调查了以深度学习为支撑的现代计算机视觉技术在医学领域的最新进展，重点包括医学成像、医疗视频和临床部署。

　　该论文首先简要概述了卷积神经网络的十年进展，包括它们在医疗领域中实现的视觉任务。接下来，论文讨论了一些有益的医学成像应用示例，涉及心脏病学、病理学、皮肤病学、眼科医学，并为后续研究工作提出了新的方向。此外，研究者还介绍了医疗视频，重点介绍了如何将临床工作流程与计算机视觉结合来改善医疗效果。最后，论文讨论了在现实世界中部署这些技术面临的挑战和障碍。

　　目标分类、定位和检测分别是指识别图像中的目标类型、确定目标所在位置，以及同时确定目标的类型和位置。过去十年，ImageNet 大规模视觉识别挑战赛（ILSVRC）是促成这些任务进步的先锋。它创建了一个由深度学习研究人员组成的大型社区，社区中的研究者相互竞争和合作以改进各种 CV 任务的技术。

　　2012 年，首个使用 GPU 的现代 DL 方法成为该社区发展的拐点，它预示着该领域接下来几年的显著进展，直到 2017 年 ILSVRC 竞赛举办了最后一届。值得注意的是，在此期间，分类准确率已经达到了人类级别。在医学上，这些方法的细粒度版本已成功用于许多疾病的分类和检测，如下图 2 所示。

　　近年来，使用计算机视觉技术处理静态医学成像的论文从数百篇增长至几千篇。其中，放射学、病理学、眼科医学和皮肤病学等几个领域受到了广泛关注。

　　医学影像的独特特征给基于 DL 的计算机视觉提出了许多挑战。例如，图像可能非常庞大，数字化组织病理学图像可以产生约 100000 x 100000 像素的千兆像素图像，而典型的 CNN 图像输入约为 200 x 200 像素。

　　目前已有数十家公司获得美国 FDA 和欧盟 CE 的医学成像 AI 批准。随着可持续商业模式的建立，商业市场已经开始形成。例如，印度和泰国等地欢迎部署糖尿病性视网膜病变筛查系统等技术。如今这种快速发展已经达到了直接影响患者治疗效果的地步。

　　心脏成像越来越广泛地应用于临床诊断等流程中，深度学习的关键临床应用包括诊断和筛选。心血管医学中最常见的成像方式是心脏超声或超声心动图。作为一种经济高效的无辐射技术，超声心动图因其直接的数据采集和解释功能而特别适合应用 DL 技术，它常被用于急诊住院设施、门诊中心和急诊室中。

　　病理学家在癌症的检测和治疗中起着关键作用。病理分析（基于显微镜下组织样本的目视检查）本质上是主观的，视觉感知和临床训练的差异可能导致诊断和预测意见不一致。

　　DL 可以支持很多重要的医疗任务，包括诊断、预测病情和治疗效果、疾病监测等。

　　近年来，医疗领域已经采用了亚微米级分辨率的组织扫描仪，该仪器可以捕获千兆像素的全视野数字切片（whole-slide images ，WSI）。这种发展和计算机视觉的进步促成了 AI 驱动的数字组织病理学的研究和商业化活动。该领域具有以下潜力：

　　将病理学与放射学、基因组学和蛋白质组学测量结合起来，以改善诊断和预测效果。

　　皮肤病学中 DL 的关键临床任务包括特定于病灶的鉴别诊断、在良性病灶中发现与病灶有关的问题，以及帮助跟踪病灶随时间的增长。一系列研究表明，CNN 在归类良性与恶性皮肤病变时的性能可以媲美皮肤科医生。这些研究依次测试了越来越多的皮肤科医生，并且始终展示出匹配甚至超过医师水平的分类敏感性和特异性。但这些研究很大程度上局限于二分类任务，如鉴别良性与恶性皮肤病变。

　　最近，这些研究还包括了对数十种皮肤病的诊断，包括非赘生性皮肤病（如皮疹），其分类器输入还囊括了非视觉元数据（如病人的人口统计特征）。

　　将这些算法集成到临床工作流程可以使其支持其他关键任务，包括对具有多个病灶的病人进行大规模恶性病变检测等。这一领域仍待探索。

　　近年来，眼科领域出现了很多 AI 研究，许多论文展示了其 AI 成果超出当前人类的临床诊断和分析能力。这带来的潜在影响是巨大的，眼睛检查仪器的便携性意味着可以利用临时诊所和远程医疗为偏远地区带去检测点。该领域极大地依赖眼底成像和光学相干断层扫描 (OCT) 来诊断和管理病人。

　　CNN 可以准确诊断许多疾病。眼睛包含大量人类无法解释的特征，包含有意义的医疗信息，而 CNN 可以获取这些特征。CNN 还可以基于眼底成像分类多种心血管和糖尿病风险因素，包括年龄、性别、收缩压等。这表明未来 AI 研究有可能基于眼部图像预测非眼部信息，带来医疗领域的范式转变，即通过眼部检查判断眼部和非眼部疾病，而这是人类医生目前无法做到的。

　　计算机视觉可以在手术和内窥镜检查等医疗步骤中提供极大的用途。深度学习在医疗方面的重要应用包括通过实时环境感知、技能评估和训练来提升手术性能。早期研究主要在基于视频的机器人手术和腹腔镜手术中开展。另一个方向则是利用计算机视觉识别不同的手术阶段，从而开发环境感知的计算机辅助系统。

　　此外，计算机视觉还开始出现在开放手术中。这里的挑战在于视频捕捉视角的多样性（如头戴式、侧视和悬吊式摄影机）和手术类型的多样化。对于所有类型的手术视频，将 CV 分析转换为可以提升治疗效果的工具与应用是下一个研究方向。

　　计算机视觉可以识别物理空间中的人类活动，可用于大量「环境智能」应用。环境智能指连续、非侵入式地感知物理空间中的活动，从而为医生、护士等医疗工作人员提供帮助，如病人监测、自动化文档等，参见图 3。

　　图 3：环境智能。计算机视觉与传感器和视频流让很多安全应用在临床和居家环境中变为了可能，为医护工作者扩展了监测病人的能力。这些应用主要使用细粒度活动识别模型构建，可能包括 ICU 中的患者监测、医院和诊所中的洗手动作监测、异常事件检测等。

　　环境感知还可以在医院之外应用，帮助更多人及时获取医疗服务。例如，它可以通过监测日常活动中的异常情况来帮助独居老人及时获取医疗服务。此外，计算机视觉技术还有望成为远程生理指标测量的工具，例如系统利用视频来分析心率和呼吸频率。

　　医疗 AI 的应用可以给社会带来福利，也有可能加剧长期存在的不平等。当得到恰当、符合伦理的使用时，医疗 AI 可以促成更公平的医疗环境。而其关键在于理解模型基于什么样的数据构建、在什么样的环境中部署。该论文展示了将机器学习技术应用于医疗领域时需要注意的四个要点：数据评估、模型局限性解决、社区参与和信任建立。

　　数据质量很大程度上决定了模型质量，发现数据中的不公平并解决将带来更公平的医疗环境。目前有多种移除数据偏见的方法。个体层面上的偏见可以通过专家讨论和标注判定来解决，而群体层面偏见则需要缺失数据补足和分布漂移来解决。国际多机构评估是确定模型在多种不同群体、医疗设备、资源设置和实践模式间泛化性能的鲁棒方法。此外，使用多任务学习训练模型执行多种任务也会使模型更具普遍用途和鲁棒性。

　　透明报告可以解决模型的潜在缺陷，帮助解决模型局限性。然而，仅仅报告，以及在通用数据集上实现强大性能并不足够，我们还应理解模型失败的特定实例。一种解决方案是将评估人口统计性能与显著图结合起来，从而可视化模型关注的地方，发现潜在的偏差。下图 4 展示了模型部署中的偏见。

　　从病人、医生、计算机科学家和其他利益相关人的角度来看，社区参与对于模型的成功部署更为重要。它可以帮助识别医疗诊断中种族偏见的结构化成因，具体表现是发现数据集中的偏见、确定导致模型失败的人口统计特征。以用户为中心的评估是确保模型可用性并使其适应现实世界的重要工具。

　　另一个使医生建立起对 AI 信任的有效工具是 ML 模型与现有工作流的并行部署，参见图 5：

　　图 5：临床部署。该示例工作流程展示了 AI 增强工作流的积极效果，以及可建立起的信任。人工智能的预测结果为医生提供了直接价值，而随着收集到的数据增加，这种能力还会不断提升。

　　原标题：《CV技术在医疗领域中有哪些应用？Salesforce、谷歌、斯坦福综述文章登上Nature子刊》

　　本文为澎湃号作者或机构在澎湃新闻上传并发布，仅代表该作者或机构观点，不代表澎湃新闻的观点或立场，澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。BOB·体育综合APP下载

上一篇: 芙蓉国评论丨以“计”助“技”为种业创新提供强大人才支撑

下一篇: 《求是》杂志编辑部：以创新推动新质生产力加快发展