苏木

注册

 

发新话题 回复该主题

组织病理学中的深度学习 [复制链接]

1#

年,纪念斯隆·凯特琳癌症研究中心(MSKCC)研究者在《自然·医学》发文,数据科学家ThomasFuchs团队公布基于名癌症患者的4万余张数字化病理切片的新AI系统,对前列腺癌、基底细胞癌和腋窝淋巴结转移乳腺癌的测试曲线下面积(AUC)均高于0.98。随着媒体的炒作和不断的过度解读,一度认为首个临床级别的AI系统已经到来!

ThomasFuchs

近5年来人工智能(AI)领域的主要突破对全球社会产生了重大影响。在医学领域,尤其是诊断学科(例如,放射学和病理学),将AI应用于患者数据的初步结果非常混杂。诊断学通常在很大程度上依赖于对数据中模式的识别,例如图像。然而,研究表明,对于许多诊断任务,医生之间的可重复性不太理想。此外,由于治疗选择的增加,需要更准确的诊断来满足精准医疗的要求,这其实可能已经超过了医生肉眼观察的范围。因此,使用AI检测和准确量化医疗数据中的模式有助于诊断过程,使其更有效和可重现,并提高准确性和精确度。

其中,AI的一个重要领域就是组织病理学组织切片的分析,目前需要专门的医生、病理学家仔细评估。病理学家根据各种组织特征(例如,组织结构紊乱、是否存在特定的细胞特征或是否存在大量炎症细胞)对癌症和炎症性疾病等疾病进行诊断和分级。同时,由于病理学家的短缺,工作量正在增加,良好的诊断更是亟待稀缺。

来自NatMed25,–().

利用AI分析组织切片通常被称为计算病理学(CPATH),其目前的应用在很大程度上依赖于深度神经网络的使用(即深度学习)。图像分析算法早在20世纪60年代就已经开始研究,并且最初应用于细胞的图像。血涂片中单个细胞可分为亚型,根据大小、形状和染色质分布等定量细胞特征,分析血液成分,帮助诊断一系列疾病。例如,Kather等人表明结合5种不同类型的纹理描述符,训练出的分类器能识别结直肠组织切片中的肿瘤和间质,准确率为98.6%,如下图。

图片来自SciRep.Jun16;6:.doi:10.

在过去的10年中,由于显微扫描设备的大幅改进,CPATH取得了实质性的进步,并使全玻片图像(WSI)的采集成为可能,AI也取得了积极的进展。在计算机视觉方面,自然图像分类中的有效训练卷积神经网络(CNN)更为深入,其性能要远远优于手标特征的机器学习。这些新的深度神经网络仅在3年内就将错误率从25%降低到4%。CPATH研究人员注意到在计算机视觉中应用CNNs的成功,最初提出的方法只集中于分析来自WSIs的小裁剪区域,如有丝分裂计数。在乳腺癌分割、胶质瘤分类、非酒精性脂肪肝、肾移植活检评估和前列腺癌检测等应用方面使用整个WSI的方法。

随着组织病理学向更先进的AI模型发展,待解决任务的复杂性和公开可用数据集的规模开始增长。年提出的CAMELYON挑战,目的是开发CPATH解决方案,用于检测前哨淋巴结中的乳腺癌转移。参与挑战的参与者必须解决两个任务,旨在模拟病理诊断中的常规任务:在每个淋巴结中找到肿瘤区域,从而在WSI水平预测肿瘤的存在。CAMELYON的大量数据和临床焦点激发了研究人员和行业的创造力,并推动了AI用于转移检测的发展,从而使CPATH方法从学术和商业技术角度都有了飞跃。目前的临床应用包括肿瘤检测和分类、图像分割、细胞检测和计数、有丝分裂检测、肾移植活检的分析和肿瘤分级等。举个例子,就是将U-Net模型运用于自动组织分区,如下图中,基于CNN对肾脏组织分割CPATH算法已经应用于肾脏组织切片,其中不同颜色代表不同的组织结构,紫色表示肾小球;红色表示硬化肾小球。

NatMed.May;27(5):-.doi:10.

在临床实践背景下,自动化重复和耗时的任务,如活检和切除淋巴结获得的组织样本的分析,会对病理学家临床工作量的优化产生巨大的影响。由于人群筛选项目采集了大量乳腺、结肠和宫颈的组织样本,术中切除了每例患者的大量淋巴结,导致病理学家需要检查大量(大部分为阴性)切片。在这种情况下,AI算法可以标记可疑区域或载玻片进行检查,或在未来自主评估病例。

除了自动化当前的诊断任务,CPATH方法还可用于支持病理学家提供额外的数据信息;例如,通过显示乳腺癌WSIs中有丝分裂细胞的热点,这些这些热点是乳腺癌患者治疗指南建议的肿瘤分级所必需。这种方法的表现与病理学家相似,可以降低观察者间变异性。使用不同颜色突出前列腺癌区域以代表不同的Gleason分级,并使用CPATH方法按腺癌亚型突出肺癌生长模式,产生了相似的结果。此外,分割、检测和分类方法的组合可以实现对临床实践中使用的已建立生物标志物的客观定量。一个例子是肿瘤浸润淋巴细胞的评估,可以通过分割玻片的基质区域,并通过苏木精和伊红(HE)染色或免疫组织化学(IHC)检测基质内淋巴细胞来实现。使用这种方法,肿瘤浸润淋巴细胞的存在被证明与肺腺癌的复发和基因突变相关。其他生物标记物示例包括与肿瘤内基质量相关的示例,如肿瘤-基质比,可通过计算通过图像分割获得的肿瘤和肿瘤相关基质之间的比值进行评估,并对程序性死亡配体1(PD-L1)阳性细胞进行定量,用于对患者进行免疫治疗分层,可通过检测阳性(和可能阴性)细胞、分割PD-L1阳性和PD-L1阴性区域或甚至根据HE切片预测实现。

大规模数据集也会因CPATH的应用而得到便捷。其中的一个重点例子就是使用AI进行前列腺癌检测,其中一种方法是年使用个前列腺组织样本的数据集开发的,而年提出的方法使用了24,个前列腺组织样本的数据集。随着数据集规模的增长,CPATH方法开始接近,甚至超过病理学家的表现。

收集注释仍然是CPATH算法标准化的重要障碍。采集图像的手动注释是一项繁琐的任务,需要领域专业知识,通常由(住院医师)病理学家进行。相比之下,医院(检索关于分级、分子亚型或治疗反应的信息)或区域或国家登记研究(检索关于生存的信息)访问病理报告和电子患者记录,且只能由授权的临床研究人员或数据管理者提供。尽管如此,仅使用临床注释构建CPATH模型对于组织病理学的每个应用都是不可能或有效的。例如,如果对到达特定诊断至关重要的特征仅存在于WSI的极小区域,则CPATH模型在学习执行任务之前可能需要非常多的病例。因此,在手动注释仍然需要的情况下,需要开发技术来促进注释的有效产生。

当前仍然存在哪些挑战?

尽管在过去5年中,CPATH在算法性能和开发新方法方面取得了相当大的进展,但仍然存在许多挑战。

挑战1:CPATH算法在临床实践中的普遍性

尽管在过去几年中开发CPATH算法的数据集大幅增长,但许多数据集仍缺乏重要特征,因为它们不能代表临床实践中遇到的数据类型。临床病例数据比研究论文中使用的数据集具有更多的变异来源。尽管现在大多数工作试图通过纳入不同实验室的数据来解释不同扫描仪或染色技术引起的变化,但纳入的实验室数量通常太少,无法对普遍性进行真实评估。需要纳入具有代表性的实验室数量将取决于诊断问题,CPATH的这一方面的研究很少。

CPATH中尚未考虑其他变异来源,例如不同中心或国家之间的患者人群不同,这种变化会导致CPATH算法中微妙的偏倚来源。

CPATH算法对其训练集表现最佳,但对其他来源数据表现不佳,这一众所周知的现象突出了这些泛化问题。算法的有限通用性可能是CPATH技术在临床中大规模实现的最重要障碍。

为了使CPATH算法在响应临床数据中的鲁棒性更好,建立一个包含尽可能多变化的训练集至关重要,包括来自不同染色批次、扫描仪和医疗中心的数据。数据增强技术可能会引入额外(人工)变异性,特别

分享 转发
TOP
发新话题 回复该主题