人工智能(artificialintelligence,AI)经过将近70年的演进与发展,在越来越多领域得以启动和重视,医疗健康亦是AI应用的重要领域。检验医学是现代医学的重要组成部分,临床决策所需信息70%来自检验,其高度自动化、数据化以及采用关系型数据库存储数据的特点为AI的应用和发展创造了有利条件;而以数据挖掘、机器学习(machinelearning,ML)、专家系统为支撑的AI技术也将为检验医学的跨越式发展提供契机。
一、检验大数据和AI的融合
1.检验大数据的特点:医院最重要的医技部门之一,产生和处理的数据量十分庞大,具有典型的“5V”特征:数据体量大(volume)。一家拥有医院,每年至少产生万条检验数据。检验数据类型多样(variety),常规检验指标一般为文本格式;形态学检验数据、血糖血脂等动态监测数据一般为非结构化或半结构化格式;而流式细胞仪数据包括单参数直方图、二维点图、假三维图和列表等多种格式。数据产生速度快(velocity),自动化高通量检验设备的发展使得样本检测、分析、出报告速度极快。数据价值高(value),检验数据长期以来一直为疾病的诊断、治疗、疾病监测等提供重要依据。准确性高(veracity),临床检验科有严格的质控标准,能提供与疾病相关的准确、客观的检测指标。
2.检验信息系统(laboratoryinformationsystem,LIS)与检验大数据:LIS医院管理信息系统(hospitalinformationsystem,HIS)重要的组成部分。该系统存储了海量的检验数据(包括检验标本采集、检验报告审核、报告发布、质控信息等),并与电子健康纪录(electronichealthrecord,EHR)系统密切关联,为临床决策提供依据。尽管如此,目前LIS中的检验大数据尚未被充分重视。首先,系统中大量检验数据的隐藏价值没有得到充分挖掘和利用;其次,尚未对系统中的无效数据进行甄别和删除;最后,尚未将“检验大数据”与“临床结果”进一步关联,以解决实际临床问题(如诊断、治疗、预后等)。
3.AI与检验大数据:AI发展的3个重要基础为数据、算法、算力。首先,数据是基石,没有高质量数据支撑的AI是纸上谈兵。基于典型的“5V”特征,检验大数据与AI的融合势在必行。其次,算法是AI的“灵*”。与传统方法不同,ML是从数据中学习,而不是用规则编程。对于给定的任务,算法会筛选大量变量,寻找可靠的组合预测结果,并以非线性和高度交互的方式组合起来进行预测,因而对数量庞大或复杂的数据库进行挖掘分析具有绝对优势。由此,使用ML方法对LIS中存储的数千万患者信息(包含数千亿个数据点)进行挖掘、训练、建模是完全可行的,这种方法不仅可以解决传统统计模型参数限制的问题,还能减少人工误差,提高筛选效率,更重要的是有助于发现数据间的潜在关联及隐藏价值。最后,算力为AI提供了基本的计算能力支撑,目前硬件算力的提升一直是AI快速发展的重要因素。
4.ML建模和AI产品研发:“大数据将改变医学”的观点已被广泛认可,然而数据本身是无用的,真正具有变革意义的是基于大数据的ML模型(而非数据集)。在检验医学领域,ML模型的实现和AI产品研发主要包括以下步骤:(1)定义临床问题,ML算法必须经过适当设计才能真正有效,临床问题必须既是ML应用程序的驱动力又是参考点(如开发检验AI辅助诊断恶性肿瘤)。(2)数据采集和前处理:医疗数据库之间缺少有效的协同机制,数据采集和存储标准不一,结构化程度低,质量不统一,会导致医疗大数据的数字化缺乏认证、准入和应用保障机制,进而影响医学大数据的应用,因此数据的采集和前处理(包括数据分类、标准化、结构化等)是ML模型构建的重要基础。面对海量标准不一的数据,仅依靠人工处理是不现实的。模式识别作为AI技术的重要分支,可很好地将多个标准来源的数据进行采集、分类并结构化,使之成为能够被程序识别的数据结构(如数值、字符、集合、数值区间等)。(3)变量筛选和建模:变量筛选问题可归结为从一组变量数据X=(X1,X2,…,Xm)中筛选出对分类/预测有区分作用的“最优”子集Xsub,进而构建准确的预测模型。变量筛选方法主要有传统的统计学方法和ML方法,前者主要分为参数和非参数方法,主要是基于概率分布的统计推断;后者主要包括有监督学习和无监督学习算法,主要区别在于训练集是否用到分组信息。(4)模型有效化:ML模型的效果可因人群、场景的改变而变化。因此,ML模型研究还应包括模型的内部和外部效能验证。内部效能验证体现模型的可重复性,可利用项目内部数据进行交叉验证、Bootstrap验证等;外部效能验证体现模型的推广性,需利用项目以外的独立数据进行验证。(5)模型调试:由于危险因素、临床环境等随时间变化,即使经良好验证的ML模型性能也会发生改变,即校准度偏移。因此,需要不断用新的测试数据对有效化后的模型进行评价和测试。(6)模型使用:将调试优化后的ML模型与目标数据库(如LIS、HIS)集成,在临床真实世界场景试用。根据使用情况不断调整、优化模型,并落地形成AI产品(如可辅助诊断恶性肿瘤的检验AI)。
二、检验AI的应用
(一)优化管理
1.检验项目的推荐:基于ML的临床决策系统,可参考患者临床信息及历史检验结果,预测测试前概率,进而指导医生选择检验方案。预计这种方法在保证有效性的前提下,能使越来越多患者获得可负担得起的诊断测试,同时降低医疗成本,据报道仅在美国每年估计可节省50亿美元支出。此外,这种基于大数据的检验AI系统还可帮助临床实验室进行合理的试剂订购,避免遗漏及浪费。
2.实验室的质量控制:越来越多的证据表明,传统的质量控制系统难以在日益复杂的测试环境中发现错误。通常,临床实验室使用室内质量控制(internationalqualitycontrol,IQC)样本来监控精密度。然而,并非所有检测项目都有合适的IQC样本;且现有的抽样检测系统无法对整个检测过程进行监测。目前,“移动平均统计质量控制”技术被证明能有效改善上述局面,该技术是在每天实验室检测工作结束后,对属于正常范围的患者测试值取平均值,并输入计算机程序进行质控分析。该方法被证明能有效提高错误的检出率,且特别适合于IQC样本不理想或不可用时的质控,在LIS系统中整合此类自动化质控软件将有助于构建实时监测、快速反馈的实验室质量控制体系。
3.提升检验图像结果分析:图像识别是公认的AI最具发展前景的技术。据报道,深度学习催生的AI计算机视觉技术对皮肤癌、乳腺癌和糖尿病视网膜病变等疾病的诊断性能已达到甚至超过专业医生。同样,遵循数字扫描成像、图像特征提取、多层模型训练的范式,检验领域亦可开发针对检验样本图像诊断的全自动数字化图像识别系统。一个典型的例子是CellaVision公司与Sysmex公司合作生产的全自动数字化细胞形态分析系统(简称DI-60系统),该系统是模拟人工在显微镜下对外周血涂片进行镜检的阅片系统,它不仅实现了标本进样、滴加镜油、转换显微镜头、预分类细胞到结果存档的全程自动化,还具有极高的细胞预分类准确性,操作者只需要对预分类结果进行逐项复核。
4.及时、准确的自动审核:患者个体状况千差万别,这就要求检验工作者密切结合临床信息加以综合评估,必要时查询病历或电话追问主治医生,是对其工作经验和责任心的极大考验,也是人工审核的难点。检验AI的个性化自动审核系统可有效改进这种工作方式,该系统通过自然语言处理(naturallanguageprocessing,NLP)技术解读LIS和HIS系统对接的共享数据,将患者基础疾病、诊疗方案、药物影响因素、标本采集条件等信息与检验结果对接,同时与历史检验数据对比审核,以判断哪些检验结果与治疗过程相关,哪些结果正确可以上机发布,哪些结果异常需要报警等。
5.智能化的检验报告:在检验自动审核程序中还可提供与临床诊疗相关的选择,如智能解释、检验效能评价、疾病预测、疾病相关因素分析等。在判断检验结果时,可提供某些检验项目在相关疾病诊断中的敏感性和特异性,该指标的进一步应用及相关检查的追加建议等。结合更多的临床资料,还可给临床医生提供诊断选项、治疗方案、发展趋势及预后信息等。面向患者的检验报告除了提供简单的检验结果报告外,还可提供智能检验报告单(包括检验指标变化趋势、风险分析和解释性报告等),以帮助患者更好地了解自身情况。智能的检验AI报告将是检验医学与临床实践最佳的结合。
(二)协助临床医生
1.诊断:基于常规实验室数据的AI模型可在临床工作中辅助医生鉴别诊断。比如Pattanapairoj等开发的C4.5决策树模型,可将胆管癌与其他良性疾病相互区分,诊断准确性达95%。检验AI模型还可提高症状隐匿的恶性疾病的检出率。比如本课题组利用5种ML算法对胰腺癌、慢性胰腺炎、健康人的所有检验指标(个)进行筛选分析,最终建立了一个基于18个常规实验室指标的ML鉴别诊断模型,其准确性明显高于传统CA19-9(AUC0.vs0.),更重要的是该模型对早期、小型、CA-阴性、无*疸及胰腺体尾癌均具有超高的检出率。该模型有望帮助基层医生筛选出更多高风险的胰腺癌患者,并建议患者尽快转诊,早诊早治,以期改善预后。此外,该模型对于临床难以鉴别的胰腺良恶性疾病(如肿块型胰腺炎、CA19-9阴性的胰腺癌等)也达到了极高的鉴别诊断效能,能够辅助医生进行决策。
2.风险预测与治疗:基于实验室数据的AI模型可以对患者进行准确分组,开发与优化早期预警系统。这种预测分析的一种应用是识别出住院风险较高的患者亚组,并应给予及时的干预措施。据报道,一些大型综合医疗系统已开始使用AI自动识别有可能被转入重症监护病房的患者。AI模型还可根据实验室数据向医生建议应做的检查及处理。比如由数十个临床和实验室参数构建的AI模型可预测肝功能不全患儿食管静脉曲张出血的风险(准确性约85%),使高危患儿能够优先进行肝移植,该结果已通过在线应用程序(