临床研究 | 基于超声影像组学特征的机器学习模型预测乳腺癌HER2低表达的临床价值
临床研究 | 基于超声影像组学特征的机器学习模型预测乳腺癌HER2低表达的临床价值
摘要目的基于超声影像组学特征构建机器学习模型,探讨其预测乳腺癌人类表皮生长因子受体2(HER2)低表达的临床价值。方法选取我院经病理证实的乳腺癌患者197例,根据HER2表达状态分为HER2低表达72例、阳性表达61例和阴性表达64例。本研究设计2个二分类预测任务:任务 ① 为鉴别乳腺癌HER2低表达与阳性表达,任务 ② 为鉴别乳腺癌HER2低表达与阴性表达。采用随机抽样法按7:3的比例将纳入患者分为训练集93例、验证集40例(任务 ① )和训练集95例、验证集41例(任务 ② )。模型构建前,基于对应任务的乳腺癌二维超声图像分别提取1316个影像组学特征,采用Wilcoxon秩和检验、Pearson相关系数(PCC)及最小绝对收缩和选择算子(LASSO)回归筛选与HER2低表达相关的特征,并评估其重要性。基于筛选出的特征分别构建逻辑回归、支持向量机、轻度梯度提升机(LightGBM)、自适应增强算法、多层感知机5种机器学习模型,根据受试者工作特征曲线结果,将训练集和验证集中综合表现最好者确定为最优模型,并在模型构建后采用SHAP方法分析最优模型中与乳腺癌HER2低表达相关特征的重要性。结果针对2个预测任务分别进行影像组学特征筛选:任务 ① 中,经Wilcoxon秩和检验、PCC、LASSO回归筛选获得5个与乳腺癌HER2低表达相关的关键特征;任务 ② 中,经Wilcoxon秩和检验、PCC、LASSO回归筛选获得9个与乳腺癌HER2低表达相关的关键特征。基于上述筛选出的特征采用5种机器学习算法分别构建任务 ① 和任务 ② 的预测模型,结果显示LightGBM模型在2个任务中均表现最优:任务 ① 中,该模型在训练集和验证集的曲线下面积(AUC)分别为0.79和0.80;任务 ② 中,该模型在训练集和验证集的AUC分别为0.81和0.78。任务 ① 中采用LASSO回归和SHAP分析显示,LightGBM模型中original_shape_Elongation的贡献分别位于第1、2位;任务 ② 中采用LASSO回归和SHAP分析显示,LightGBM模型中wavelet-HHH_glszm_LowGrayLevelZoneEmphasis的贡献均位于首位,表现出较高的稳定性。结论基于超声影像组学特征构建的机器学习模型在预测乳腺癌HER2低表达方面有一定的临床价值。