
对象与方法
一、研究对象
二、检查方法
三、图像处理
四、特征筛选及模型构建
五、统计学分析
结果
一、研究对象的临床资料
表1 150例宫颈鳞癌患者的临床资料比较 |
| 项 目 | 训练集(120例) | 验证集(30例) | |||||||
|---|---|---|---|---|---|---|---|---|---|
| 低分化(54例) | 中高分化(16例) | t/Z/ χ 2值 | P值 | 低分化(14例) | 中高分化(16例) | t/Z/ χ 2值 | P值 | ||
| 年龄/岁 | 55.60±10.65 | 50.86±11.31 | 2.37 | 0.019 | 52.21±8.69 | 45.00±7.46 | 2.45 | 0.021 | |
| 肿瘤最大径/cm | 35(27.25,43.00) | 34(24.25,43.50) | 0.91 | 0.364 | 29(24.00,35.00) | 40(22.50,45.25) | 0.54 | 0.588 | |
| FIGO分期/例(%) | 1.70 | 0.426 | 1.37 | 0.503 | |||||
| Ⅰ期 | 10(18.52) | 19(28.79) | 3(21.43) | 5(31.25) | |||||
| Ⅱ期 | 39(72.22) | 43(65.15) | 10(71.43) | 11(68.75) | |||||
| Ⅲ期 | 5(9.26) | 4(6.06) | 1(7.14) | 0 | |||||
| 淋巴结转移/例(%) | 8.52 | 0.004 | — | 0.026a | |||||
| 无 | 29(53.70) | 52(78.79) | 4(28.57) | 12(75.00) | |||||
| 有 | 25(46.30) | 14(21.21) | 10(71.42) | 4(25.00) | |||||
| HPV感染/例(%) | 0.79 | 0.375 | — | 0.299a | |||||
| 无 | 21(38.89) | 32(46.97) | 5(35.71) | 9(56.25) | |||||
| 有 | 33(61.11) | 35(53.03) | 9(64.29) | 7(43.75) | |||||
| 流产史/例(%) | 0.65 | 0.420 | — | 0.694a | |||||
| 否 | 19(35.19) | 28(42.42) | 5(35.71) | 4(25.00) | |||||
| 是 | 35(64.81) | 39(57.58) | 9(64.29) | 12(75.00) | |||||
| 绝经/例(%) | 0.96 | 0.330 | — | 0.135a | |||||
| 否 | 19(35.19) | 29(43.94) | 8(57.14) | 4(25.0) | |||||
| 是 | 35(64.81) | 37(56.06) | 6(42.86) | 12(75.00) | |||||
| 接触性出血/例(%) | 3.33 | 0.070 | — | 1.000 a | |||||
| 否 | 44(81.48) | 44(66.67) | 10(71.43) | 11(68.75) | |||||
| 是 | 10(18.52) | 22(33.33) | 4(28.57) | 5(31.25) | |||||
| 产次/例(%) | 1.55 | 0.213 | — | 0.689a | |||||
| <2次 | 24(44.44) | 22(33.33) | 3(21.43) | 5(31.25) | |||||
| ≥2次 | 30(55.56) | 44(66.67) | 11(78.57) | 11(68.75) | |||||
注: aFisher确切概率法; —为无数据。 |
二、宫颈鳞癌组织学分级的单因素及多因素Logistic回归分析
表2 宫颈鳞癌组织学分级的单因素及多因素Logistic回归分析 |
| 影响因素 | 单因素分析 | 多因素分析 | |||
|---|---|---|---|---|---|
| OR(95%CI) | P值 | OR(95%CI) | P值 | ||
| 年龄 | 0.96(0.93~0.99) | 0.022 | 0.95(0.92~0.99) | 0.007 | |
| 肿瘤最大径 | |||||
| FIGO分期 | 0.99(0.97~1.01) | 0.304 | |||
| Ⅱ期 | 0.57(0.24~1.36) | 0.204 | |||
| Ⅲ期 | 0.53(0.11~2.56) | 0.427 | |||
| 淋巴结转移 | 0.31(0.14~0.69) | 0.004 | 0.25(0.11~0.59) | 0.001 | |
| HPV感染 | 0.72(0.35~1.49) | 0.375 | |||
| 流产史 | 0.74(0.35~1.55) | 0.420 | |||
| 绝经 | 0.69(0.33~1.45) | 0.330 | |||
| 接触性出血 | 2.20(0.93~5.18) | 0.070 | |||
| 产次 | 0.62(0.30~1.31) | 0.213 | |||
三、机器学习模型性能评价
图2 训练集和验证集的LR、NB、SVM、KNN、RF和LightGBM的ROC曲线注:A为训练集的LR、NB、SVM、KNN、RF和LightGBM的ROC曲线;B为验证集的LR、NB、SVM、KNN、RF和LightGBM的ROC曲线。 |
表3 6种模型及临床模型和联合模型的诊断效能分析 |
| 模 型 | AUC(95%CI) | 准确度 | 灵敏度 | 特异度 | PPV | NPV | F1 |
|---|---|---|---|---|---|---|---|
| LR | 训练集 0.750(0.663~0.837) | 0.717 | 0.833 | 0.574 | 0.705 | 0.738 | 0.764 |
| 验证集 0.670(0.473~0.867) | 0.633 | 0.312 | 1.000 | 1.000 | 0.560 | 0.476 | |
| NB | 训练集 0.794(0.713~0.875) | 0.775 | 0.848 | 0.685 | 0.767 | 0.787 | 0.806 |
| 验证集 0.705(0.516~0.895) | 0.667 | 0.375 | 1.000 | 1.000 | 0.583 | 0.545 | |
| SVM | 训练集 0.904(0.849~0.959) | 0.817 | 0.712 | 0.944 | 0.940 | 0.729 | 0.810 |
| 验证集 0.839(0.696~0.983) | 0.800 | 1.000 | 0.571 | 0.727 | 1.000 | 0.842 | |
| KNN | 训练集 0.829(0.758~0.899) | 0.767 | 0.818 | 0.704 | 0.771 | 0.760 | 0.794 |
| 验证集 0.759(0.593~0.925) | 0.667 | 0.625 | 0.714 | 0.714 | 0.625 | 0.667 | |
| RF | 训练集 1.000(1.000~1.000) | 1.000 | 1.000 | 1.000 | 1.000 | 1.000 | 1.000 |
| 验证集 0.799(0.635~0.963) | 0.799 | 0.500 | 1.000 | 1.000 | 0.636 | 0.667 | |
| LightGBM | 训练集 0.910(0.857~0.963) | 0.858 | 0.939 | 0.759 | 0.827 | 0.911 | 0.879 |
| 验证集 0.839(0.692~0.986) | 0.833 | 0.938 | 0.714 | 0.789 | 0.909 | 0.857 | |
| 临床 | 训练集 0.762(0.675~0.849) | 0.708 | 0.621 | 0.815 | 0.804 | 0.638 | 0.701 |
| 验证集 0.710(0.519~0.901) | 0.700 | 0.625 | 0.786 | 0.769 | 0.647 | 0.690 | |
| 联合 | 训练集 0.935(0.890~0.980) | 0.892 | 0.909 | 0.870 | 0.896 | 0.887 | 0.902 |
| 验证集 0.888(0.769~1.000) | 0.867 | 0.938 | 0.786 | 0.833 | 0.917 | 0.882 |