
1 对象与方法
1.1 研究对象
1.2 生成式AI的选择
1.3 提示工程
1.4 性能评估
1.5 统计学方法
2 结果
2.1 一般资料
表1 300例接受CT和MRI检查患者的一般资料Table 1 General information of 300 patients receiving CT and MRI examinations |
项 目 | 数值 |
---|---|
性别/n(%) | |
男 | 202(67.3) |
女 | 98(32.7) |
年龄a/岁 | 52.0(40.0,62.0) |
患者来源/n(%) | |
急诊 | 28(9.3) |
住院 | 139(46.3) |
门诊 | 133(44.3) |
检查方式/n(%) | |
CT | 164(54.7) |
MR | 136(45.3) |
增强检查/n(%) | |
对比增强 | 253(84.3) |
无对比增强 | 47(15.7) |
检查部位/n(%) | |
上腹部 | 238(79.3) |
中+下腹部 | 33(11.0) |
下腹部 | 26(8.7) |
中腹部 | 1(0.3) |
上+中腹部 | 1(0.3) |
上+中+下腹部 | 1(0.3) |
影像学报告字数 | 320(255,403) |
注:a1例患者的年龄数据缺失。 |
2.2 5名评估者之间的一致性
2.3 性能比较
表2 AI模型与放射科医师在医学影像报告生成任务中的表现比较 单位:分Table 2 Comparison of AI models and radiologists, performance in medical image report generation tasks |
指 标 | ERNIE 4.0 | Claude 3.5 Sonnet | 放射科医师 |
---|---|---|---|
完整性 | 4.40±0.64 | 4.86±0.37 | 4.76±0.46 |
幻觉性 | 1.01±0.08 | 1.02±0.13 | 1.05±0.23 |
准确性 | 4.66±0.57 | 4.69±0.57 | 4.96±0.22 |
表达力 | 4.82±0.48 | 4.96±0.20 | 4.98±0.14 |
修改度 | 4.30±0.59 | 4.64±0.53 | 4.69±0.54 |
图4 ERNIE 4.0、Claude 3.5 Sonnet和放射科医师的影像学报告案例一注:左图为影像报告的影像学所见部分。右图包括3个子图,第1个子图显示放射科医师的结论,其中遗漏了主动脉粥样硬化的诊断;第2个子图显示ERNIE 4.0生成的结论,包括所有相关发现,如主动脉粥样硬化;第3个子图显示Claude 3.5 Sonnet生成的结论,同样包括所有相关发现。 Figure 4 ERNIE 4.0, Claude 3.5 Sonnet and radiologist imaging report Case 1 |
图5 ERNIE 4.0、Claude 3.5 Sonnet和放射科医师的影像学报告案例二注:左图显示影像学报告的影像学所见部分。右图包括3个子图,第1个子图显示放射科医师的结论;第2个子图显示ERNIE 4.0生成的结论,其中遗漏了关键诊断,如慢性胆囊炎、左肾囊肿、腹壁皮下软组织水肿和皮下脂肪层多发强化结节,此外还将肝血管瘤误诊为肝细胞癌,将肝硬化结节误诊为多发血管瘤;第3个子图显示Claude 3.5 Sonnet生成的结论,虽然也将肝S7段的血管瘤误诊为肝细胞癌,但准确包含了其他相关发现。 Figure 5 ERNIE 4.0, Claude 3.5 Sonnet and radiologist imaging report Case 2 |