1 对象与方法
1.1 研究对象
1.2 研究方法
1.3 问题选择
1.4 统计学方法
2 结果
2.1 10位骨科医师基本情况及评估结果的一致性
表1 10位骨科医师的基本情况及工作经验Table 1 Basic information and working experience of 10 orthopedic surgeons |
医 师 | 年龄/岁 | 职称 | 学历 | 医院 等级 | 工作年限/年 |
---|---|---|---|---|---|
1 | 40 | 副主任医师 | 医学博士 | 三甲 | 11 |
2 | 57 | 主任医师 | 医学博士 | 三甲 | 32 |
3 | 29 | 主治医师 | 医学博士 | 三甲 | 5 |
4 | 38 | 副主任医师 | 医学博士 | 三甲 | 8 |
5 | 53 | 主任医师 | 医学博士 | 三甲 | 28 |
6 | 32 | 副主任医师 | 医学博士 | 三甲 | 7 |
7 | 28 | 主治医师 | 医学博士 | 三甲 | 5 |
8 | 46 | 副主任医师 | 医学博士 | 三甲 | 18 |
9 | 45 | 副主任医师 | 医学博士 | 三甲 | 15 |
10 | 59 | 主任医师 | 医学博士 | 三甲 | 34 |
表2 10位骨科医师对2种人工智能模型在指南五大关键领域回答内容的评分Table 2 Scores of 10 orthopedic surgeons on the answers of the two AI models in the five key areas of the guide |
医 师 | 问题1 | 问题2 | 问题3 | 问题4 | 问题5 | |||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
ChatGPT | DeepSeek | ChatGPT | DeepSeek | ChatGPT | DeepSeek | ChatGPT | DeepSeek | ChatGPT | DeepSeek | |||||
1 | 2/2/3/3 | 4/2/3/4 | 3/2/3/3 | 4/2/3/5 | 2/2/3/5 | 3/1/2/3 | 3/3/4/1 | 3/2/4/4 | 3/3/2/2 | 4/3/4/4 | ||||
2 | 3/3/4/3 | 3/3/3/3 | 2/2/3/3 | 4/2/3/4 | 3/4/3/5 | 4/3/2/4 | 2/3/4/3 | 5/2/4/4 | 3/3/4/3 | 4/2/4/4 | ||||
3 | 3/4/3/5 | 2/5/4/4 | 3/1/1/4 | 4/2/2/4 | 4/2/2/5 | 3/3/3/4 | 3/2/3/3 | 4/4/3/4 | 2/5/2/2 | 4/4/3/5 | ||||
4 | 1/4/4/2 | 1/4/3/3 | 4/5/3/2 | 3/5/4/3 | 1/3/3/3 | 4/3/2/3 | 4/3/2/1 | 3/3/2/4 | 3/2/2/3 | 3/3/3/4 | ||||
5 | 3/2/4/2 | 4/3/4/3 | 3/2/2/3 | 3/5/2/2 | 3/2/3/3 | 4/2/3/4 | 1/2/2/3 | 4/4/5/3 | 2/4/5/2 | 4/4/5/3 | ||||
6 | 3/4/3/2 | 4/4/4/3 | 1/4/4/2 | 4/4/4/3 | 2/5/5/4 | 5/4/5/3 | 3/3/4/3 | 5/3/4/4 | 3/2/3/2 | 2/3/4/3 | ||||
7 | 3/2/2/2 | 4/2/2/3 | 3/2/3/2 | 3/2/4/4 | 5/3/3/2 | 1/3/3/1 | 2/3/3/1 | 4/3/4/4 | 4/4/5/3 | 5/5/3/3 | ||||
8 | 2/2/3/2 | 4/3/3/4 | 2/3/3/3 | 4/2/2/3 | 3/3/5/2 | 3/3/4/3 | 4/5/2/4 | 4/5/3/3 | 3/2/4/3 | 4/3/4/2 | ||||
9 | 3/3/1/4 | 3/3/1/3 | 4/2/2/4 | 4/3/3/3 | 4/4/2/4 | 4/4/2/3 | 3/3/4/4 | 3/5/4/4 | 5/4/5/2 | 5/3/4/3 | ||||
10 | 4/2/5/2 | 5/2/5/3 | 3/4/5/2 | 3/4/4/3 | 4/5/5/2 | 4/4/3/3 | 4/3/3/2 | 4/5/3/3 | 3/5/3/4 | 3/5/3/5 |
注:1、2、3、4、5分别对应完全不符合、较少符合、一般符合、高度符合、完全符合。每个问题的评分顺序依次为准确性、全面性、可解释性和临床应用性。 |
2.2 2种模型回答结果对比分析
2.2.1 准确性
2.2.2 全面性
2.2.3 可解释性
2.2.4 临床应用性
表3 ChatGPT和DeepSeek在原发性骨质疏松症诊疗指南解读准确性、全面性、可解释性和临床应用性的比较Table 3 Comparison of the accuracy, comprehensiveness, interpretability, and clinical application of ChatGPT and DeepSeek in the interpretation of primary osteoporosis diagnosis and treatment guidelines |
模 型 | 准确性 | 全面性 | 可解释性 | 临床应用性 |
---|---|---|---|---|
ChatGPT | ①覆盖骨密度判定等诊断标准 ②抗骨质疏松药物分类描述完整 | ①概述个体化治疗原则 ②提供基础骨质疏松风险因素 | ①列举骨质疏松鉴别诊断条目 ②分点描述骨质疏松继发性病因 | ①对骨质疏松药物系统分类 ②提供基础治疗建议 |
DeepSeek | ①精准区分T值与Z值的适用场景 ②明确中国人群FRAX®阈值 ③规范骨质疏松药物序贯治疗方案 | ①整合骨质疏松药物假期管理 ②解析FLS协作模式及OSTA筛查工具 ③纳入中国特异性骨质疏松风险因素 | ①使用表格详细对比骨质疏松症的鉴别诊断 ②骨质疏松症诊断流程图 ③临床术语解释更易理解 | ①将骨质疏松症诊疗指南转换为可操作的决策路径 ②骨质疏松症全周期管理框架 ③强调每年进行骨密度复查和相应预防策略 |