CCMTV临床频道 - 荟萃名家聚焦临床

【临床研究】基于骨代谢指标与机器学习建立儿童MAS诊断模型

CCMTV内分泌频道 1738次浏览

2026-03-11

点击标题下「蓝色微信名」可快速关注

文章来源：中华内分泌代谢杂志, 2025,41(10)：823-829.DOI:10.3760/cma.j.cn311282-20250110-00017
作者：卢洁甄婗陆文丽夏聪聪吴昀喆魏坚

摘要

目的

通过机器学习方法，基于McCune-Albright综合征(McCune-Albright syndrome, MAS)患者的检验数据，构建并优化一种儿童MAS多项指标联合诊断模型，以期为临床提供一种快速、可靠的辅助诊断工具。

方法

回顾性分析2023年3月至2024年11月上海交通大学医学院附属瑞金医院儿科收治的、确诊为MAS的儿童232例作为阳性组，删除重复或存在缺失值的数据，最终选取阳性组119例数据用于统计。同时选取同期正常体检儿童113例作为对照组。记录阳性组儿童典型"三联征"的临床表现。空腹状态下于8：00采集两组血清进行实验室检测，包括骨代谢相关指标与激素相关指标并作为特征。对所收集的激素相关数据进行基线表分析，对骨代谢相关数据分别采用支持向量机(support vector machine, SVM)、XGBoost、决策树、随机森林、 Logistic回归、K近邻(K-nearest neighbor, KNN)检验。使用R语言进行6种机器学习模型构建，对三联征进行XGBoost亚组分析。通过SHAP图可视化地展示纳入的特征分别对模型预测的影响(阳性和阴性)。

结果

由SHAP图可得：年龄、血磷、骨钙素、Ⅰ型胶原羧基端肽β特殊序列(beta C-terminal cross-linked telopeptide of type Ⅰ collagen, β-CTX)对模型预测的平均影响较大，在6种模型中SVM模型准确性较高，灵敏度达到0.742 9，特异度达到0.909 1，受试者工作特征(receiver operating characteristic, ROC)曲线下面积(area under the curve, AUC)达到0.917。

结论

本研究结果表明，基于阳性组和健康对照组数据构建的机器学习模型，可以较好地区分MAS患者和健康人群。通过检验数据和机器学习建立的诊断模型为医生提供了MAS早期诊断的依据，为实现患者的早诊断、早干预、早治疗作出了宝贵的贡献。

McCune-Albright综合征(McCune-Albright syndrome, MAS)由Donovan James McCune于1936年发现报道了第1例，由Fuller Albright于1937年又报道了1例，故而得名McCune-Albright综合征 ^[^{1 ]}，又称为多发性骨纤维发育不良伴性早熟综合征。MAS是一种罕见的、累及多脏器的病变，其患病率在1/100万至1/10万 ^[^{2 , 3 ]}，男女均可发病，女性患病率明显高于男性。MAS致病机制为编码G蛋白α亚基的GNAS基因的体细胞获得功能性变异 ^[^{4 ]}，为激活性突变。MAS的3个临床表现特点为：多发性骨纤维结构不良、皮肤牛奶咖啡斑和内分泌异常，即典型的"三联征"，也是临床诊断的主要依据 ^[^{5 ]}。其中内分泌异常包括性早熟、甲状腺功能亢进、库欣综合征、生长激素异常分泌等 ^[^{6 ]}。MAS的其他临床症状还包括低磷血症、肢端肥大症、甲状旁腺功能亢进、催乳素瘤等。有骨纤维发育不良(fibrous dysplasia of bone, FD)或典型三联征患者临床诊断较明确，不典型患儿则需要进一步基因诊断。MAS目前尚无有效根治方法，以对症支持治疗、改善症状为主 ^[^{7 ]}。此病临床表现种类多样，对于出现典型三联征者易诊断，但对于只出现1~2种临床表现的患者，则容易出现漏诊、误诊。因此，本研究将通过机器学习方法，基于MAS患者的检验数据，构建并优化一种儿童MAS多项指标联合诊断模型，以期为临床提供一种快速、可靠的辅助诊断工具，现报道如下。

对象和方法

一、对象

本研究以2023年3月至2024年11月间上海交通大学医学院附属瑞金医院儿科收治的，根据《中国儿童McCune-Albright综合征诊疗共识(2023)》确诊为MAS的儿童(1岁≤年龄≤14岁)作为阳性组。在原始数据收集阶段，共收集到232例阳性组样本数据，同时收集了同期230例正常体检儿童作为对照组。之后，研究团队进行了严格的数据筛选工作，删除了同一患者多次测量产生的重复值以及存在部分缺失值的数据，经过这一系列处理，最终确定用于统计的阳性组数据为119例。此外，为最大限度避免统计学误差，确保研究结果的科学性和公正性，研究团队经过审慎考量，从同期正常体检儿童中选取了113名作为健康组样本。收集阳性组临床"三联征"症状，空腹8：00采集两组血清进行实验室检测。MAS诊断金标准为基因检测，符合典型三联征患儿可以不进行基因检测，但非典型患儿则需进一步基因诊断。典型三联征包括外周性性早熟(peripheral precocious puberty, PPP)、皮肤牛奶咖啡斑和FD。(1)符合FD和FD以外任何1项及以上的主要临床表现，即可诊断为MAS。(2)无FD但有FD以外任何2项及以上的主要临床表现，也可以诊断为MAS。FD以外的临床表现包括：皮肤牛奶咖啡斑、PPP、甲状腺功能亢进症、生长激素(growth hormone, GH)分泌过多、新生儿非促肾上腺皮质激素(adrenocorticotropic hormone, ACTH)依赖性皮质醇增多症。本研究经上海交通大学医学院附属瑞金医院伦理委员会审查批准[伦理审批号：(2020)临伦审第(112)号]，且患者及家属均签署知情同意书。

二、方法

收集患者基本信息：性别与年龄，并将阳性组与对照组的血清进行实验室检测，收集以下实验室指标作为特征：总Ⅰ型原胶原氨基端前肽(total procollagen type 1 amino-terminal propeptide, TP1NP)、骨钙素、Ⅰ型胶原羧基端肽β特殊序列(beta C-terminal cross-linked telopeptide of type Ⅰ collagen, β-CTX) ^[^{8 ]}、碱性磷酸酶(alkaline phosphatase, ALP)、血钙、血磷、游离三碘甲腺原氨酸(free triiodothyronine, FT ₃)、游离甲状腺素(free thyroxine, FT ₄)、血清促甲状腺素(thyroid-stimulating hormone, TSH)、25羟维生素D(25-hydroxyvitamin D, 25OHD)、ACTH、皮质醇。其中TP1NP、骨钙素、β-CTX检测仪器为Roche cobase 801电化学发光分析仪；ALP、血钙、血磷检测仪器为Beckman AU5800全自动生化分析仪；FT ₃、FT ₄、TSH、25OHD、ACTH、皮质醇检测仪器为Backman DxI 800全自动化学发光免疫分析仪，实验室建立严格的质量控制体系，包括室内质控和室间质评，定期检测实验过程的各个环节，确保测定结果的准确性和可靠性。

三、统计学处理

呈正态分布的数据用表示，两组之间的比较采用 t检验，多组间比较采用方差分析。呈非正态的数据以 M( Q ₁， Q ₃)表示，组间比较采用 Mann- Whitney U检验 ^[^{9 ]}。分别采用支持向量机(support vector machine, SVM)、XGBoost、决策树(decision tree)、随机森林(random forest)、 Logistic回归、K近邻(K-nearest neighbor, KNN)等6种机器学习模型，以及用于特征筛选的XGBoost算法。SVM的超参数设置为惩罚因子(C)与核函数参数。XGBoost的超参数设置为objective、num_boost_round(n_estimators)、eta(learning_rate)、max_depth、alpha和lambda、gamma以及min_child_weight。Decision tree的超参数设置为maxDepth与maxBins。Random forest的超参数设置为ntree、mtry与nodesize。 Logistic回归的超参数设置为正则化类型、正则化强度(C)、最大迭代次数。KNN的超参数设置为K值与距离度量。6种机器模型均可采用k折交叉验证来评估性能，将数据集划分为训练集和测试集，比例大部分是70%训练集和30%测试集，或者根据具体需求进行调整。使用单个指标的受试者工作特征(receiver operating characteristic, ROC)曲线及其曲线下面积(area under the curve, AUC)值，XGBoost算法进行两组人群各项指标的ROC曲线预测 ^[^{10 ]}。使用R语言进行6种机器学习模型构建，根据数据特点进行参数调优，以提高模型性能。模型效能通过单个指标的ROC曲线及其AUC值进行评价，对于每个机器学习模型，也使用ROC曲线及其AUC值来评价模型的预测性能，AUC越大，模型效能越好 ^[^{11 ]}。通过SHAP(SHapley Additive exPlanations)图可视化地展示纳入的特征分别对模型预测的影响(阳性和阴性) ^[^{12 , 13 ]}。SHAP阳性与阴性力图分别直观地展示了这些特征是如何互相影响并最后输出阳性或阴性预测结果的。随机森林的特征重要性与SHAP类似。

结果

一、两组人群各项指标的ROC曲线预测

应用ROC曲线评价人口资料与实验室检测指标对MAS的诊断效力，分别以年龄、性别、TP1NP、骨钙素、β-CTX、ALP、血钙、血磷为检验变量，临床诊断结果为状态变量，作ROC曲线分析( 图1 )。得出各检验变量AUC值( 图2 )，本研究认为当0.7≤AUC<0.8时，模型具有一定区分能力；当0.8≤AUC<0.9时，模型表现优秀；当AUC≥0.9时，模型区分能力极强。当AUC值越接近1，则表示该指标对模型的预测价值越高 ^[^{14 ]}，故得出结论：血磷、年龄、β-CTX、ALP、骨钙素对模型的预测价值较高。

图1 阳性组与对照组人群各项检验变量的ROC曲线

图2 阳性组与对照组人群各项检验变量的AUC值

检验指标数据，利用XGBoost算法构建训练模型，训练输出指标的重要性，并按照重要程度从高到低进行排序，从多个指标中确定最优的指标集合( 表1 )。结果显示性别、年龄、骨钙素、β-CTX、血磷、ALP等指标对MAS预测影响显著。

17eb0fae322ec6b92d5892de67e7b8f8_79f30ce8-9a14-4d90-9537-d0628421257f.png

鉴于临床三联征及激素水平在MAS诊断中的核心作用，本研究对以下变量进行了基线分析，包括分类资料：骨折/骨纤维增殖、性早熟、皮肤牛奶咖啡斑；计量资料：FT ₃、FT ₄、25OHD、TSH、ACTH、皮质醇。本研究选取74例临床信息完整的患者，将其三联征信息作为分类资料。统计结果显示，在74例患者中，骨折/骨纤维增殖出现率为81.1%(60例)，性早熟出现率为73.0%(54例)，皮肤牛奶咖啡斑出现率为78.4%(58例)。计量资料基线分析如表2 所示。结果显示TSH、25OHD、ACTH、皮质醇等指标在MAS预测中显示显著影响( P<0.05)，但由于样本量不足及部分数据缺失，上述结论需在扩大样本后进一步验证。

ddd6353ca239327fd15d9fb33b7c1036_df0f5ef3-b88c-4a57-afae-4a8bda4f700a.png

二、机器学习模型预测MAS效能对比

本研究分别采用SVM、XGBoost、决策树、随机森林、 Logistic回归、KNN进行测试和验证。使用R语言进行6种机器学习模型构建。将AUC值作为预测效果的首选评估指标，如图3 所示，AUC越大模型效能越好，展示各种模型的敏感度、特异度、阳性预测值、阴性预测值、召回率、F1值 ^[^{15 ]} ^,如表3 所示，其中Precision与阳性预测值计算方式相同无需额外提供。在单一模型中，SVM在训练期中表现最优，AUC值达到0.917 0。在综合集中，SVM综合表现最优，AUC、F1、准确率、灵敏度、特异度、阳性预测值、阴性预测值分别为0.917 0、0.812 5、0.823 5、0.742 9、0.909 1、0.896 6、0.769 2。

图3 阳性组单个机器模型的ROC曲线分析结果

894fb8e4bf647f6beafd31930c3a64d6_1d4be9c3-ee69-4a17-a1b6-df05a9b7fe45.png

三、三联征亚组分析混淆矩阵

本研究将MAS患者中选取74例临床信息完整的患者，根据其"三联征"临床表现分为两个亚组，如表4 所示，分别为典型临床表现组(即同时患有3种临床症状)与不典型临床表现组(即患有1~2种临床症状且排除仅患有皮肤牛奶咖啡斑患者)，进行SVM混淆矩阵亚组分析( 表5 )。不典型临床表现组AUC达0.925 0(优秀区分能力)，典型临床表现组0.936 0(优秀区分能力)，提示模型对不典型临床表现组预测能力更强。

7d076d955c9f1ed4c1569f0d9a8a5cb8_3b300310-1b99-4f4a-9aee-222da28bfa4d.png

b2cef2afb04ba4b6a68565ea5a0c9842_b39bc7ef-8982-4f8b-b951-95b81d47db61.png

四、模型预测结果

蜂群图是SHAP提供的一个综合视图，展示了特征的重要性和影响性( 图4 )。蜂群图中，点代表单个样本；纵轴按照其对模型预测的平均影响进行排序；横轴展示了SHAP值，衡量了每个特征对模型预测的贡献大小；颜色展示了特征值的大小。SHAP值在SHAP均值图( 图5 )、阴性力图( 图6 )、阳性力图( 图7 )中可以体现。通过SHAP图可以可视化地推论出：年龄、血磷、骨钙素、β-CTX对模型预测的平均影响较高，其中年龄低值、血磷低值、骨钙素高值、β-CTX低值对模型预测结果贡献较大。符合其临床表现中的低磷血症佝偻病、多发性骨纤维异常增殖等特征。

图4 阳性组与对照组人群各项检验变量的SHAP图

图5 阳性组与对照组人群各项检验变量的SHAP均值

图6 阳性组与对照组人群各项检验变量的阳性力图

图7 阳性组与对照组人群各项检验变量的阴性力图

讨论

MAS是一种罕见病，其诊断主要依赖于临床症状、基因检测和激素检查。尽管可使用检验、影像学检查等多种手段对患者进行多系统评估，进而辅助诊断，但其并非特异性方法，且在某些情况下可能无法准确反映病情。典型的三联征患者约占总数的四分之一(仅占约24%) ^[^{16 ]}，各系统症状的严重程度和病变范围存在较大的个体差异，加之MAS是由GNAS基因体细胞获得功能性变异所致，该基因与MAS相关的特定突变在外周血中的检出率较低 ^[^{17 , 18 ]}。临床上对MAS的诊断面临不小的挑战，易出现漏诊和误诊的情况，特别是对于临床症状不典型的患者，更易被忽视或漏诊。

机器学习构建模型在医疗领域得到了广泛的应用，通过机器学习算法，可以从海量的医疗数据中发现隐藏的模式和关系，从而提高诊断和预测的准确性，为患者提供更加精准、高效的医疗服务 ^[^{19 ]}。机器学习构建疾病诊断模型的优势在于：提高诊断准确性、提高诊断效率以及辅助医生决策。

本研究旨在探讨以骨代谢指标为主的常规外周血检验指标应用于机器学习模型预测MAS的可行性，主要技术途径为利用多种机器学习模型(如决策树、SVM、神经网络等)对筛选出的指标进行建模，并对比各模型的预测效能，以筛选出最优的预测模型 ^[^{20 , 21 ]}，以期为临床医生提供更为准确和可靠的诊断方法。

该研究结果表明，通过阳性患者组与正常对照组的机器学习模型比较，可以较好地区分MAS患者和健康人群。这意味着，利用以骨代谢指标为主的常规外周血检验指标和机器学习技术，有可能为MAS患者提供一种更为准确和早期的诊断方法。本研究通过检验数据和机器学习建立的诊断模型为医生提供了MAS早期诊断的依据，为实现患者的早诊断、早干预、早治疗作出了宝贵的贡献。未来，随着技术的不断进步和数据的不断积累，相信这一方法会得到进一步的优化和完善，为更多罕见病的诊断和治疗带来新的突破。

对于目前纳入的检验指标来看，阳性组与对照组在单个检验指标(如血磷)上的区分度过大，如在单个检验指标预测阳性中，血磷的AUC值已经接近0.9，与后面整合了所有指标的机器学习模型AUC值差距不大，甚至更高。当单个指标的区分度过大时，机器学习模型可能不需要复杂的结构和算法就能达到较高的预测性能。这可能会导致模型的复杂度降低，但也可能影响模型的泛化能力。如果模型过于依赖某个或某些指标，那么当这些指标在未知样本中的表现与训练样本不同时，模型可能会出现过拟合的风险。在机器学习模型的构建过程中，需要充分考虑这一现象对模型性能的影响，并采取适当的措施来优化模型的结构和算法。

年龄特征在机器学习预测过程中引入的偏差确实是一个重要的问题。当阳性组(MAS患者)年龄普遍较小，而对照组年龄普遍较大时，年龄这一特征可能会误导模型，使其认为年龄大的人不容易得病，而实际上MAS的发病与年龄无直接关系，而是由基因突变等因素导致的 ^[^{22 , 23 ]}。为了解决这个问题，可以考虑去除年龄特征、重新选择对照组、对年龄特征进行标准化或归一化处理、使用更复杂的模型以及进行交叉验证和模型评估。这些措施有助于减少由年龄特征引入的偏差，并提高模型的准确性和泛化能力。

MAS患者可表现为一联征、二联征乃至三联征，而对照组(即健康人)无任何MAS相关临床表现，若在模型分析中只区分健康人与MAS患者，对临床诊断的意义尚有进一步深入探讨的空间。如后续能纳入与MAS存在鉴别诊断关系的更多疾病组，同时根据Tanner分期或特定临床表现(如FD)的严重程度进行分组 ^[^{24 , 25 ]}，可以很大程度上丰富研究内容，提高临床意义的特异性。这有助于更准确地识别MAS患者，指导治疗，并为未来的研究提供更有价值的参考。

参考文献（略）

扫码下载杂志官方App

发送