关键词:
医疗数据建模与共享
联邦学习
区块链
知识蒸馏
摘要:
医疗数据承载着丰富的诊疗信息,在精准医疗和智能诊断中发挥着至关重要的作用。然而,受限于其高度敏感性和隐私保护需求,医疗数据通常被分散存储于各个医疗机构的私有数据库中,形成严重的“数据孤岛”问题,进而制约了跨机构数据共享与高效建模的实现。联邦学习(Federated Learning,FL)和区块链(Blockchain,BC)技术为医疗数据的共享与建模提供了新的解决思路:FL支持各医疗机构在无需共享原始数据的前提下,通过本地训练和参数聚合协同优化全局模型;BC则凭借其去中心化、不可篡改和可追溯等特性,为数据的安全存储和可信共享提供了保障。二者结合,在提升数据隐私保护的同时,有望增强跨机构协同建模的可行性与可信度,为缓解“数据孤岛”问题构建了全新框架。
尽管如此,在FL与BC的基础架构下,医疗数据的独特性仍带来了多方面挑战。首先,医疗数据呈现出持续动态增长的特征,医疗机构每日都会产生新的诊疗数据,而大多数现有的FL研究并未充分考虑数据不断增长的情形,难以有效适应这一变化。因此,如何在保证隐私的前提下,实现对动态数据的持续建模与优化,是当前面临的重要问题。其次,医疗数据普遍存在类别不平衡现象:罕见疾病的样本较为稀缺,而常见病数据则占据主导地位,导致训练过程中模型更易偏向多数类。特别是在联邦学习环境下,由于不同医疗机构所接触的患者群体和诊疗重点各不相同,数据分布存在显著差异,这种非独立同分布进一步加剧了类别不平衡带来的建模难度。因此,如何有效缓解类不平衡并提升模型在各类别上的表现,也是医疗FL建模亟待解决的关键挑战。
基于此,本文围绕FL与BC在医疗数据共享与建模中的应用展开研究,聚焦于“数据孤岛”背景下的动态数据增长与类不平衡问题,主要贡献如下:
(1)针对医疗“数据孤岛”现象,本文提出了一个基于BC和FL的数据共享与建模框架。该框架支持医疗数据分散存储于不同医疗数据机构,并通过阶段性的分布式训练来实现协同建模。通过介绍框架的设计理念、主要组成要素及基于智能合约的模型聚合方式,展示了该框架如何实现医疗数据的高效协作共享。
(2)考虑到医疗数据的动态增长特性,本文在BC和FL的基础框架上,创新性地提出了演进式医疗数据建模与共享框架(Evolutionary Medical Data Modeling and Sharing Framework,EMDMS)。在数据建模方面,该框架通过双循环FL机制,将训练过程划分为联邦内循环和联邦外循环两个关键部分。在医疗数据接近稳定状态时,采用联邦内循环训练模型;当医疗数据逐步积累并达到一定规模阈值时,联邦外循环被激活,以生成一个结合历史数据和新数据的全局模型。在数据共享方面,EMDMS框架引入了基于数据质量和模型贡献度的动态定价机制,以激励不同医疗机构积极参与数据共享与模型训练,从而提高全局模型的有效性和公平性。
(3)针对FL中的类不平衡问题,结合知识蒸馏(Knowledge Distillation,KD)在知识迁移方面的有效性,本文提出了一种基于双重自适应的联邦蒸馏机制(Dual-Adaptive Knowledge Distillation for Federated Learning,Fed DAD)。该机制首先通过数据类别分布感知模块,计算各客户端数据类别分布的差异度,并生成类别敏感的权重因子;其次,利用全局-本地模型稳定性量化模块,基于预测熵差异构建类别稳定性指标。通过结合这两个指标,Fed DAD能够对全局模型的蒸馏过程进行实时动态调整,从而有效缓解类不平衡问题,提升模型在少数类上的性能表现。
(4)最后,基于BC和FL的医疗数据建模与共享的基础框架,本文分别利用Fed-ISIC2019和DERMAMNIST数据集对EMDMS和Fed DAD进行了独立仿真实验。实验表明,EMDMS能够动态适应医疗数据的持续增长,显著提升模型的性能;Fed DAD在解决FL类不平衡问题方面表现出显著优势,为医疗数据的建模与共享提供重要支持。