首页 > 分享 > 提升机器学习训练数据多样性,增加医学应用可训练数据量

提升机器学习训练数据多样性,增加医学应用可训练数据量

文 / Google Health 软件工程师 Timo Kohlberger 和 Yuan Liu

机器学习 (ML) 在医学成像方面的进步帮助医生可以给出更好的诊断,这在一定程度上得益于对详细标记的大型数据集的使用。

进步
https://ai.googleblog.com/search/label/Health

但在现实中,由于隐私顾虑、合作机构的患者数量较少,或是研究方向为罕见病领域等原因,数据集规模常常会受到限制。

此外,为确保 ML 模型能够很好地泛化,这些模型需要包含一系列子组(如在不同的皮肤类型、依照一定人口统计比例或不同的成像设备等)的训练数据。在这种情况下, “其中每个组合的子组的规模也要足够大(如:使用 C 类成像设备拍摄的患有 B 类皮肤病的 A 类型皮肤人群)” 的类似要求往往显得很不切实际。

今天,我们在这里与大家分享两个项目,这两个项目旨在提升 ML 训练数据的多样性,同时增加医学应用可用训练数据量

第一个项目是生成合成皮肤病变图像的可配置方法,能够扩大罕见皮肤类型和症状的覆盖范围。第二个项目是使用合成图像作为训练数据来研发 ML 模型,从而更好地解释在不同成像设备上生成的不同生物组织类型。

生成各种皮肤症状图像

在于 NeurIPS 2019 机器学习促进健康 (Machine Learning for Health, ML4H) 研讨会上发表的论文《DermGAN:与病理学相结合的临床皮肤图像合成生成》(DermGAN: Synthetic Generation of Clinical Skin Images with Pathology) 中,我们解决了由消费者级相机拍摄的皮肤病学图像(去识别化的)中与数据多样性有关的问题。

NeurIPS 2019 机器学习促进健康
https://ml4health.github.io/2019/pages/papers.html

DermGAN:与病理学相结合的临床皮肤图像合成生成
https://arxiv.org/abs/1911.08716

这项研究解决了以下两个问题:

 罕见皮肤症状的成像数据表征缺乏 

 某些 Fitzpatrick 皮肤类型的数据量较少。

Fitzpatrick 皮肤类型涵盖 I 型(“苍白皮肤,易晒伤,但从不晒黑”)到 VI 型(“深棕色皮肤,从不晒伤”)六种皮肤,数据集通常包含“边界”处相对较少的案例。由于缺乏标准化的照明、对比度和视野、背景变化(如家具和衣服)和皮肤的微小细节(如毛发和皱纹),在上述的这两种情况下目标图像的信噪比通常较低,从而加重数据缺乏问

相关知识

提升机器学习训练数据多样性,增加医学应用可训练数据量
大模型训练:数据多样性的力量
数据增广 Data Augmentation 分类任务 正则化方法 增加训练数据集的数据量和多样性 提升模型的泛化能力 翻转变换 随机修剪 色彩抖动 平移变换 对比度变换
SFT训练中的数据多样性:提升模型性能的关键
神经网络训练数据:质量、规模与多样性
大模型训练:数据多样性的重要性
大模型训练数据多样性的重要性:深度解析与实际应用
机器学习训练过程中常见问题
SFT训练中的数据多样性:提升模型能力和效率
对抗训练:提高机器学习模型鲁棒性的关键技术

网址: 提升机器学习训练数据多样性,增加医学应用可训练数据量 https://m.mcbbbk.com/newsview254940.html

所属分类:萌宠日常
上一篇: 信息流推荐系统多样性方法深度分析
下一篇: 探索海口宠物训练的思路与方法