文 / Google Health 软件工程师 Timo Kohlberger 和 Yuan Liu
机器学习 (ML) 在医学成像方面的进步帮助医生可以给出更好的诊断,这在一定程度上得益于对详细标记的大型数据集的使用。
进步
https://ai.googleblog.com/search/label/Health
但在现实中,由于隐私顾虑、合作机构的患者数量较少,或是研究方向为罕见病领域等原因,数据集规模常常会受到限制。
此外,为确保 ML 模型能够很好地泛化,这些模型需要包含一系列子组(如在不同的皮肤类型、依照一定人口统计比例或不同的成像设备等)的训练数据。在这种情况下, “其中每个组合的子组的规模也要足够大(如:使用 C 类成像设备拍摄的患有 B 类皮肤病的 A 类型皮肤人群)” 的类似要求往往显得很不切实际。
今天,我们在这里与大家分享两个项目,这两个项目旨在提升 ML 训练数据的多样性,同时增加医学应用可用训练数据量。
第一个项目是生成合成皮肤病变图像的可配置方法,能够扩大罕见皮肤类型和症状的覆盖范围。第二个项目是使用合成图像作为训练数据来研发 ML 模型,从而更好地解释在不同成像设备上生成的不同生物组织类型。
生成各种皮肤症状图像
在于 NeurIPS 2019 机器学习促进健康 (Machine Learning for Health, ML4H) 研讨会上发表的论文《DermGAN:与病理学相结合的临床皮肤图像合成生成》(DermGAN: Synthetic Generation of Clinical Skin Images with Pathology) 中,我们解决了由消费者级相机拍摄的皮肤病学图像(去识别化的)中与数据多样性有关的问题。
NeurIPS 2019 机器学习促进健康
https://ml4health.github.io/2019/pages/papers.html
DermGAN:与病理学相结合的临床皮肤图像合成生成
https://arxiv.org/abs/1911.08716
这项研究解决了以下两个问题:
罕见皮肤症状的成像数据表征缺乏
某些 Fitzpatrick 皮肤类型的数据量较少。
Fitzpatrick 皮肤类型涵盖 I 型(“苍白皮肤,易晒伤,但从不晒黑”)到 VI 型(“深棕色皮肤,从不晒伤”)六种皮肤,数据集通常包含“边界”处相对较少的案例。由于缺乏标准化的照明、对比度和视野、背景变化(如家具和衣服)和皮肤的微小细节(如毛发和皱纹),在上述的这两种情况下目标图像的信噪比通常较低,从而加重数据缺乏问
相关知识
提升机器学习训练数据多样性,增加医学应用可训练数据量
大模型训练:数据多样性的力量
数据增广 Data Augmentation 分类任务 正则化方法 增加训练数据集的数据量和多样性 提升模型的泛化能力 翻转变换 随机修剪 色彩抖动 平移变换 对比度变换
SFT训练中的数据多样性:提升模型性能的关键
神经网络训练数据:质量、规模与多样性
大模型训练:数据多样性的重要性
大模型训练数据多样性的重要性:深度解析与实际应用
机器学习训练过程中常见问题
SFT训练中的数据多样性:提升模型能力和效率
对抗训练:提高机器学习模型鲁棒性的关键技术
网址: 提升机器学习训练数据多样性,增加医学应用可训练数据量 https://m.mcbbbk.com/newsview254940.html
上一篇: 信息流推荐系统多样性方法深度分析 |
下一篇: 探索海口宠物训练的思路与方法 |