首页 > 分享 > 提升机器学习训练数据多样性，增加医学应用可训练数据量

提升机器学习训练数据多样性，增加医学应用可训练数据量

萌宠菠菠乐园
2024-09-26 00:17

文 / Google Health 软件工程师 Timo Kohlberger 和 Yuan Liu

机器学习 (ML) 在医学成像方面的进步帮助医生可以给出更好的诊断，这在一定程度上得益于对详细标记的大型数据集的使用。

进步
https://ai.googleblog.com/search/label/Health

但在现实中，由于隐私顾虑、合作机构的患者数量较少，或是研究方向为罕见病领域等原因，数据集规模常常会受到限制。

此外，为确保 ML 模型能够很好地泛化，这些模型需要包含一系列子组（如在不同的皮肤类型、依照一定人口统计比例或不同的成像设备等）的训练数据。在这种情况下， “其中每个组合的子组的规模也要足够大（如：使用 C 类成像设备拍摄的患有 B 类皮肤病的 A 类型皮肤人群）” 的类似要求往往显得很不切实际。

今天，我们在这里与大家分享两个项目，这两个项目旨在提升 ML 训练数据的多样性，同时增加医学应用可用训练数据量。

第一个项目是生成合成皮肤病变图像的可配置方法，能够扩大罕见皮肤类型和症状的覆盖范围。第二个项目是使用合成图像作为训练数据来研发 ML 模型，从而更好地解释在不同成像设备上生成的不同生物组织类型。

生成各种皮肤症状图像

在于 NeurIPS 2019 机器学习促进健康 (Machine Learning for Health, ML4H) 研讨会上发表的论文《DermGAN：与病理学相结合的临床皮肤图像合成生成》(DermGAN: Synthetic Generation of Clinical Skin Images with Pathology) 中，我们解决了由消费者级相机拍摄的皮肤病学图像（去识别化的）中与数据多样性有关的问题。

NeurIPS 2019 机器学习促进健康
https://ml4health.github.io/2019/pages/papers.html

DermGAN：与病理学相结合的临床皮肤图像合成生成
https://arxiv.org/abs/1911.08716

这项研究解决了以下两个问题：

罕见皮肤症状的成像数据表征缺乏

某些 Fitzpatrick 皮肤类型的数据量较少。

Fitzpatrick 皮肤类型涵盖 I 型（“苍白皮肤，易晒伤，但从不晒黑”）到 VI 型（“深棕色皮肤，从不晒伤”）六种皮肤，数据集通常包含“边界”处相对较少的案例。由于缺乏标准化的照明、对比度和视野、背景变化（如家具和衣服）和皮肤的微小细节（如毛发和皱纹），在上述的这两种情况下目标图像的信噪比通常较低，从而加重数据缺乏问