最新50分+AI模型预测免疫治疗应答
大家好,我是四斤。今天分享一篇11月2日发表于Nature Biotechnology的一篇题为 “Improved prediction of immune checkpoint blockade efficacy across multiple cancer types”的文章。本篇研究从16种不同癌症类型的患者中,利用随机森林模型,设计了一个训练集和一个测试集,提取并整合了与免疫治疗应答相关的生物特征,改进了预测算法,从而提升了临床免疫治疗的决策过程。
期刊简介
先看题目
题目的关键信息主要是 提升患者对免疫检查点抑制剂应答预测效率(目的)和 多癌种(方式)。而文章主要指出该模型对泛癌的预测效果优于单个癌种,这里的多癌种只是建立模型的方法,可能是有一些混淆性的。
这篇文章难就难在阅读时一直要揣测作者意图,理解作者引入的多维度的庞大变量体系,以及为什么引入这些变量?研究过程中会存在哪些问题,作者通过什么方法解决了这些问题?又是怎么将这些问题的解决按逻辑顺序链接从而讲述一个完整的故事?阅读文章时的另一个难点就是很多术语单词一直在换,如果不了解好背景知识,往往会将不同单词对应的一个参数当成多个参数。
背景介绍
随机森林模型(Random Forest Model)是本文的核心。所以在背景中着重介绍一下随机森林模型。通过逆推,我们看看怎么在需要新学习最少知识的情况下初步了解随机森林模型。随机森林模型是集成学习(Ensemble)的一种,而想了解集成学习就要先了解决策树的概念,决策树的基础算法利用了信息熵,所以我们从信息熵开始,管(熵)中窥豹(森林)。
1948年,信息论之父克劳德香农在他的著作《通讯的数学理论》 A Mathematical Theory of Communication 中提出了信息熵的概念。可以概括为 一条信息的信息量大小与它的不确定性有直接关系。如果它的不确定性越大,那么它的熵就越大。如果想要搞清楚一件非常不确定的事情,就需要了解大量的信息。我们看下他的公式,其实就是把各种可能概率的结果进行一个求和。
而决策树的基础算法ID3算法以及C4.5算法就是基于信息熵的公式进行计算的。
想要了解决策树是什么,不妨先听一个(不现实/(ㄒoㄒ)/~~)例子:
四斤毕业了,各大公司的offer都抢着发过来。此时,四斤面临一个“艰难”的抉择,选择一个最适合自己的公司就职。薪水是底线,月薪小于5万刀一律pass,交通同样是很重要的,不会选择通勤时间大于一小时的工作单位。还有当然就是四斤每天必不可少的精神和肉体食粮——咖啡,不是100% 阿拉比卡象豆一律pass。经过了层层排查,我们建立了一棵决策树(最终,四斤被解雇了)。
其中,月薪5万刀称为根节点,决策树会选择最大化信息增益来对根节点进行划分。ID3算法就是最初的计算信息增益的算法,据我的理解就是用整体的信息熵减掉单个特征的信息熵,最后得到不同特征得信息增益数值,数值越大,信息增益越大,结点越“根”。而这个算法本身也会有倾向于选择分支更多的相作为根节点,所以之后开发了计算增益率的C4.5算法。而目前在决策树模型运用的最多的算法是CART算法剪枝,该算法利用总信息以及单个属性的基尼系数差计算信息增益。
决策树是组成随机森林必不可少的部分,而随机森林,是集成学习的一个类别(一种复杂的集成学习)。
所以在了解随机森林前,对集成学习的了解也是十分必要的。
我们再来看一个例子:
高中时,小黑是我们班的学霸,每次考试门门功课98分。而小黄和小红和小青青草原,他们都很偏科,每次只能在自己擅长的语数外一门考试拿到满分。看学霸小黑次次拿第一,这三个人不高兴了,合计这次期末考试把小黑给提前做掉(bushi)。他们合计这次考试兄弟齐心,做擅长的科目,其他两科抄另外两位兄弟的。他们最终战胜了小黑。
这就是集成学习的思想,整体表现比较差的学习器在一些样本的表现上可能超过最好的决策器。集成学习通过组合多个学习器,最后得到一个更好的学习器。 集成学习的基础算法包括装袋(Bagging),增强(Boosting)和堆叠(Stacking)。其中 Bagging是指个体学习器之间不存在强依赖关系,也就是个体学习其之间的关系相对独立,是一种有放回的抽样,通过Boostrap采样;而 Boosting指个体学习器之间存在强依赖关系,也就是一个样本会受到另一个样本结果的影响(有些类似于RNN); Stacking是使用多个不同的分类器进行预测的模型。随机森林模型主要基于Bagging原理,为了更好的理解Bagging,我们看下面的彩色小球,我们每次从箱中抽出一定数量的小球,作为一个样本,放回所有小球后再次抽相同数量的小球,每次抽样都是互不影响的。之后通过这些抽样的结果共同做出决策。
随机森林模型,就是我们上文提到的决策树模型+Bagging+随机种属选择。 随机森林模型包含了两个随机,分别是决策树选择的随机,和每棵树种属选择的随机。想要构建随机森林的算法包括四步:
1. 在随机林中,n个随机记录取自具有k个记录的数据集;
2. 构建每个样本的个体决策树;
3. 每个决策树产生1个输出结果;
4. 依分类或回归而定,最终结果会进行多数投票,或取平均值。
随机森林会一定程度上解决在样本分类过程中(回归也是)产生的过拟合问题。由于每棵树相对独立,随机森林的另一个好处是不一定所有患者具有所要提取的所有特征属性。这在一定程度上增加了样本量。
好啦,这样一来大致的背景我们已经了解了,接下来我们一起来看文章。
结果分析
文章的整体结构可以概括为三部分:
一、建模前数据准备;
二、模型构建;
三、模型评价。
下面,我们来逐步剖析。
一、建模前数据准备
1
首先研究者从纪念斯隆凯特琳癌症研究中心经过筛查合适样本,从2827名接受PD-1/PD-L1或CTLA-4或联合应用两种免疫抑制剂的16种不同患者中刷选出1479名患者。其中409名患者响应免疫治疗,而1070名患者对ICB无响应性(这里我们也看到,队列中也只有不到三分之一的患者对ICB响应)。
2
然后研究者选取了16种不同的与患者免疫应答相关的特征,分别是肿瘤突变负荷(TMB),患者在免疫治疗前是否接受化疗,白蛋白,血液中中性粒细胞与淋巴细胞比率(NLR),年龄,血小板,拷贝数改变分数,体重指数,HLA-1进化差异(HED),血红蛋白(HGB),癌症类型,HLA-I25种杂合丢失状态(LOH in HLA-1),性别,免疫治疗药物,肿瘤分期,微卫星不稳定状态(MSI)。
至于为什么把这些指标放在一起?这是个我查了一整天文献都没解决的问题,希望知道答案的小伙伴在后台与交流,帮我解答这个困惑(下表是评估肿瘤免疫应答的Criteria总结,分别来自WHO与RECIST委员会两个组织,其中2009年的RECIST version 1.1 仍旧是临床上认可度最高的版本)。
我的理解是,这些不同类别的生物指标都很重要,可能会对免疫应答产生影响,于是研究者把他们放在了一起(然而其他也很重要的指标,因为没收集到或收集到的样本太少,所以没有在本研究中作为参数(下图))。
值得一提的是,本文的患者分组也是根2009年的RECIST version 1.1将完全应答以及部分应答的患者分入应答组,并将疾病稳定和疾病进展患者分入了非应答组。
二、模型构建
模型构建的大体思路是将样本分为训练数据和测试数据。研究者将1479名受试者利用5折交叉验证的方法通过计算,选取误差最小的训练集(80%)与测试集(20%)进行分组。最终得到数据集RF16。
我们简要介绍一下5折交叉验证(如下图)。K-折交叉验证通常用于数据集较少时,直接随机切分可能会产生较大的误差。我们的例子中,数据集进行了10次迭代,称作10折交叉验证。每一次迭代,有9份数据作为训练集,1份数据作为测试集,均会产生一个误差值。最后求10个误差的平均值,作为误差的输出。
K-折交叉验证主要有5个优点:
1. 利用所有数据(将所有数据用于训练和测试,同时评估学习算法没见过的样本。);
2. 获取更多指标;
3. 使用模型堆叠;
4. 处理相关数据或分组数据;
5. 参数微调。
而本篇文章由于相对于庞大的分组,样本量相对较小,主要利用了K折交叉验证可以利用所有数据从而避免了样本量较小的问题和分组数据的处理的特点。
三、模型评价
总体来讲,对模型的评价主要分为两个部分:首先是对 分类器好坏的评价(可以拆分为对模型分类精度的评价和模型拟合优度的评价),然后是 对模型预测精度的评价。这篇文章妙在有一个纵深,即对在治疗过程中分类器预测ICB应答患者做了评价,也对分类器预测患者预后准确度做了评估。由于患者对ICB应答与患者有较好预后是存在关联的,所以加了个纵深使得模型评价变得立体。
1
研究者首先对随机森林中每棵树的单个特征指标(16个)进行了评价,结果显示: TMB预测呈现出最好的效果。化疗史对ICB反应的影响与TMB相当。MSI状态未被模型选为最高预测因子之一(可能解释:MSI status 与 TMB有强关联性)。
由于研究者认为16个指标中加入评价血液的指标对预测有不确定性,所以用与RF16同样的方法创建了包含FCNA, TMB, HED, NLR, BMI, LOH in HLA-I, sex, age, MSI status, 肿瘤分期和药物类别11个特征的数据集RF11。下图中分别比较了RF16,RF11,TMB三者在训练集和测试集的ROC曲线和Precision-Recall曲线。结果显示RF16的预测水平 > RF11 > TMB (ROC, Precision-Recall Curve)。
随后又将RF16在所有单个指标的预测水平进行比较,结果显示:RF16模型预测水平由于任一单一特征指标。由此,研究者进一步评价了RF16模型在应答组(R)与非应答组(NR)预测免疫应答均有显著差异,且显著性均高于但用TMB指标进行预测。
这些结果说明了:多个特征的非线性组合对整体预测性有不同程度的贡献,而RF16模型对预测结果贡献最优。
2
进一步的,研究者比较了AUC指标,以及混淆矩阵,并通过优化训练集中ROC曲线的敏感性个特异性,从而得到了较好Cut-off值使得模型的敏感性和特异性达到最高。
这里可能有些难以理解,我们来分析一下(下图):
我们知道,每一个ROC曲线都是由类似下图的N个Logistic回归组成的点连成的线。下图是一个Logictic回归曲线,中间的红线为threshold。
如果样本的分布是随机的,那么当红线向上移动时,可以减少假阴性的情况,增加分类器的灵敏度;当红线向下移动时,可以减少假阳性的情况增加分类器的特异度。
通过收集到的资料已知,1479名患者中,409名患者响应ICB,1070名患者不响应ICB,所以根据实际情况,非应答组的人数会多一些,就类似于下图所示的分布情况(根据混淆矩阵结果和患者实际应答情况猜的,红×与蓝×的比例为10:4)。
红线现在的threshold值在0.5如果向上移动,灵敏度和特异度的情况会很复杂,不好进行预测。如果过于下降(类似于图中混淆矩阵泛癌为基准的训练集情况),使得分类器的灵敏度很低。所以最优值应该在0.5到泛癌为基准的threshold值之间的情况。也就是红线下面蓝色叉叉和红色叉叉中间的位置。
作者之后用测试集评价之前得到的经过优化的Cut-off值。
结果显示: 与单独的 TMB 相比,RF16 模型均具有更高的预测性能(灵敏度、特异性、准确性、阳性预测值和阴性预测值) 其中 H图的数据RF16均优于RF11组以及TMB组。
这一部分作者基本对分类器的好坏做出了比较全面的评价,我们最终可以得出结论:RF16 模型可以高精度预测对 ICB 治疗的反应。
3
由于RF16模型是主要是依据泛癌进行训练的,作者随后比较了RF16模型与其它针对特定癌种训练的模型。结果显示:RF16预测效果均优于其它模型。
得出结论: 在大型泛癌症数据上训练的 RF16 能够学习特定于癌症的关系并概括与癌症的关系,从而在测试集中产生更高的预测性能。
又因为RF16是通过随机森林构建的非线性模型,所以作者通过比较RF16与线性的Logistic回归来评价RF16模型的拟合能力。
结果显示: RF16 模型在训练和测试集中始终实现更高的预测性能。
4
随后作者利用评价预测误差的Brier评分和评价预测精度的C-index(一致性指数)对患者总生存期(OS)进行预测。
结果显示 :相比于R11,TMB,RF16 的预测产生的误差更小,RF16的预测准确度也更高。
而对模型的预测OS精度评价(有些类似于回复实验验证)则进一步证明了模型的应用佳值很高。
然后,从多维度评价临床预测能力,对患者无进展生存期(FPS)进行预测。
得出结论: 比起RF11 & TMB,RF16预测PFS准确度更高。RF16 模型预测的响应者的 PFS 也明显优于训练数据中预测的无响应者。
5
最后,作者Diss了一下其他文章说黑色素瘤亚型会混淆TMB与免疫治疗应答关联的说法。虽然作者引得那篇文章找不到了,不过就在今年年初,Annals of Oncology的确报道了TMB不能预测所有肿瘤类型的免疫应答。不过这也侧面说明了我们今天分享的这个模型具有很高应用前景。
全文总结
如果初次看这类的研究对可能不是很好理解。
于是我做了个不恰当的类比:
有一个年轻漂亮的姑娘,她现在是available,有一个比较欣赏的小伙子。当然也存在众多较为优质的前男友。姑娘想和自己喜欢的小伙子在一起,但不确定自己的想法,于是先和众多的前男友进行了比较,发现小伙子比前男友更帅更有钱(RF16模型与其它模型的ROC,AUC,显著性比较)。之后姑娘在意一年,发现小伙子的品行正直,还一直有进步(算法优化)。还觉得不够,于是找了很多与自己条件差不多的姑娘,看看他们都找了什么样得小伙子(泛癌vs多癌种,RF16 vs Logistic回归)。最后,姑娘找到哆啦A梦,坐时光机去未来,看了下的确和小伙子生活幸福(OS & FPS)。姑娘一看,老娘眼光不错,于是与小伙子在一起了。
这里面,姑娘就是这个分类器,姑娘评价小伙子的过程也是我们评价分类器的过程。
创新点 & 局限性
本文的创新点在于 为理解和量化对免疫治疗的异质性提供了更精细的粒度,得出了多种生物因素的非线性组合对反应有不同程度的贡献的结论。临床意义非常重大。
同时本研究也是有一定的局限性的,首先是样本群体的局限性,如果能有更多的样本和外部数据验证,模型的结果也将更可信。同时特征属性也存在局限性,很多与肿瘤免疫治疗应答的重要特征如PD-1/PD-L1表达没有收集进入模型构建,应答相关特征纳入标准也没有明确的说明。
所以,之后的研究, 如果能进行前瞻性试验将使用类似的机器学习方法来改进RF16,并且加入有关IBC预测的特征属性和转录组数据,将会构建 一个更加全面可信的模型!
好了,本次的分享就到这里了,我是四斤,我们下次见~~~
参考文献
[1] Chowell D, Yoo S K, Valero C, et al. Improved prediction of immune checkpoint blockade efficacy across multiple cancer types[J]. Nature Biotechnology, 2021: 1-8.
[3] Powles T, Durán I, van der Heijden MS, et al. Atezolizumab versus chemotherapy in patients with platinum-treated locally advanced or metastatic urothelial carcinoma (IMvigor211): a multicentre, open-label, phase 3 randomised controlled trial [published correction appears in Lancet. 2018 Oct 20;392(10156):1402]. Lancet . 2018;391(10122):748-757. doi:10.1016/S0140-6736(17)33297-X
[5] Eisenhauer EA, Therasse P, Bogaerts J, et al. New response evaluation criteria in solid tumours: revised RECIST guideline (version 1.1). Eur J Cancer . 2009;45(2):228-247. doi:10.1016/j.ejca.2008.10.026
[6] Seymour L, Bogaerts J, Perrone A, et al. iRECIST: guidelines for response criteria for use in trials testing immunotherapeutics [published correction appears in Lancet Oncol. 2019 May;20(5):e242]. Lancet Oncol . 2017;18(3):e143-e152. doi:10.1016/S1470-2045(17)30074-8
[9] McGrail DJ, Pilié PG, Rashid NU, et al. High tumor mutation burden fails to predict immune checkpoint blockade response across all cancer types. Ann Oncol . 2021;32(5):661-672. doi:10.1016/j.annonc.2021.02.006
欢迎大家关注解螺旋生信频道-挑圈联靠公号~
— END—
撰文 丨四 斤
排版 丨四金兄
主编丨小雪球
责任编辑:
相关知识
学会这招让马爱上你!
如何拥有社交牛逼症
【训练营】R语言 + GEO + TCGA + 多组学 + 免疫浸润 + WGCNA = 高分SCI
继母为了多分财产和房屋,利用不相干的人争取多分,欺骗法官,违犯法律吗,而她不相干的人写成被告
运用AI技术为狗狗定制创意文案的策略与实践
sci论文修改稿超过截止日期怎么办
开源SCI=水刊?1W+的版面费到底值不值得?
推荐家禽领域的sci期刊
一不留神就被坑:SCIE,ESCI=SCI?
手把手教你如何延长SCI论文返修提交日期!
网址: 牛逼!泛癌+AI=50多分的SCI? 学会这招直接封神! https://m.mcbbbk.com/newsview263086.html
上一篇: 温馨提示之——狗的大便形状等级与 |
下一篇: 怎么训练泰迪听话 学会6招就够了 |