看看生信大佬是怎样一年发几篇十几分生信文章的,一招鲜吃遍天,NC都是小意思,机器学习这么玩才是好套路
通过多种机器学习算法的交集筛选出疾病相关核心lncRNA并建立预测模型,这么熟悉的味道竟在一年内发了好几篇十几分的文章,不值得深入学习下么?介绍这类文章之前,小编先问小伙伴们几个问题: 什么是机器学习?为什么要研究lncRNA?机器学习对lncRNA研究有什么帮助呢?
Q1 什么是机器学习?
A: 机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度等多门学科。使计算机获得类似人类的学习能力,能自行获取新知识、重组知识结构, 不断改善自身性能。
Q2 lncRNA有什么用?
B: 长链非编码RNA(lncRNA)是长度超过200个核苷酸的非编码RNA,在调节细胞生物学过程中发挥重要作用。研究表明,lncRNA可以在转录、转录后和表观遗传水平上 调节基因表达 ,还 参与免疫系统调节 ,在免疫细胞亚群中表现出细胞类型特异性。基于这些特点,近年来lncRNA作为一种极具潜力的生物标记物,在癌症预后模型的建立中受到了广泛关注。
Q3 为什么需要机器学习?
C: 在基因组信息广泛用于癌症精确治疗的今天,个体组学数据存在噪声和偏差,需要多组学数据准确预测癌症预后。但是,多组学数据 冗余变量多、样本量小 ,整合困难。机器学习是解决这一问题的有效手段,我们可以看到越来越多的机器学习算法被应用在生信文章中。 机器学习具有通过经验自动改进算法的特点,可以针对数据寻找可用的模式然后进行预测。
研究思路
这类文章的总体研究思路是算法开发+模型构建+公共数据集和内部临床数据集的验证+耐药性和临床治疗研究。基于机器学习的 算法开发 是本类研究的亮点。
小编整理了三篇不久前发表的应用此类方法的 10分+ 纯生信文章。一起看一下大佬们是如何应用机器学习算法的吧!
参考文献 1
Machine learning-based identification of tumor-infiltrating immune cell-associated lncRNAs for improving outcomes and immunotherapy responses in patients with low-grade glioma
基于机器学习识别的肿瘤浸润性免疫细胞相关lncRNAs可改善低级别胶质瘤患者的预后和免疫治疗反应
发表期刊: Theranostics(IF: 11.6)
发表时间: 2022.07
2
Machine learning-based tumor-infiltrating immune cell-associated lncRNAs for predicting prognosis and immunotherapy response in patients with glioblastoma
基于机器学习的肿瘤浸润性免疫细胞相关lncRNAs,预测胶质母细胞瘤患者的预后和免疫治疗反应
发表期刊: Briefings in Bioinformatics(IF:13.994)
发表时间: 2022.09
3
Machine learning-based integration develops an immune-derived lncRNA signature for improving outcomes in colorectal cancer
基于机器学习的整合开发了一种用于改善结直肠癌预后的免疫相关lncRNA标签
发表期刊: Nature Communications(IF: 14.919)
发表时间: 2022.02
文献1:基于机器学习识别的肿瘤浸润性免疫细胞相关lncRNAs可改善低级别胶质瘤患者的预后和免疫治疗反应
研究内容
用10种机器学习算法的101种组合,选出C-index最高的模型组合,与10年来的胶质瘤相关模型进行比较。得到最佳模型后,作者在下游进行了常规的生存分析、通路分析、免疫治疗分析、肿瘤微环境分析。
研究思路
1、将表达前15%的lncRNA作为每个免疫细胞系的候选免疫相关lncRNA。2、用TSI计算每种细胞类型的候选免疫相关lncRNA的表达特异性。3、定义在所有免疫细胞类型中高表达的lncRNA为免疫相关ilncRNA。在免疫细胞系中显著上调而在LGG细胞系中显著下调的ilncRNA被定义为TIIClncRNA。单因素COX回归分析进一步筛选出与预后相关的TIIClncRNA。4、基于10倍交叉验证,进一步使用RSF、Enet、Lasso、Ridge、stepwise Cox、CoxBoost、plsRcox、SuperPC、GBM和survival-SVM等10种机器学习算法的所有组合(101),筛选出C-index最高、最有价值的TIIClncRNA标签。最后选择以RSF和CoxBoost结合作为最优的TIIClnc标签。5、全面研究TIIClnc标签与预后、肿瘤免疫微环境和免疫治疗反应之间的关系。
机器学习
1.筛选TIIClncRNA标签
先找出在19种免疫细胞中表达量前15%的lncRNAs,然后根据一个能够反映lncRNAs在19种免疫细胞类型分布情况的标准化的公式,筛选出在免疫细胞中广泛表达的lncRNAs,最后和LGG细胞系中的lncRNAs表达量进行差异分析,将差异表达的lncRNAs定义为 肿瘤浸润性免疫细胞相关TIIClncRNA。
2.模型构建与验证
将TIIClnc与生存率进行单因素COX分析,筛选出有生存意义的TIIClnc。接着运用10种机器学习算法的101种组合,选出C-index指数最高的模型组合。模型构建之后,与近10年内发表的胶质瘤相关signature相比较以评价该模型的优越性。
文献2:基于机器学习的肿瘤浸润性免疫细胞相关lncRNAs,预测胶质母细胞瘤患者的预后和免疫治疗反应
研究内容
从过去15年的16个数据集中筛选出由19种免疫细胞类型组成的纯化细胞系。用6种机器学习算法的种组合,选出C-index指数最高的模型组合,与10年来的95个胶质瘤相关模型进行了比较。得到最佳模型后,作者用多种在线和内部临床数据集进行了预测验证。
研究思路
1、每种免疫细胞类型中表达水平排名前15%的lncRNA作为候选的免疫相关lncRNA。2、计算候选免疫相关lncRNA的TSI评分(TSI < 0.2),确定在不同免疫细胞类型中普遍表达且对元素免疫调节至关重要的hklncRNA。3、在差异表达的hklncRNA中,在免疫细胞系上调、GBM细胞系下调的lncRNA被认为是GBM TIIClncRNA。4、应用LassoLR、Boruta、Xgboost、SVM、Random Forest、pamr六种机器学习算法,筛选出最有价值的TIIClncRNA(图2A)。用单因素Cox比例风险回归分析探讨TIIClncRNA对患者OS的预后价值。最后,基于预后TIIClncRNA的所有可能组合,通过TCGA GBM数据集多元Cox回归分析中估计的回归系数加权,构建TIIClncRNA特征模型。5、用多种不同来源的数据集验证模型与预后、肿瘤免疫微环境和免疫治疗反应之间的关系。
机器学习
1.筛选TIIClncRNA 标签
提取每种免疫细胞类型中表达水平排名前15%的lncRNA,然后根据标准化公式,筛选出在免疫细胞中广泛表达的lncRNAs,和GBM细胞系中的lncRNAs表达量进行差异分析,将差异表达的元素免疫调节相关hklncRNA定义为TIIClncRNA。
2.模型构建与验证
用单因素Cox比例风险回归分析探讨tiiclncRNA对GBM患者OS的预后价值。最后,应用LassoLR、Boruta、Xgboost、SVM、Random Forest、pamr六种机器学习算法,基于预后性tiiclncRNA的所有可能组合,通过TCGA GBM数据集多元Cox回归分析中估计的回归系数进行加权,构建TIIClnc特征模型。
文献3:基于机器学习整合开发了一种用于改善结直肠癌预后的免疫相关lncRNA标签
研究内容 本研究中,作者开发了一种基于机器学习的集成算法(ImmLnc),用于构建共识免疫相关lncRNA特征(IRLS)模型。之后通过评估IRLS模型在多个数据集中的应用性能、比较其他特征与IRLS模型的预测性能以及IRLS模型在临床样本中的应用,综合说明了IRLS模型的稳定性和可靠性。
(图片转载自生信人)
1.免疫浸润亚群的鉴定和验证 首先通过根据ssGSEA评估的28个免疫细胞浸润丰度对CRC样本进行共识聚类,将所有样本分成C1和C2两大亚群。然后通过ESTIMATE算法计算的TCGA-CRC队列中两个亚群之间的免疫评分情况,C2高于C1,说明了ssGSEA结果的稳定性和可靠性(图1A-D)。
2.鉴定源自免疫浸润模块的lncRNA模块 为提取出与免疫相关的lncRNA,进行WGCNA分析,结果发现黄色模块与免疫的相关性最高(图1F)。从这一模块中筛选出526个lncRNA(Gene Signifificance> 0.5、Module Membership> 0.6,图1G)。
3.根据ImmLnc算法筛选免疫相关lncRNA ImmLnc是一种用于识别免疫相关通路lncRNA的集成算法。先用ESTIMATE算法推断肿瘤纯度,然后将肿瘤纯度调整为协变量,计算特定lncRNA与所有mRNA之间的偏相关系数(PCC),最后根据所有mRNAs与特定lncRNA的相关系数排序,排序后的基因列表做GSEA分析(lncRES >0.995,FDR<0.05)。根据ImmLnc算法确定了791个免疫相关lncRNA,它们与细胞因子受体、TCR信号通路、趋化因子受体等通路相关(图1H)。与前面WGCNA鉴定出的lncRNA取交集,共提取235个重叠的lncRNA用于后续分析验证(图1I)。
总结
机器学习分析步骤
1 根据lncRNAs在不同类型的免疫细胞系中的表达量和分布情况,找出表达量靠前的lncRNAs
2 根据一个能够反映lncRNAs分布情况的标准化公式,筛选出广泛表达的lncRNAs
3 对目标细胞系中的lncRNAs表达量进行差异分析,筛选出差异表达的关键lncRNAs(如TIIClncRNA)
4 将关键lncRNA与生存率进行单因素COX分析,筛选出有意义的lncRNA
5 通过机器学习,用多种机器学习算法组合,选出C-index最高的模型组合
6 之后,与往年发表的相关signature比较以评价该模型的优越性。同时还可以进行常规的通路分析、生存分析、免疫治疗分析、肿瘤微环境分析等