这个情人节跟生信人一起学习生信分析。
大家情人节快乐,生信人加班加点录制了一系列筛选预后marker的教学视频,其中包括基因水平,基因家族水平,lncRNA水平,甲基化水平,突变水平各个组学和各个角度的一系列视频。
一共有7节 ,其中包括:
情人节聚惠
(2.14)
满500减101
假日期间答疑请发送邮件到邮箱sxrwork@163.com
视频购买满1000
可扫码开发票
情 人 节 快 乐
视频内容介绍
视频1:识别单基因家族在癌症中的预后作用
首先要确定基因家族和癌症类型,明确基因家族内包含的基因有哪些(如PRDXs基因家族包含PRDX1、PRDX2、PRDX3、PRDX4、PRDX5和PRDX6),分析方式均采用cox回归分析,首先对基因家族中包含的多个基因分别进行生存分析,根据结果判断哪些基因与生存相关;其次引入其他临床信息(包括性别,吸烟状况,病理分级和临床分期),分析基因家族内个基因的表达情况与其他临床信息间有无内在的联系。
注意点主要都是在线工具的使用:
1. 通常输入基因名,选取对应的探针名,探针名出有颜色区分,例如绿色代表Jetset best probe set(这也是我们最常采用的),因此在基因名匹配探针处选绿色对应的探针,下方的探针选项也需要对应勾选第三项。
2. 分组方式(中位数、四分位数等)、生存方式(OS、FP、PPS)、截止时间(三年期,五年期,所有等)方式可以自己根据实际情况选取
3. 注意单因素cox回归分析、多因素cox回归分析的选择
视频2:识别DNA甲基化生物标志物
采用差异表达分析,分别识别差异表达的基因以及差异甲基化位点和与其位点对应的基因,随后将我们筛选获得的差异表达基因、差异甲基化位点进行共表达网络分析,寻找其中共表达的基因和甲基化的位点信息,同时我们把共表达网络分析挖掘出的模块与样本癌症或者正常状态相,找到与表型状态正相关和负相关的关键模块,对关键模块中的基因以及甲基化位点进行生存分析,进一步识别与生存相关的基因或者甲基化位点,从而识别与肺腺癌生存相关DNA甲基化生物标志物。
注意点:
1. 我们同时分析了差异表达基因和差异甲基化位点和位点对应的基因,绘制Venn图看两者异同的基因,尤其对于交集部分可以更多的关注,他表现了甲基化调控的模式。
2. 对于共表达分析我们可以关注所有的基因/甲基化位点或者也可以直接关注差异部分,两者是不同的构思,关注所有基因就可以将分析结果与差异基因做对照分析异同,关注差异表达部分可找到与表型相关的模块,也可以是对差异分析结果的进一步证实
3. 对于生存分析,可以更多的关注Venn图交集部分的基因,寻找甲基化调控的差异基因与生存的关系。
视频3:识别自噬相关的预后标记物
该生物信息学套路主要是基于Cox回归风险模型评估风险标记的预后情况,整个分析套路涉及的数据集比较多,对于每套数据集所对应的部分临床信息没有太完整,导致后续分析的比较性欠缺。重点在于基于单因素Cox回归分析所获得的候选风险标记,根据AIC选择的模型是由几个感兴趣基因构成的风险标记,来检验风险标记的鲁棒性及有效性,选择风险标记模型,才能检验其与临床信息的关联性,证实其作为独立预后因素的有效性。
该套路数据既包含训练集和测试集,还涉及了与癌症相关基因的突变情况进行比较,用风险标记做风险预测的同时,还探讨了与已知致病基因的相关性。
视频4:联合多组转录组数据筛选癌症预后标志物
本文主要通过整合7个GEO的转录组数据进行结直肠癌的预后标志物的筛选和分析。流程包括转录组数据的预处理和批次效应处理,批次效应处理的评估,差异表达分析,生存分析,生存分析的验证。
主要的难点在于同一个平台的GSE数据去批次效应、整合的过程。在这里我们要注意:
1. 多个GSE如果要在一起研究需要下载同一个GPL上的数据,不同的GPL尽量不要整合在一起,容易出现实验误差。
2. 多组数据整合在一起的时候需要做批次效应处理。在进行批次效应处理的时候尽量选择多种批次效应处理方法来进行比较后选择一个最适合自己实验的方法。尽量减小实验的误差。
3. 对于比较老的GPL平台,很多的基因注释已经过时。所以将表达谱的探针对应到基因上的时候最好选择CDF文件来进行重注释。
4. 在安装R包时,如果报错,可以多安装几次或者改变一下R的版本。
视频5:基于基因表达和甲基化分析识别肿瘤预后因子
1.差异表达和差异甲基化分析:
在进行分析前,需要对CGGA microarray 以及CGGA 甲基化样本根据生存时间(大于三小于一)和疾病等级(III级,IV级)进行筛选,获取符合条件样本的表达谱和甲基化谱再进行分析。
难点:在进行差异表达差异甲基化的过程中,利用SAM工具,需要加载“samr”安装包,若在自己当前的R版本下加载不成功,可以进入CRAN网站,找到samr包并下载其最新版本到R3.5.2版本下的library目录下,再进行library命令即可。除此之外,SAM工具识别的文件格式是特殊的,需先将表达谱整理为该工具识别的格式再进行分析。
2.生存分析:
差异分析完成后,对差异表达基因,差异甲基化基因取交集再对取交集后的差异基因进行生存分析。
重点:生存分析采用的是COX比例风险回归模型的单因素回归分析,差异基因的表达以及甲基化都要进行生存分析以寻找表达与甲基化均与患者预后相关的基因,找到这些基因后再利用TCGA中的样本临床信息以及Microarray 表达谱数据进行生存分析,筛选出在TCGA样本中表达仍然与患者预后相关的关键基因,此时需要注意的是TCGA中样本仍要满足生存时间小于一年或大于三年。
3.对筛选得到的关键基因进行验证:
重点:在验证的过程中仍然要保证样本生存时间小于1年或者大于3年,疾病等级为III级和IV级
1) 利用CGGA array,CGGA seq,TCGA array 数据对关键基因表达进行生存验证,绘制生存曲线
2) 利用CGGA array,CGGA seq 数据绘制ROC曲线,并将关键基因的表达与临床特征(年龄和等级)进行对比,计算出AUC值
重点:利用关键基因的表达值乘以HR取对数构建打分矩阵来进行绘制而不是简单的利用基因的表达值
难点:加载survival, survminer 安装包,若不能直接安装,方法如上。
3) 利用CGGA array,CGGA seq,GSE16011数据验证关键基因的表达与疾病等级相关性。
重点:此时各样本疾病等级不只III级和IV级,还有II级
难点:GSE16011数据的预处理,在GEO中下载原始数据后,首先将临床数据和表达谱数据分开存储,临床数据需要进一步整理获得我们需要的信息,而表达数据的第一列并不是基因名,而是探针名,我们语言去GEO中下载提取探针名及ENTRENS ID对应列,并单独提取出ENTRENS ID,利用divid获取基因SYMBOL,再进行探针与基因名的匹配。
4) 利用CGGA array ,CGGA seq数据验证关键基因表达与关键突变,疾病亚型的相关性
5) 绘制热图可视化基因表达与临床特征和基因突变的关系
难点:加载“ComplexHeatmap”安装包,并利用Heatmap函数绘制热图。
视频6:识别癌症亚型间特异性基因表达和突变模式
首先,从TCGA获取食管腺癌(EAC)的表达谱数据和临床数据,根据其病理特征,筛选出需要的样本数据。其次,从GEO数据库中获取两套EAC的表达谱数据,同样根据其肿瘤类型,进行样本的筛选。对得到的表达谱数据进行标准化,对标准化后的数据利用Consensu ClusteringPlus方法进行亚型的确定。初步分析后,确定为两个亚型进行后续的分析。利用SigClust去顶亚型的统计学显著性。利用silhouette将样本映射到亚型上。利用SubMap查看在不同的数据集之中,亚型是否有差异。
利用Mutsig方法对TCGA数据进行体细胞突变的分析,注意,MutsigCV软件的运行需要在Matlab环境下,其余的输入文件都可以通过下载得到。
利用SAMseq方法对样本进行特异性基因提取。这里我们是对亚型一和亚型二进行差异分析。
利用GSEA方法分析亚型的生物学过程,值得注意的就是我们输入文件的格式,GCT:基因簇文本文件格式(* .gct),CLS:分类(例如肿瘤vs正常)类文件格式(* .cls)。
利用Cluster3.0进行聚类,TREEView查看结果,生物标注物能否很好的将亚型区分开来。
视频7:基于lncRNA表达谱识别癌症潜在预后标志物
主要目的是为了生成一个多lncRNA信号来改善胃癌(GC)的预后预测。通过对10对胃癌和邻近正常黏膜组织表达谱的分析,确定了272个差异表达的lncRNAs作为胃癌预后的候选生物标志物。然后,我们使用LASSO Cox回归方法构建了一个11-lncRNA信号,根据11-lncRNA信号打分将训练集患者可分为DFS差异显著的高危组和低危组。并在另一个独立的GEO数据集中进行了验证,结果表明分类效果显著。进一步分析表明,这个11-lncRNA信号的预后价值与AJCC分期无关。ROC分析表明,组合模型下ROC曲线(AUC)下面积更优。此外,还为临床医生构建了良好的列线图。
关键步骤及重点难点:
1. lncRNA表达谱的获取。GEO数据库中基本上是全RNA的转录数据,我们需要根据探针重注释提取出单独的lncRNA表达谱数据,这是整个套路的基础工作
2. 表达谱的差异表达分析。差异表达分析我们有多种统计方法,这里我们选择了limma分析,有R包便于实现;
3. LASSO cox 回归分析。这是我们整个套路的重点及难点,也是我们的核心内容。难在于我们对LASSO线性回归算法的理解以及代码参数含义设定。这一步是我们基于差异lncRNA构建11-lncRNA信号的核心步骤。
4. 生存分析。这一步骤也是我们套路的一个重点内容,此步从分层分析,试验集对照,ROC分析,多因素cox回归分析多个层面多个角度验证了11-lncRNA的分类效果是否显著,是我们整个套路结果有意义与否的重要体现。此步统计算法及代码稍难,重在理解研究思路及参数含义。
我们建立了一个有用的11-lncRNA标记用于GC的预后评估。它可以补充临床病理特点,促进胃癌的个性化管理。
情人节聚惠
(2.14)
满500减101
假日期间答疑请发送邮件到邮箱sxrwork@163.com
视频购买满1000
可扫码开发票
情 人 节 快 乐