
生信人之前推过很多的课程,但是课程都侧重于套路的复现和思路的复现,或者就是过于基础的课程。这次我们推出的课程更加侧重于分析技能和技巧的讲解,相信客户能够更好的进行复现和重复。2、所涉及的代码操作,参数全部外置,客户可以不用读懂代码也可以操作。4、所有的课程都提供demo数据测试,并经过了内部审核。
COX、LASSO、SVM、PCA、Random Forest、Logistic




以下是视频的word版本
在生物信息数据分析过程中,我们经常会用到数据降维,比如评估生存风险因素,从多个差异基因中筛选最有代表性的最显著的差异基因等等,在这里给大家介绍6种常用的数据降维方法:Cox比例风险模型;LASSO线性回归模型;支持向量机(SVM);主成分分析(PCA);随机森林;主成分分析(PCA);logistic 回归分析。基本上是常用的统计在医学研究调查的患者和一个或多个预测变量的存活时间之间的关联回归模型。该模型的目的是同时评估几个因素对生存的影响。换句话说,它使我们能够检查特定因素在特定时间点如何影响特定事件(例如,感染,死亡)的发生率。这个速度通常被称为危险率(HR;hazard radio)。HR>1:危险致病因素;HR<1:保护因素;
单因素cox回归分析各个指标对PC OS(time)值及生存状态(status)的影响
可以看到sex,Age,Grade等各指标对OS值均为风险因素,而手术类型(Scope)和手术位置不是风险因素;接着我们对以上分析的风险因素进行多因素COX回归分析,来进一步评估风险程度;
我们可以看到,相比之下,Age,grade,mate.at.DX.liver 等指标对OS值影响显著,而sex,mate.at.DX.lung等指标风险程度较弱。这样我们就能从众多指标中筛选出影响生存时间最显著风险的指标。
广义线性模型包括了一维连续因变量、多维连续因变量、非负次数因变量、二元离散因变量、多元离散因变等的回归模型。然而LASSO对以上的数据类型都适合,也可以说LASSO 回归的特点是在拟合广义线性模型的同时进行变量筛选(variable selection)和复杂度调整(regularization)。变量筛选是指不把所有的变量都放入模型中进行拟合,而是有选择的把变量放入模型从而得到更好的性能参数。复杂度调整是指通过一系列参数控制模型的复杂度,从而避免过度拟合(Overfitting)。总的来说LASSO对数据的要求很低。
目的:从众多的差异表达基因中筛选出具有代表性的对OS显著影响的基因子集及影响系数。

支持向量机SVM(Support Vector Machine)是一种有监督二分类机器学习模型,包括线性可分SVM和非线性可分SVM;线性可分时,可用硬间隔和软间隔最大化学习SVM。线性不可分时,通过核技巧和软间隔最大化学习SVM; 当SVM训练完成后,大部分样本都不需要保留,最终模型只与支持向量有关;

主成分分析法(Principal Component Analysis,PCA)就是一种运用线性代数的知识来进行数据降维的方法,它将多个变量转换为少数几个不相关的综合变量来比较全面地反映整个数据集。这是因为数据集中的原始变量之间存在一定的相关关系,可用较少的综合变量来综合各原始变量之间的信息。这些综合变量称为主成分,各主成分之间彼此不相关,即所代表的的信息不重叠。

随机森林算法的实质是基于决策树的分类器集成算法,其中每一棵树都依赖于一个随机向量,随机森林的所有向量都是独立同分布的。随机森林就是对数据集的列变量和行观测进行随机化,生成多个分类数,最终将分类树结果进行汇总。而且该算法对多元共线性不敏感以及对缺失数据和非平衡数据比较稳健,可以很好地适应多达几千个解释变量数据集。

Logistic模型实际上是一种回归模型,但这种模型又与普通的线性回归模型又有一定的区别:1)Logistic回归模型的因变量为二分类变量;3)一般线性回归模型中需要假设独立同分布、方差齐性等,而Logistic回归模型不需要;4)Logistic回归没有关于自变量分布的假设条件,可以是连续变量、离散变量和虚拟变量;5)由于因变量和自变量之间不存在线性关系,所以参数(偏回归系数)使用最大似然估计法计算。



上述六种降维方式大家可以多多应用尝试,寻找出最佳的预后marker~
欢迎关注生信人
TCGA | 小工具 | 数据库 |组装| 注释 | 基因家族 | Pvalue
基因预测 |bestorf | sci | NAR | 在线工具 | 生存分析 | 热图
生信不死 | 初学者 | circRNA | 一箭画心| 十二生肖 | circos
舞台|基因组 | 黄金测序 | 套路 | 杂谈组装 | 进化 | 测序简史
