概述
我们阅读量破万的综述:RNA-seq这十年(3万字长文综述)给粉丝朋友们带来了很多理解上的挑战,所以我们开辟专栏慢慢介绍其中的一些概念性的问题,上一期:
RNA-seq的counts值,RPM, RPKM, FPKM, TPM 的异同
在数据挖掘过程,数据的归一化和标准化是必须的。取log值就是一种归一化的方法,z-score是常用的标准正态分布化的方法。
归一化和标准化的区别
实际上口语里面通常是没办法很便捷的区分这两个概念。
归一化:将每个样本的特征值(在转录组中,特征值就是表达量)转换到同一量纲下,把表达量映射到特定的区间内,区间的上下限由表达量的极值决定,这种区间缩放法是归一化的常用方法。
标准化:按照表达矩阵中的一个基因在不同样本中的表达量处理数据,每个样本点都能对标准化产生影响,通过求z-score值,转换为标准正态分布,经过处理的数据的均值为0,标准差为1,因此z-score也称为零-均值规范化。
取log对表达量的影响
原始的raw counts矩阵是一个离散型的变量,离散程度很高。有的基因
最后
以上就是犹豫鱼为你收集整理的标准正态分布表_表达矩阵的归一化和标准化,去除极端值,异常值的全部内容,希望文章能够帮你解决标准正态分布表_表达矩阵的归一化和标准化,去除极端值,异常值所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
发表评论 取消回复