标准正态分布表_表达矩阵的归一化和标准化，去除极端值，异常值

321 阅读 0 评论 212 点赞

我是靠谱客的博主犹豫鱼，这篇文章主要介绍标准正态分布表_表达矩阵的归一化和标准化，去除极端值，异常值，现在分享给大家，希望可以做个参考。

我们阅读量破万的综述：RNA-seq这十年(3万字长文综述)给粉丝朋友们带来了很多理解上的挑战，所以我们开辟专栏慢慢介绍其中的一些概念性的问题，上一期：

RNA-seq的counts值，RPM, RPKM, FPKM, TPM 的异同

在数据挖掘过程，数据的归一化和标准化是必须的。取log值就是一种归一化的方法，z-score是常用的标准正态分布化的方法。

归一化和标准化的区别

实际上口语里面通常是没办法很便捷的区分这两个概念。
归一化：将每个样本的特征值(在转录组中，特征值就是表达量)转换到同一量纲下，把表达量映射到特定的区间内，区间的上下限由表达量的极值决定，这种区间缩放法是归一化的常用方法。
标准化：按照表达矩阵中的一个基因在不同样本中的表达量处理数据，每个样本点都能对标准化产生影响，通过求z-score值，转换为标准正态分布，经过处理的数据的均值为0，标准差为1，因此z-score也称为零-均值规范化。