二代测序基本知识

测序深度、测序覆盖度和测序饱和度

测序深度

即每个碱基在测序中被命中的次数。例如，目标基因长度为1000个nt，测量了200个reads，每个reads长度为50nt，则一共测量了200x50个碱基，平均该基因上每个碱基被命中200x50/1000=10次，故测序深度为10x。

测序覆盖度

即目标基因上有百分之多少的碱基至少被一个reads命中。例如测序覆盖度为98%，则说明该基因上98%的碱基至少出现在一个reads中，还有2%的碱基没有出现在任何一个reads中。

测序饱和度

测序饱和度指当前的所有reads测出了多少的文库复杂度，即对于一个文库，如果仅再测很少Reads就检测到了全新的转录本，说明当前数据还远未挖掘出文库中的大部分信息，数据的信息冗余程度比较低，测序不饱和；而反过来，如果需要再测很多Reads才能检测到全新的转录本，说明当前数据对文库中包含的信息挖掘得比较充分，数据的信息冗余程度比较高，测序接近饱和。

也就是说，饱和度越高，则结果越能反应文库的真实情况，同时加大测序深度能够获得新的特征也越少。其计算方式为：

$$ sequencing \ saturation = 1-\frac{去重后的Reads数}{原始reads数} $$