同一条件下,测序深度越深或基因长度越长,基因上mapping到的reads数可能越多。因此,在计算基因表达量时常会采用一些标准化方法排除测序量和基因长度差异带来的干扰。目前标准化的方法主要有:RPKM/FPKM、TPM和CPM,通过标准化可以提高数据的准确性和可靠性。几乎所有的生信分析都需要表达量标准化这一步骤。
生信小课堂•用云平台标准化表达量
01 工具简介
图1 文献中TPM的应用
02 康测科技表达量标准化云工具
1. 页面模块化,功能划分简洁
从左往右依次为导航栏、使用指南、数据预览、参数设置和问题解答。
图2 工具初始界面
2. 零代码操作,参数自由设置
(1)创建并校正输入数据
输入待标准化的表达量数据,其列依次为:基因名,基因长度,各样本对应基因的reads count。
可以从康测标准报告中找到对应表格,或在本地自行生成(制表符Tab分隔格式),并将其通过云文件上传到云平台中使用。格式不符的Excel文件可以使用本平台“表格格式转换”工具进行转换。
图3 输入数据示例TPM
(2)选择标准化方法
可以根据需求选择不同的标准化方法,本工具支持选择RPKM/FPKM、TPM、CPM三种标准化方式。
RPKM/FPKM(Reads/Fragments Per Kilobase of transcript per Million mapped reads)即每一百万条序列中,每个基因以一千个碱基为单位,比对上的 reads(建库时打断获得的fragments,当以 PE测序时,同一个片段包含两条 reads)个数。该方法考虑了基因长度的差异,能消除基因长度和测序量差异对计算基因表达的影响,适用于不同长度基因的比较,并在早期的RNA-Seq分析中被广泛采用,如果您在使用久经考验的工具,这种方法将可以保证最大的兼容性。其缺点是受测序深度影响较大,不适用于不同样本间测序深度差异较大的情况,对低表达基因的标准化效果也不佳。
TPM(Transcripts Per Million)即每百万读段中来自于某转录本的读段数。该方法在标准化后各样本的TPM值总和相同,便于不同样本间的比较,并减少了测序深度对结果的影响,相对RPKM/FPKM而言更适合不同测序深度的样本比较。其缺点是在某些特定分析中可能不如其他方法适用。
CPM(Counts Per Million)只对reads count相对总reads数做了数量的均一化。在某些情况下,只想了解每个基因被覆盖到的相对reads数,而不希望对其做长度校正,就会使用这个指标。该方法计算过程简单,直接将原始读数标准化为每百万读数,在差异表达分析中表现良好,特别是使用edgeR等工具时。但CPM未考虑基因长度差异,可能不适用于不同长度基因的比较,并且同样受测序深度影响较大,不适用于不同样本间测序深度差异较大的情况。
可以根据具体的研究需求和数据特点来选择合适的标准化方法,以期提高分析结果的准确性与可比性。在提供输入文件,选择好标准化方法后,即可点击运行。
3. 输出数据示例
下图内容依次为:输入数据(reads count)、RPKM/FPKM、TPM、CPM。
图4 输出数据示例
03 康测科技云分析平台试用
康测科技云分析平台整合超过100种组学分析工具,配备详细、精炼的讲解视频和工具文档,全程零代码、自主参数设置。如果您有使用需求,可私信小编,小编将给您发送试用账号~
链接:http://www.seqcloud.cc:8888
04 参考文献
Kotaro Tomuro, Mari Mito, Hirotaka Toh. et al. Calibrated ribosome profiling assesses the dynamics of ribosomal flux on transcripts. Nature Communications, 2024.
热门工具推荐
更多平台
bilibili
(长干货科普)
视频号
(产品知识分享)
小红书
(短干货科普)
点个“在看”再走呗(右下角)
关于康测
康测致力于先进组学技术的开发和在生物医学研究领域的应用,建立了涵盖基因组学、表观基因组学、转录组学、表观转录组学、免疫组学和互作组学的全面组学服务体系。而在医学检测方面,康测基于自主研发的SMP(Stranded Multiplex PCR)靶向测序技术,可提供检测灵敏度和特异性均为100%的MRD一站式自动化解决方案。
康测提供全面的基因表达调控研究工具
康测提供高度自动化MRD一站式解决方案
联系我们
地址:武汉市江夏区东湖新技术开发区高新六路99号南山·光谷自贸港A栋6楼
邮箱:seqhealth@seqhealth.cn
电话:027-65527552
热门服务
关注康测公众号