曾经我用 rMATS进行可变剪切分析,现在我觉得 IsoformSwitchAnalyzeR更香。
IsoformSwitchAnalyzeR功能总结如下。
注:
总而言之 IsoformSwitchAnalyzeR不仅仅是分析可变剪切事件,还整合了蛋白结构等信息用于判定可变剪切是否影响蛋白功能,同时包含了基因组整体的分析。
本文用 RNA-seq数据过一遍 IsoformSwitchAnalyzeR分析流程。输入数据是 Salmon定量结果,不知道 Salmon如何用的同学赶紧去看《Salmon进行转录本定量》。
用 BiocManager安装。
导入 Salmon定量数据。Salmon每个样本结果在单独目录,这里 parentDir是这些目录的上级目录,能包含所有结果。
导入后会被保存到列表对象。包含每个转录本的 read counts和丰度 TxPM以及有效长度等信息。
用 importRdata函数整合所有需要的信息,包括表达数据、实验设计(Design Matrix)、注释信息等。
这里 isoformNtFasta是每个转录本的 fasta序列文件,在 Salmon建立索引时也要用到。完成后返回 switchAnalyzeRlist对象。
进行过滤,减少下游分析计算量。
分析差异表达的 isoform(差异可变剪切分析)。
这里 alpha是调整后 P值阈值。
ORF分析和取得序列,包括将 ORF序列翻译到氨基酸。
文件将被输出到 pathToOutput指定目录,输出的文件可以供 CPAT, Pfam, SignalP等分析。这些软件的分析结果,接下来整合到 switchAnalyzeRlist对象里。
注:到这里就用输出的序列文件自行做 CPAT, Pfam, SignalP分析,取得这些分析结果后再往下继续可变剪切分析。当然你也可以不做这些分析或只做部分,我这里做了 CPAT和 Pfam没做 SignalP分析。
进行可变剪切分析。
这里 consequencesToAnalyze根据已经整合的注释数据进行选择,我这里整合了 CPAT结果就可以加入 coding_potential分析。没有整合 SignalP结果,就不能进行 signal_peptide_identified分析。
输出可变剪切结果图, n是数目 Inf代表输出所有结果。
输出所有的可变剪切事件后,可以查看自己感兴趣的基因/事件。下面是我这次结果的几个图。从图中可以查看每个 isoform结构以及被样本使用情况以及组间是否显著差异。
下面的函数可以查看基因组总体的可变剪切分析。
SplicingSummary图示例:
第二个图画的是 prop.test函数结果。表明 gain/loss占比是否显著的改变。0.5表示占比没有改变。
各简写含义:
[参考]
IsoformSwitchAnalyzeR.utf8
上一篇:survivors游戏攻略g5
下一篇:switch剪纸游戏 攻略