Clustal Omega—广泛使用的多序列比对工具
工欲善其事必先利其器
Clustal Omega
Clustal Omega 是一款用于蛋白质和 DNA/RNA 的通用多序列比对(Multiple Sequence Alignment, MSA)工具,由爱尔兰都柏林大学的研究团队开发。
功能&优势:
- 多序列比对:支持蛋白质或核酸序列的比对,适用于同源序列分析、保守区域识别等。
- 渐进式比对算法:基于 Clustal 系列经典算法改进,结合 MUSCLE 和 Clustal W 的优势,采用分阶段策略(树状聚类+迭代优化),平衡速度与精度。
- 支持大规模数据:优化了内存和计算效率,可处理数百至数千条序列(取决于长度),适合中等规模数据集
- 用户友好性:提供命令行(
clustalo
)、在线版(EMBL-EBI服务器);支持主流格式输入输出(FASTA、Clustal、Phylip、Stockholm 等)。
主要用途:
- 确认:一个未知的序列是否属于某个家族
- 建立:系统发生树,查看物种间或者序列间的关系,为构建进化树提供高质量的序列比对结果
- 模式识别:一些特别保守的序列片段往往对应重要的功能区域,通过多序列比对,可以找到这些保守片段
- 功能注释:通过比对已知功能序列,推测未知序列的功能。
- 其他:预测蛋白质/RNA二级结构 等等
局限性
- 超大规模数据:对超过 10,000 条序列的数据集,速度和内存效率可能不如 MAFFT 或 Kalign。
- 长序列处理:对超长序列(如基因组级别)的比对效果可能不如专门工具(如 MUMmer、LAST)。
官网:/
如何安装
安装可以说非常简单,下载文件,放到指定位置,赋予执行权限即可。
代码语言:javascript代码运行次数:0运行复制wget -c .2.4-Ubuntu-x86_64
#下载后,放到指定位置,为了后续调用可以重命名
cp clustalo-1.2.4-Ubuntu-x86_64 ../bin/clustalo
##赋予执行权限
chmod +x clustalo
linux版本安装
基本使用
注意一定要设置线程调用,不然会默认调用服务器所有可用资源。
代码语言:javascript代码运行次数:0运行复制clustalo --threads=8 -i ./exercise1.fasta -v --resno --output-order tree-order -o ./exercise1_3.clustal_num --outfmt=clu
##参数
-i #输入文件
-t #指定序列类型{Protein, RNA, DNA}(默认自动检测)
--infmt #指定输入文件格式(默认自动检测) {a2m=fa[sta],clu[stal],msf,phy[lip],selex,st[ockholm],vie[nna]}
-o #指定多序列比对结果输出文件(默认输出到标准输出)
-outfmt #设置输出文件格式 {a2m=fa[sta],clu[stal],msf,phy[lip],selex,st[ockholm],vie[nna]}
--output-order #控制输出序列顺序。input-order:保持输入文件的序列顺序。tree-order:按引导树中的聚类顺序排列(近缘序列连续输出)
--resno #在Clustal格式输出残基编号,默认不输出
-v #输出程序进度
-l #指定日志输出
--maxnumseq=<n> #限制输入序列的最大数量。默认无限制(取决于内存和计算资源)。限制单条序列的最大长度。
--maxseqlen=<l> #限制单条序列的最大长度。默认无限制,避免超长序列导致计算效率下降。
--threads=<n> #设置并行计算的线程数。默认调用所有
Clustal格式
- "*" :代表完全保守的一列,也即这一列字母完全相同
- ”:“ :代表这一列的残基有大致相似的分子大小及相同的亲疏水性,也即这一列的字母要么相同要么相似
- "." :代表这一列残基的分子大小及亲疏水性被一定程度上保留了,但是有替换发生在不相似的残基间,也即这一列的
输出文件格式有多种可选:
- 标准的Clustal格式
- FASTA格式
- 下一步建树所需的Phylip格式
可选输出格式
多序列比对部分注意事项: 1)、做多序列比对的序列个数不能太多。 2)、关系太远的序列不适合做多序列比对。两两之间序列相似度低于30%的一组序列,做多序列比对要么做不出来,要么即使勉强做出来了,也意义不大。 3)、关系太近的序列不适合做多序列比对。两两之间序列相似度大于90%的序列,有再多条都只等于一条。做出来的多序列比对无非就是把各条序列抄写了一遍,没有任何意义。 4)、序列太短不行。多序列比对支持一组差不多长的序列,个别很短的序列纯属捣乱分子。 5)、有重复域的序列不行。如果序列里包含重复片段,大多数多序列比对的程序都会出错,甚至崩溃。
结果可视化
Jalview
可视化这里我们使用多序列比对编辑器Jalview 。网页版(/) 就可以简单查看,当然也可以下载桌面端查看。
调整配色方案为 "Clustax"
Clustal Omega 网页端
如果你的数据量很小,直接使用网页端,也很方便。
- 上传序列文件,要求不超过4M
- 选择序列类型
- 其余选择默认参数即可(可以按需修改输出格式和输出顺序)
- 提交运行
网页端clustal
任务运行
运行结束
Clustal格式的结果文件
结果文件
在结果可视化界面,可以直接发送到MView 可视化查看结果
提交任务
Mview结果
参考:
- ;outVendor=zw_mooc_pcssjg_
发布评论