Clustal Omega—广泛使用的多序列比对工具

工欲善其事必先利其器

Clustal Omega

Clustal Omega 是一款用于蛋白质和 DNA/RNA 的通用多序列比对(Multiple Sequence Alignment, MSA)工具,由爱尔兰都柏林大学的研究团队开发。

功能&优势

  • 多序列比对:支持蛋白质或核酸序列的比对,适用于同源序列分析、保守区域识别等。
  • 渐进式比对算法:基于 Clustal 系列经典算法改进,结合 MUSCLE 和 Clustal W 的优势,采用分阶段策略(树状聚类+迭代优化),平衡速度与精度。
  • 支持大规模数据:优化了内存和计算效率,可处理数百至数千条序列(取决于长度),适合中等规模数据集
  • 用户友好性:提供命令行(clustalo)、在线版(EMBL-EBI服务器);支持主流格式输入输出(FASTA、Clustal、Phylip、Stockholm 等)。

主要用途

  • 确认:一个未知的序列是否属于某个家族
  • 建立:系统发生树,查看物种间或者序列间的关系,为构建进化树提供高质量的序列比对结果
  • 模式识别:一些特别保守的序列片段往往对应重要的功能区域,通过多序列比对,可以找到这些保守片段
  • 功能注释:通过比对已知功能序列,推测未知序列的功能。
  • 其他:预测蛋白质/RNA二级结构 等等

局限性

  • 超大规模数据:对超过 10,000 条序列的数据集,速度和内存效率可能不如 MAFFT 或 Kalign。
  • 长序列处理:对超长序列(如基因组级别)的比对效果可能不如专门工具(如 MUMmer、LAST)。

官网:/

如何安装

安装可以说非常简单,下载文件,放到指定位置,赋予执行权限即可。

代码语言:javascript代码运行次数:0运行复制
wget -c .2.4-Ubuntu-x86_64

#下载后,放到指定位置,为了后续调用可以重命名
cp clustalo-1.2.4-Ubuntu-x86_64 ../bin/clustalo

##赋予执行权限
chmod +x clustalo
linux版本安装

linux版本安装

基本使用

注意一定要设置线程调用,不然会默认调用服务器所有可用资源。

代码语言:javascript代码运行次数:0运行复制
clustalo --threads=8 -i ./exercise1.fasta -v --resno --output-order tree-order -o ./exercise1_3.clustal_num --outfmt=clu

##参数
-i #输入文件
-t #指定序列类型{Protein, RNA, DNA}(默认自动检测)
--infmt #指定输入文件格式(默认自动检测) {a2m=fa[sta],clu[stal],msf,phy[lip],selex,st[ockholm],vie[nna]} 

-o #指定多序列比对结果输出文件(默认输出到标准输出)
-outfmt #设置输出文件格式 {a2m=fa[sta],clu[stal],msf,phy[lip],selex,st[ockholm],vie[nna]}
--output-order #控制输出序列顺序。input-order:保持输入文件的序列顺序。tree-order:按引导树中的聚类顺序排列(近缘序列连续输出)
--resno #在Clustal格式输出残基编号,默认不输出
-v #输出程序进度
-l #指定日志输出

--maxnumseq=<n> #限制输入序列的最大数量。默认无限制(取决于内存和计算资源)。限制单条序列的最大长度。
--maxseqlen=<l> #限制单条序列的最大长度。默认无限制,避免超长序列导致计算效率下降。
--threads=<n> #设置并行计算的线程数。默认调用所有
image.png
Clustal格式

Clustal格式

  • "*" :代表完全保守的一列,也即这一列字母完全相同
  • ”:“ :代表这一列的残基有大致相似的分子大小及相同的亲疏水性,也即这一列的字母要么相同要么相似
  • "." :代表这一列残基的分子大小及亲疏水性被一定程度上保留了,但是有替换发生在不相似的残基间,也即这一列的

输出文件格式有多种可选:

  • 标准的Clustal格式
  • FASTA格式
  • 下一步建树所需的Phylip格式
可选输出格式

可选输出格式

多序列比对部分注意事项: 1)、做多序列比对的序列个数不能太多。 2)、关系太远的序列不适合做多序列比对。两两之间序列相似度低于30%的一组序列,做多序列比对要么做不出来,要么即使勉强做出来了,也意义不大。 3)、关系太近的序列不适合做多序列比对。两两之间序列相似度大于90%的序列,有再多条都只等于一条。做出来的多序列比对无非就是把各条序列抄写了一遍,没有任何意义。 4)、序列太短不行。多序列比对支持一组差不多长的序列,个别很短的序列纯属捣乱分子。 5)、有重复域的序列不行。如果序列里包含重复片段,大多数多序列比对的程序都会出错,甚至崩溃。

结果可视化

Jalview

可视化这里我们使用多序列比对编辑器Jalview 。网页版(/) 就可以简单查看,当然也可以下载桌面端查看。

调整配色方案为 "Clustax"

Clustal Omega 网页端

如果你的数据量很小,直接使用网页端,也很方便。

  • 上传序列文件,要求不超过4M
  • 选择序列类型
  • 其余选择默认参数即可(可以按需修改输出格式和输出顺序)
  • 提交运行
网页端clustal

网页端clustal

任务运行

任务运行

运行结束

运行结束

Clustal格式的结果文件

结果文件

结果文件

在结果可视化界面,可以直接发送到MView 可视化查看结果

提交任务

提交任务

Mview结果

Mview结果

参考:

  • ;outVendor=zw_mooc_pcssjg_
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。原始发表:2025-04-15,如有侵权请联系 cloudcommunity@tencent 删除可视化内存数据效率工具