长读长测序揭示结直肠癌异常可变剪接图谱与新型治疗靶点
徐州医科大学肿瘤研究所董东/郑骏年教授团队在Genome Medicine杂志发表题为“Long-read sequencing reveals the landscape of aberrant alternative splicing and novel therapeutic target in colorectal cancer”的文章。该团队利用长读段测序技术,对结直肠癌(colorectal cancer,CRC)的转录组复杂性进行了深入研究。
研究背景
结直肠癌(colorectal cancer,CRC)是一种常见的恶性肿瘤,其发病率和死亡率均较高。虽然已有一些治疗策略,但许多患者在接受治疗后仍会出现复发或转移,因此需要更深入的了解CRC的发病机制以开发更有效的治疗策略。在基因表达水平上,剪接的复杂性在癌症发生和进展中起着至关重要的作用。因此,对新的剪接事件和潜在的调节机制的深入了解可能为开发治疗CRC的新策略提供新的见解。利用长读段测序技术研究CRC中的转录组复杂性,鉴定新的剪接事件,并探索其功能和调节机制,为开发新的治疗策略提供理论基础。
研究方法
ONT全长转录组测序是指基于牛津纳米孔公司(ONT)三代测序平台进行的全长转录组测序。ONT(纳米孔)测序是一种基于单分子实时电信号的高通量测序技术,适用于DNA/RNA的快速序列分析。该技术通过纳米孔通道,在电压差的作用下,带动DNA/RNA链通过通道,利用不同碱基的电学信号差异实时测定序列。基于递归神经网络(RNN)的复杂算法,ONT能够根据电流信号判定不同的碱基类型,完成序列测定。该技术可准确分析可变剪接、融合基因和鉴定新异构体,实现转录本的表达水平准确定量。
该研究长读长转录组数据分析流程首先使用albacore v1.1.0和Guppy v3.3.0进行碱基识别,porechop v0.2.4去除接头,并通过Nanofilter v2.8.0进行质控。接着,使用minimap2 v2.2.14(参数-ax splice)将质控后的ONT读长比对至hg38参考基因组,并用NanoStat v1.5.0进行统计。利用FLAIR correct v1.5.0,并结合GENCODE v34注释或Illumina短读长数据(要求≥3条支持)校正剪接位点。随后,采用FLAIR collapse v1.5.0(默认设置,包括-n best_only参数,并要求转录本有≥3条高比对质量(MAPQ≥1)的读长支持)组装转录本,生成参考转录组。使用SQANTI3 v1.6.1(基于GENCODE v34)进行转录本注释、分类和质量评估,并通过Fusionseeker v1.0.1检测基因融合。对转录本进行严格过滤:所有剪接点需≥5条短读长支持,转录本在≥10%样本中检出,且具有基于poly(A)位点数据库和注释TTS位置判断的可靠3'末端。利用Salmon v0.10.0和StringTie v2.1.2分别计算长读长和短读长数据的TPM。在蛋白质层面,使用transdecoder v5.5.0(最小ORF长度300bp)预测ORF,通过blastp v2.11.0(E-value<1e-5)比对UniProt数据库和hmmer v3.2.1比对PFAM数据库进行功能注释,并用bigWigAverageOverBed v377计算phyloP和phastCons保守性得分。最后,整合CPTAC的MS/MS数据,使用Maxquant v1.6.10.43(肽段长度≥7 AAs,允许多种修饰和1次错切,FDR<0.01)进行肽段鉴定,并将蛋白根据来源分为ONT_only、ONT+Uniprot和Uniprot_only三组,同时利用DeepLoc和TMHMM预测亚细胞定位和跨膜结构域。
研究结果
1、 使用长读长和短读长测序方法分析结肠癌转录组
研究团队针对78例结肠癌(CRC)患者的癌组织及10例癌旁正常组织,采用ONT三代全长转录组和二代普通转录组测序进行转录组分析(图1A)。通过该研究,团队成功获得了792万个ONT长reads,每个样本的平均reads长度达到1.02 kb。基于GENCODE v34参考转录组,研究团队共鉴定出90,703个转录本(图1B),这些转录本分别定位到18,024个已注释基因和2796个新基因位点。值得注意的是,近60%的基因具有两个或更多的转录本(图1C)。转录本主要分为四种类型:37%为FSM(全匹配转录本)、40%为NIC(新型内含子组合转录本)、17%为NNC(新型非编码转录本)以及0.2%为ISM(内含子保留转录本)。与现有转录组数据库相比,超过62%的转录本为新发现的,其中主要为NIC和NNC类型。进一步分析表明,这些新转录本可能具有样本特异性,能够在较低表达水平上包含更多的外显子。为验证ONT三代全长转录组测序转录本的可靠性,研究团队对比ONT三代全长转录组和二代普通转录组。结果显示,84%的FSM转录本、71%的NIC转录本和55%的NNC转录本在与二代测序鉴定结果一致(图1D),新转录本的5 '端也显示出与FSM转录本相当的质量(图1E)。
2、ONT全长测序鉴定的新转录特征
在对56,790个新发现的结直肠癌(CRC)转录本进行分析后,发现其中36,489个(64%)被归类为无编码(NNC)转录本,15,640个(27%)为有编码(NIC)转录本,揭示了CRC转录组的复杂性。新转录本通常具有更多外显子,但其编码序列较短,并且有更高的可能性包含提前终止密码子,提示这些转录本可能通过无义介导的mRNA降解(NMD)途径被处理。与已知转录本相比,新转录本的表达水平较低。通过比较长读长(ONT)和短读长(Illumina)平台的基因及转录本表达水平,结果表明两者高度一致,且新转录本的平均表达水平低于已知转录本。进一步的通路富集分析发现,高增量新剪接异构体的基因主要与癌症相关的信号通路,如RNA剪接、TGF、JAK/STAT及MYC通路密切相关,其中一些癌基因如CDH17、EZH2和ERBB2显示出较多的新异构体。为了评估非编码转录本的功能,我们还分析了这些转录本的进化保守性,结果表明新转录本的序列保守性较随机对照区域高。对具有较高编码潜力的转录本进行开放阅读框(ORF)分析,发现大多数新转录本具有编码蛋白质的潜力,且其ORF与UniProt数据库中的蛋白质具有较高的相似性。通过LC-MS/MS数据进一步验证,发现3729个NIC转录本和817个NNC转录本编码的ORF得到了质谱支持,表明这些新转录本可能在癌症中新抗原的产生中发挥作用。最后,我们还发现了4538个基因融合事件,其中一些频繁出现的融合事件,如ARHGEF3-CNTNAP2、A2MP1-PTMA和ACAT2-TCP1,可能在CRC中具有重要意义。总体而言,这些结果揭示了CRC转录组中大量未被充分认识的“暗物质”可能在癌症发生和进展中扮演关键角色。
3、 CRC中选择性剪接事件的鉴定
我们基于ONT长读长数据,使用SUPPA2软件注释并量化了七种可变剪接(AS)事件,包括外显子跳跃(SE)、可变3'剪接位点(A3)、可变5'剪接位点(A5)、可变首外显子(AF)、可变末外显子(AL)、内含子滞留(RI)及互斥外显子(MX)(图3A)。共鉴定出2,363,976个AS事件,其中AF事件占比最高,使用GENCODE v34参考仅能识别565,952个。通过过滤条件(PSI频率≥75%,平均PSI≥0.05),最终筛选得到1,085,182个高可信度AS事件,其中352,238个为参考注释事件。UpSet图显示6725个基因同时拥有七类AS事件,超过90%的基因具有两个以上的AS事件(图3B),显著丰富了CRC转录组的多样性。
进一步分析发现,共识别出25,002个差异可变剪接事件(DEAS),其中AF事件占比最大(8898个,占35.59%)(图3C),且ΔPSI在不同AS类型间无显著差异。基于DEAS事件PSI值的无监督聚类可清晰区分肿瘤与正常样本。对发生DEAS事件的母基因进行GSEA分析,发现其富集于多个关键癌症通路,如G2/M细胞周期检查点、E2F、MYC、纺锤丝、MTORC1等(图3D)。不同类型的AS事件还展现出特异性的通路富集特征,如AF事件显著富集于WNT通路,RI事件则特异性富集于p53通路。进一步识别出多个在MYC通路中发生显著AS改变的关键基因,如_EIF4H_(特异性失去RI事件)、_YWHAE_(AF事件差异显著)、_XPO1_(SE事件)、_EEF1B2_(A3事件)(图3E),提示DEAS事件可能通过调控多种癌症相关通路参与CRC的发生发展。
此外,剪接因子(SFs)在调控RNA剪接中发挥关键作用。我们在67个已知SF基因中鉴定出17个在肿瘤与正常样本间差异表达。进一步构建的SF调控网络显示,13个差异表达的SFs(11上调,2下调)调控了数千个DEAS事件。其中_ELVAL3_与_QKI_调控的DEAS事件和相关通路最多,可能是CRC中关键的调控因子。这些SFs调控的DEAS事件富集于多种癌代谢相关通路,如缺氧、HIF1A信号通路与核糖体功能等。综上,这些结果表明SFs通过调控AS事件广泛参与CRC的代谢重编程及癌症发生,_ELVAL3_、_QKI_、_RBM5_、_HNRNPA1_与_SF1_等核心SF基因可能在CRC进展中扮演重要角色。
4、可变剪接事件相关的临床分析
我们通过单因素Cox分析探索了可变剪接(DEAS)事件与结直肠癌(CRC)患者预后的关系,共鉴定出1472个与预后相关的DEAS事件,涉及1241个基因,其中809个DEAS事件与良好预后相关,663个与差预后相关。特别是,38个基因同时表现出良好和差预后的DEAS事件。其中_FHL2_基因的四个AS事件与CRC患者的总生存期相关,部分剪接事件与较短生存期相关,而其他事件则与较长生存期相关(图4B–D)。这些结果表明,DEAS事件可能作为CRC的预后生物标志物。进一步分析发现,癌症晚期(AJCC III/IV期)与早期(AJCC I/II期)CRC患者的DEAS事件存在显著差异,共识别出998个差异事件,显示AS调控与CRC进展密切相关。此外,我们还分析了CRC远处转移样本中的DEAS,发现596个事件上调,583个事件下调。对于微卫星不稳定性(MSI),我们预测MSI-H患者的DEAS事件上调744个,下调633个,暗示AS异常可能与免疫治疗反应相关。最后,通过对CRC分子亚型(CMS)的分析,我们发现特定亚型(如CMS1、CMS2、CMS3、CMS4)存在特有的AS事件,并且部分AS事件与肿瘤微环境中的间质成分和免疫细胞浸润密切相关。综上,AS事件在CRC的进展、预后以及治疗选择中发挥重要作用,可能成为潜在的生物标志物和治疗靶点。
5、CRC 中 TIMP1 外显子 4-5 剪接失调
研究发现,利用ONT长读长测序数据首次鉴定出人 TIMP1 基因存在一种跳过外显子4-5的可变剪接新转录本(TIMP1 Δ4-5)(图5A)。在结直肠癌(CRC)样本中,该外显子4-5跳跃事件的PSI值显著升高(图3C,图5B)。进一步利用Illumina短读长数据分析发现,在CRC组织中,包含外显子4-5的全长转录本(TIMP1-FL)的mRNA表达水平显著上调,而跳过外显子4-5的转录本(TIMP1 Δ4-5)的表达水平则显著下调(图5C, D)。生存分析显示,TIMP1-FL 的高表达与较差的总生存期相关,而 TIMP1 Δ4-5 的高表达则与较好的生存期相关(图5C, D)。通过设计特异性引物(图5E)并结合Sanger测序(图5F)、RT-PCR和qRT-PCR(图5G, H)在细胞系和临床样本(图5I)中验证了这一现象,结果表明 TIMP1-FL/TIMP1 Δ4-5 的比值在CRC组织中显著升高。综上所述,这些数据揭示了 TIMP1 基因外显子4-5的可变剪接失调存在于CRC样本中,并可能影响患者预后。
6、TIMP1、Δ4-5 和 TIMP-FL 在 CRC 癌变中具有相反的功能
为探究 TIMP1 两种主要转录本 TIMP1-FL 和 TIMP1 Δ4-5 在结直肠癌(CRC)中的功能,研究人员在CRC细胞系(SW480 和 HCT-8)中进行了过表达实验(效率验证见附加文件1:图S9d)。结果显示,过表达 TIMP1 Δ4-5 显著抑制了细胞的生长、迁移和侵袭,而过表达 TIMP1-FL 则显著促进了这些恶性行为,这与先前研究一致(图6A–D)。反之,利用靶向外显子3/6连接处的siRNA特异性敲低 TIMP1 Δ4-5 后(不影响 TIMP1-FL 表达),细胞的增殖、迁移和侵袭能力显著增强。进一步的体内实验表明,在裸鼠异种移植瘤模型中,过表达 TIMP1 Δ4-5 的细胞形成的肿瘤体积显著小于对照组(图6E–H)。综上所述,这些数据表明 TIMP1-FL 和 TIMP1 Δ4-5 在CRC的发生发展中扮演着截然不同的角色,TIMP1 Δ4-5 可能作为一种潜在的肿瘤抑制因子在CRC中发挥作用。
7、SRSF1调节TIMP1 Δ4-5可变剪接事件
为了探究剪接因子对TIMP1外显子 4–5 包含的调控机制,研究首先通过 RBPmap 预测(图 7A)并结合敲低实验与 RIP 实验(图 7B),证实了 SRSF1 是一个关键的调控因子。进一步实验发现,在 CRC 细胞中敲低 SRSF1 会显著降低 TIMP1-FL(全长)的表达,增加 TIMP1 Δ4-5(外显子 4-5 缺失)的表达,从而显著降低 TIMP1-FL/TIMP1-Δ4-5 的比例(图 7C, D),而总 TIMP1 水平不变。此外,研究还发现 SRSF1 在 CRC 组织中显著上调,敲低 SRSF1 会抑制 CRC 细胞的生长、迁移和侵袭,而这种抑制作用可以通过同时敲低 TIMP1 Δ4-5 来逆转(图 7E, F, G)。总而言之,这些结果共同表明,SRSF1 在结直肠癌中通过促进 TIMP1 基因的外显子 4–5 包含,进而促进了肿瘤的恶性进展。
8、靶向TIMP1可变剪接位点在CRC治疗的潜在价值
本研究利用 CRISPR/dCasRx 系统,设计了针对 TIMP1 前体 mRNA 不同位点的六种 gRNA,并在 SW480 细胞中进行了测试。结果显示,靶向外显子 4-5 供体和受体剪接位点的 gRNA#1 和 gRNA#2 能显著诱导该外显子的跳跃,使 TIMP1 全长转录本(TIMP1-FL)与跳跃转录本(TIMP1 Δ4-5)的比率降低近 50%(图 8A)。进一步的功能实验表明,诱导 TIMP1 外显子 4-5 跳跃显著抑制了 SW480 和 HCT-8 细胞的迁移、侵袭(图 8B-D)以及增殖能力(图 8E)。在体内实验中,通过给裸鼠皮下移植瘤注射 dCasRx-TIMP1 载体,也观察到肿瘤生长受到明显抑制(图 8F-J)。综上所述,基于 CRISPR/dCasRx 诱导 TIMP1 外显子 4-5 跳跃的策略,在抑制结直肠癌(CRC)生长方面展现出潜力。
总结
本研究结合长读长和短读长测序技术,系统解析了结直肠癌(CRC)的转录组复杂性,鉴定出90,703个转录本(62%为新发现)。研究发现新转录本多呈低表达、多外显子特征,且与患者预后显著相关。其中,新剪接变体TIMP1 Δ4-5在CRC中显著下调,功能实验证实其过表达可抑制肿瘤生长和转移。机制上,SRSF1通过调控TIMP1外显子4-5的剪接促进肿瘤进展。基于此,研究开发了CRISPR/dCasRx靶向剪接编辑策略,成功诱导外显子排除并抑制肿瘤生长。该工作不仅为CRC提供了新的预后标志和治疗靶点(如TIMP1 Δ4-5),也为肿瘤剪接调控研究提供了重要资源。
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。原始发表:2025-04-23,如有侵权请联系 cloudcommunity@tencent 删除数据异常crc编码事件
发布评论