首页 > 分享 > 项目文章 | 易现峰教授团队成功组装全球首例花鼠属物种的染色体水平基因组

项目文章 | 易现峰教授团队成功组装全球首例花鼠属物种的染色体水平基因组

2022年12月24日,曲阜师范大学易现峰教授团队在Nature子刊“Scientific Data”上发表了一篇题为“Chromosome-level genome assembly of the Siberian chipmunk (Tamias sibiricus)”的文章,该研究利用Illumina测序、PacBio测序和Hi-C测序技术成功组装了西伯利亚花栗鼠染色体水平的基因组,这一参考基因组将成为深入研究西伯利亚花栗鼠基本生物学特性和环境适应的宝贵资源。

标题:Chromosome-level genome assembly of the Siberian chipmunk (Tamias sibiricus)

期刊:Scientific Data(IF 8.501)

时间:2022年12月24日

研究背景 Origingene

西伯利亚花栗鼠(Tamias siBiricus)隶属于啮齿目西伯利亚花栗鼠亚科。几十年来,它作为宠物被引入欧洲国家,意外逃脱的个体成功地在野外建立了自己的种群。在过去的几十年里,对西伯利亚花栗鼠的研究主要集中在生物学、行为学、生态学和系统地理学方面,但由于分子信息有限,对其环境适应的遗传基础和机制知之甚少。在本研究中,我们使用短读长(Illumina)测序、长读长(Pacbio)测序和Hi-C辅助组装的结合,为西伯利亚花栗鼠构建了高质量的基因组组装。这一参考基因组将成为深入研究西伯利亚花栗鼠基本生物学特性和环境适应的宝贵资源,并促进与啮齿目其他物种的比较基因组分析。

研究方法 Origingene

样本采集

本研究于2020年10月在内蒙古自治区(41°39‘N,118°22’E)赤峰市某林场采集到1只成年雌性标本,并在提取DNA之前保存在−80°C。取雌体肌肉组织进行转录组、全基因组测序。

研究方法

全基因组测序、转录组测序(由上海元莘生物提供技术支持)

研究结果 Origingene

1. 基因组Survey和组装

本研究首次生成短读长Illumina数据共132.39 Gb,以获得对基因组特征的初步了解(表1)。基于K-mer分析(图1),估计西伯利亚花栗鼠的基因组大小为2.51 Gb,基因组杂合率为0.21%。利用Pacbio测序,获得了大约111.63 Gb的数据。基于Pacbio测序数据进行基因组组装,组装后总长度为2.65 Gb,其重叠群N50为9.40Mb。

为了进一步提高基因组组装的质量和准确性,使用Illumina测序数据来校正基因组,校正后基因组大小为2.64 GB,N50长度为9.43 Mb。最后,进行了Hi-C挂载,基于Hi-C测序产生了217.38 Gb的数据,98.03%的组装重叠群锚定在19条染色体上(图2)。最终的基因组组装为2.64Gb,contig N50为172.61 Mb(表2)。

表1 各文库数据统计

图1 西伯利亚花栗鼠基因组K-mer分析

表2 花栗鼠基因组组装信息统计

图2 互作矩阵构建

2. 染色体共线性

用LASTZ v1.02.0018软件对西伯利亚花栗鼠与另外两个地松鼠亚科(欧亚红松鼠和灰松鼠)进行了染色体共线性分析。如图3所示,西伯利亚花栗鼠的所有19条染色体与另外两只松鼠的染色体高度同源,并且有两条染色体(欧亚红松鼠的chr11和chr15,灰松鼠的chr11和chr14)与西伯利亚花栗鼠的染色体(chr11)融合在一起。先前使用跨物种染色体绘制的研究表明,在啮齿动物(啮齿类和兔形类)的二倍体染色体数量不同,西伯利亚花栗鼠有38条染色体。有趣的是,这种变异似乎遵循一定的模式,如32、34、36、38、40号染色体。结合我们的染色体共性结果,在啮齿动物的基因组进化过程中,染色体的融合和分裂可能会频繁发生。因此,需要进一步的研究来确定染色体重排和进化的分子机制,并获得更多的染色体水平的基因组数据。

图3 西伯利亚花栗鼠与另外两种地松鼠亚科的基因组共线性

3. 重复序列注释

基因组组装完成后,对该基因组进行基因组注释(重复序列、非编码RNA(ncRNAs)和蛋白质编码基因(PCGs)注释)。其中,重复序列共注释到1.03 Gb,占西伯利亚花栗鼠基因组的38.87%。主要的四类转座元件(TES)包括长散在重复序列(LINE,18.63%)、DNA转座子元件(2.71%)、长末端重复(LTRS,10.11%)和短散在重复元件(SINES,8.90%)(表4和图4)。ncRNAs注释到6,265个tRNAs,830个小核RNAs(snRNAs),92个核糖体RNAs(rRNAs)和595个microRNAs(mi RNAs)。

表4 西伯利亚花栗鼠基因组中的重复序列注释

图4 西伯利亚花栗鼠的基因组特征

4. 蛋白质编码基因(PCGs)注释

基于转录组测序数据的注释,利用组装好的西伯利亚花栗鼠的基因组作为参考基因组,从NCBI数据库下载五种啮齿类模式物种(Cricetulus griseus,Dipodomys ordii,Ictidomys tridecemlineatus,Marmota marmota,Rattus norvegicus)的蛋白质序列。结果表明,PCGs注释共注释到了25,311个蛋白质编码基因,平均长度为32,936bp;每个基因的平均外显子数为7.52bp,平均外显子长度为171.85bp,平均内含子长度为4850.84bp。另外,研究还通过五个公共数据库(NCBI、Swissprot、Pfam、NR、KEGG和GO数据库)对上述注释的PCGs进行注释,结果显示,有23,995个(94.73%)成功注释到了至少一个同源基因中。经BUSCO分析,结果显示BUSCO数据库(哺乳动物_odb10)中94.4%的基因都被完整的注释(完整的单拷贝基因92.2%,片段化基因1.5%),进一步强调了基因预测的准确性和完整性。

5. 基因家族

使用OrthoFinder v2.3.8软件推断基因家族,利用西伯利亚花栗鼠基因组中的蛋白质序列和19种啮齿动物基因组中的高质量蛋白质注释序列进行了分析,研究共鉴定出20,952个基因家族,共获得433,351个基因,基因家族分析还表明,单拷贝直系同源基因为5,277个。在西伯利亚花栗鼠的25,311个基因中,18,863个基因为15,629个orthogroups,148个基因家族和502个基因为西伯利亚花栗鼠所特有。

研究结论 Origingene

本研究使用Illumina测序、PacBio测序和Hi-C测序技术组装了西伯利亚花栗鼠染色体水平的基因组。组装获得西伯利亚花栗鼠基因组大小为2.64G,contig N50长度为172.61 Mb。基于Hi-C测序产生了217.38 Gb的数据,98.03%的组装重叠群锚定在19条染色体上。另外,研究同时注释了25,311个蛋白质编码基因,平均长度为32,936bp,其中94.73%的基因进行了功能注释。这一参考基因组将成为深入研究西伯利亚花栗鼠基本生物学特性和环境适应的宝贵资源,并促进与啮齿目其他物种的比较基因组分析。

文献链接

https://doi.org/10.1038/s41597-022-01910-5

责任编辑:

相关知识

项目文章 | 易现峰教授团队成功组装全球首例花鼠属物种的染色体水平基因组
【科技日报】现生鸟类“亲戚”关系如何?万种鸟基因组图谱提供重要线索
“万种鸟类基因组计划”获新进展:已完成363种鸟类基因组数据“解码”
第一届万种鸟类基因组项目研讨会在京召开—新闻—科学网
Science:三项鸟类全基因组测序研究
苹果属植物染色体基数X=17起源的细胞遗传学研究
仓鼠属三个种的核型分析
中国科学院昆明动物研究所
蜘蛛也有自己的个性?行为研究和基因组学来揭晓
家犬基因组研究国际联盟发表dog10K计划白皮书

网址: 项目文章 | 易现峰教授团队成功组装全球首例花鼠属物种的染色体水平基因组 https://m.mcbbbk.com/newsview435837.html

所属分类:萌宠日常
上一篇: 金花鼠
下一篇: 《危险又快乐之花栗鼠》搞笑动物世