延庆网站制作,搜索引擎优化的基础是什么,我有网网站建设,什么是网络推广Analyses of a chromosome-scale genome assembly reveal the origin and evolution of cultivated chrysanthemum
分析染色体级别的基因组装配揭示了栽培菊花的起源和进化
六倍体植物基因组的文献#xff0c;各位同仁还有什么有特色的基因组评论区留言~ 摘要
菊花#xf…Analyses of a chromosome-scale genome assembly reveal the origin and evolution of cultivated chrysanthemum
分析染色体级别的基因组装配揭示了栽培菊花的起源和进化
六倍体植物基因组的文献各位同仁还有什么有特色的基因组评论区留言~ 摘要
菊花Chrysanthemum morifolium Ramat.是一种具有重要经济、文化和象征价值的全球重要观赏植物。然而由于其复杂的遗传背景对菊花的研究面临着挑战。在这里我们报道了一个几乎完整的 菊花 组装和注释包括27个拟染色体8.15 Gbscaffold N50为303.69 Mb。比较和进化分析揭示了大约600万年前Mya菊花属种共享的一个全基因组三倍体WGT事件以及大约300万年前 菊花 可能的特异系列多倍体化。多级证据表明 菊花 很可能是一个片段性异源多倍体。此外基因组学和转录组学方法的结合展示了 菊花 基因组可以用来识别底层关键观赏性状的基因。CmCCD4a 的系统发育分析追溯了栽培菊花花色育种的历史。这项研究生成的基因组资源有助于加速菊花的遗传改良。
引言
栽培菊花Chrysanthemum morifolium Ramat.中文名“菊花”是一种多年生草本观赏植物属于菊科也称复合花科这是双子叶植物中最大的一个家族拥有超过1600个属和25000种物种。除了其杰出的美丽外栽培菊花在作为菊科的代表时还在开花植物的进化位置上占据关键地位。菊花起源于中国已有超过三千年的栽培历史。从公元8世纪到17世纪数个菊花品种相继被引入日本和欧洲进一步扩展了它们作为观赏用途的育种。目前由于其花型和颜色的显著多样性菊花是全球最经济重要的花卉植物之一占据了花卉产业生产的大部分比例用途包括切花、园艺和盆栽。此外由于其营养和生物活性成分菊花在医药、食品和饮料工业中也有广泛应用。
菊花属拥有超过41种不同染色体倍性的物种从2n2x到10x不等且在该属中天然杂交普遍存在。栽培菊花是一种自交不亲和的复杂六倍体通常显示出54的染色体数。然而菊花是否应被遗传分类为自体多倍体或异源多倍体长期以来一直存在争议。大量研究表明几种野生菊花物种可能对当前复杂的杂交菊花品种有贡献。因此经过长时间的驯化和人工选择栽培菊花现在显示出比菊花属的其他物种更高的观赏特性多样性。然而菊花属的进化历史尚不清楚栽培菊花的实际祖先仍然是一个谜。
可用的高质量参考基因组序列是阐明物种起源和进化历史以及其表型多样性的遗传基础的关键这进一步可以加速未来的育种过程。尽管栽培菊花在经济上和进化上都非常重要但由于其多倍体性、高重复性、高杂合性和大尺寸其基因组尚未被解密。最近报道了两个脚手架级别的菊花基因组即C. nankingense和C. seticuspe以及三个染色体级别的基因组即C. seticuspeC. makinoi和C. lavandulifolium。这些宝贵资源允许我们解析菊花属的进化历史。然而这些基因组都来自二倍体野生物种因此缺乏菊花品种的关键遗传信息使它们不太适合阐明六倍体栽培菊花表型变异的复杂遗传基础。几项转录组研究使我们初步分离出了一些参与调控菊花观赏性状的同源基因但由于缺乏栽培菊花的参考基因组序列通过正向遗传学方法揭示这些性状的新决定因素仍然具有挑战性。
在这里我们使用来自盆栽品种“钟山紫桂”的单倍体系列n3x27呈现了一个菊花的染色体级别基因组组装。我们推断最近的全基因组三倍化WGT和较小规模的复制有助于扩展与菊花花发育相关的已知基因并识别了几个与花瓣形状相关的候选基因。此外我们基于CCD4a基因的系统发育分析追溯了栽培菊花的花色进化历史。菊花参考基因组提供了对菊花属进化的见解并对未来的菊花遗传和分子生物学研究具有价值。
结果
基因组测序、组装和注释
通过使用1070.20 Gb的清洁短读取Supplementary Fig. 2a–d 和 Supplementary Tables 1 和 2进行K-mer分析估计单倍体系列Supplementary Fig. 1b, d的基因组大小约为8.47~8.88 Gb这比流式细胞术估计的大小9.02 GbSupplementary Fig. 2e略小。基因组调查还揭示了菊花中高重复内容的比例72.48% ~ 88.85%Supplementary Table 1。我们最初使用Falcon校正并组装了1022.3 Gb120.70×的PacBio连续长读取CLR成为contig序列并使用Quiver进行了打磨。然后通过与907.5 Gb107.20×来自10X Genomics库的基因组序列整合并使用短读取进行打磨对一致性序列进行了支架。接下来我们使用AllHiC算法根据1002.9 Gb118.50×的Hi-C数据Supplementary Table 2 和 Supplementary Note 1改进了菊花基因组组装。这允许将原始组装序列的96.46%锚定到长度范围从214.51到343.67 Mb的27个拟染色体上Fig. 1a, Table 1 和 Supplementary Tables 3 和 4。菊花最终染色体级基因组组装的contig和scaffold N50大小分别为1.87 Mb和303.69 MbTable 1。Hi-C相互作用热图清楚地展示了这27个拟染色体可以被聚类到九个同源组中Fig. 1b。同源组内的三个拟染色体在大小、基因数量和重复元素内容方面高度相似Supplementary Table 4。每对同源基因对的保守共线性关系和Ka/Ks比率的图表清楚地显示了高度的保守共线性且任意两条染色体之间的整体Ka/Ks比率没有显著差异Fig. 1a。 一个展示单倍体菊花 cv. ‘钟山紫桂’基因组特征的环形图。从外到内的环形轨迹表示a 拟分子b 基因密度c 长终端重复LTR转座子密度d Copia转座子密度e Gypsy转座子密度f DNA转座子密度g GC含量h 在同源染色体组内traid1与traid2或traid3之间识别的同源基因对的Ka/Ksi 在同源染色体组内traid2与traid1或traid3之间识别的同源基因对的Ka/Ksj 在同源染色体组内traid3与traid1或traid2之间识别的同源基因对的Ka/Ksk 不同拟染色体之间的同源基因。橙色线条表示traid1与traid2和traid3之间的同源块绿色线条表示traid2与traid3之间的同源块。b Hi-C热图显示染色体相互作用。每个同源组包含三个拟分子不同同源组之间的连接很少表明高质量的染色体级支架。c 菊花Chr1~27与二倍体C. nankingenseCna1~9之间的基因组比较。来源数据提供为源数据文件。
为评估组装基因组的质量我们将从美国国家生物技术信息中心NCBI数据库下载的105,996个菊花表达序列标签ESTs与组装的基因组进行了比对发现96.43%的ESTs能被映射Supplementary Table 5。BUSCO和核心真核基因映射方法CEGMA分析发现分别有97.70%和98.39%的总真核保守基因在菊花的染色体级基因组中被识别Supplementary Table 6这与C. seticuspe基因组的结果相当但高于其他已发布的菊科物种基因组的百分比Supplementary Data 1。长末端重复LTRs的注释揭示了一个LTR组装指数LAI得分为27.99达到参考基因组的黄金标准与四倍体紫花苜蓿22.30和异六倍体草属植物22.5的得分相当。使用Illumina测序数据评估的高映射率98.81%和高基础准确度估计每1 Mb有57个纯合单核苷酸多态性SNPs0.0057%也支持了最终组装的高保真度Supplementary Table 7。提取并针对组装的基因组映射了最长的10×约80 GbPacBio长读取范围从36.32到156.36 kb大多数82.24%的这些读取可以唯一映射到只有一个染色体上且对齐长度超过80%表明大部分染色体被正确相位。此外82.15%的转录组能被映射回最终组装Supplementary Table 8进一步支持高水平的基因组完整性。综上所述以上结果表明菊花基因组具有高度的连续性和完整性。
此外使用类似的杂交组装策略生成了二倍体C. nankingense2n 2x 18的染色体级组装这是栽培菊花的潜在祖先用于比较研究Supplementary Table 9 和 Supplementary Note 2。基因组组装将2.87 Gb的contigs锚定到9个拟染色体上代表了估计的3.09 Gb C. nankingense基因组的93.16%Supplementary Table 10。高contig N50长度为5.98 Mb和scaffold N50长度为353.78 Mb表明与先前发布的脚手架级C. nankingense基因组相比是一个优越的基因组组装。正如预期的那样互基因组比较分析揭示了菊花和C. nankingense之间明显的3对1的共线性关系。只识别了少数倒置或易位区域Fig. 1c。
基于de novo和同源性预测以及转录组数据Supplementary Note 3我们在菊花基因组中预测了总共138,749个蛋白编码基因这比为其他菊科植物注释的基因数量多得多范围从环球朝鲜蓟的28,310个基因到C. seticuspe的74,259个。总基因区域、编码序列CDSs、外显子序列和内含子序列的平均长度分别为3912、1090、242和806 bpSupplementary Data 2。平均每个预测基因包含4.50个外显子整个基因组的基因密度大约为每58.74 kb一个基因其中134,450个基因96.90%位于染色体锚定的contigs上。如预期基因分布不均朝向染色体臂的末端更为丰富Fig. 1a。大约99.3%的预测蛋白编码基因可以通过在NR90.97%、Swiss-Prot75.58%、GO90.78%、KEGG70.28%、InterPro98.75%和Pfam72.60%数据库的搜索中进行功能注释Supplementary Table 11。此外我们识别了50,848个非编码RNAncRNA基因编码2868个核糖体RNArRNAs、4102个转移RNAtRNAs、2280个微RNAmiRNAs和41,598个小核RNAsnRNAsSupplementary Table 12。使用来自花蕾和九种器官包括根、茎、射击叶和从辐射小花和盘状小花中解剖出的花器官的RNA-seq数据103,28774.44%的已识别基因在至少一种组织中表达57,86941.71%在所有分析的器官中表达Supplementary Table 13。
比较基因组学和进化分析
我们推断了栽培菊花与其他14种植物物种Supplementary Note 4的系统发育位置和分化时间包括7种唇形花序IC. nankingense, C. seticuspe, 向日葵, 生菜, 环球朝鲜蓟, 黄花蒿 和 胡萝卜2种唇形花序II番茄 和 咖啡1种蔷薇目葡萄1种毛茛目耧斗菜2种单子叶植物水稻 和 玉米以及1种基部被子植物珊瑚树。我们构建了一个包含94,552个基因的共识集以代表菊花的单倍体基因组。总共507,449个基因被聚类到48,644个同源基因家族orthogroups中包括6193个由所有15个物种共享的基因家族Supplementary Fig. 3 和 Supplementary Data 3。通过比较七个菊科物种我们识别了所有成员共享的10,234个基因家族和3543个家族这些家族包含9638个基因看起来是菊花独有的Supplementary Fig. 4。此外基因家族进化分析揭示了1684个基因家族在菊花中可能发生了扩展而1926个基因家族显示出收缩Fig. 2a。功能富集分析表明这些扩展的基因家族主要涉及到萜类生物合成过程、生长素代谢过程、激素水平的调节、花青素生物合成过程的调节以及通过同源重组修复双链断裂的调节Supplementary Fig. 5 和 Supplementary Data 4。 a 系统发育树展示了栽培菊花与其他14种开花植物的进化关系。基因家族数量的扩张绿色和收缩红色显示在右侧。一些节点上的红色圆圈代表化石校准点这些点从TIMETREE网站TimeTree :: The Timescale of Life获得。预测的分化时间百万年前Mya以蓝色标记在其他中间节点上估计是通过最大似然PAML括号中的数字是不同类群之间分化时间的95%置信区间。全基因组复制WGD和全基因组三倍体化WGT事件用彩色点标记。b 菊花和其他五种已测序菊科物种内同源旁系基因的Ks分布。多倍体化事件参照峰值。c 菊花与C. nankingense、A. annua、H. annuus、C. cardunculus之间的重复序列比较。d 不同菊科物种中完整LTRs的插入时间分布。源数据提供为一个源数据文件。
正如预期的那样使用491个单拷贝基因家族构建的系统发树图2a与先前的研究一致。分子定年表明菊科Asteraceae与胡萝卜Apiaceae大约在92.4百万年前分化。在菊苣族Anthemideae内栽培菊花从C. nankingense和C. seticuspe的最近共同祖先分化出来约在3.7百万年前这是在大约6.5百万年前黄花蒿Artemisia annua分化之后。菊苣族物种与向日葵Heliantheae大约在34.8百万年前分化的关系比与生菜和环球朝鲜蓟Cichorieae大约在39.3百万年前分化更为密切。
众所周知全基因组复制WGD或全基因组三倍体化WGT事件对于塑造植物基因组的进化和物种形成具有深远影响。我们首先估计了菊花、C. nankingense和C. seticuspe、向日葵和环球朝鲜蓟内的共线旁系基因对的同义替换率Ks值以识别WGD/WGT事件图2b。这些结果与先前的报告一致表明菊花具有复杂的古多倍体历史。除了所有核心真双子叶植物共享的古老WGT-γ事件大约122~164百万年前唇形花序II共享的WGT-1大约57百万年前和向日葵中的WGD-2大约38百万年前我们识别了一个最近的三个菊花属物种共有的特异系列WGD事件大约发生在6百万年前显示出大约0.1的典型Ks峰值与先前的研究一致。此外基因组点图分析清楚地展示了菊花单倍体拟染色体内的3:1共线关系和菊花与环球朝鲜蓟之间的3:1共线关系后者只经历了菊科共享的WGT-1事件。在C. nankingense内部以及C. nankingense与环球朝鲜蓟之间检测到了类似的关系。这些结果提供了额外的证据表明菊花属共同祖先中推断的最近多倍体化事件更可能是WGT事件而非WGD事件此处称为WGT-2。我们还计算了每个九个同源组内旁系基因对的Ks值并在大约0.05大约3百万年前发现了另一个典型峰值表明除了三个菊花属物种共享的特异系列WGT-2事件外菊花经历了一个非常近期的多倍体化事件。这可能是观察到的菊花基因组具有高度保守的三倍体结构而没有显著染色体重排的一个潜在原因。
基因复制被认为是进化的主要动力。在菊花基因组中136,137个重复基因被划分为五个类别即全基因组复制WGD, 61.5%、分散复制DSD, 43.1%、转位复制TRD, 17.0%、近端复制PD, 6.9%和串联复制TD。发现TRD和PD基因对具有更高的Ka/Ks比率表明转位和近端复制是一个持续进行的过程并且通过这两种方式生成的重复体受到了更松弛的选择压力而来自所有五种方式的复制显示出类似的Ks值。值得注意的是通过所有五种方式的复制与不同的GO项富集相关。例如‘WGD基因’显著富集于各种发育过程、转录调节和信号转导的GO项PD基因富集的类别涉及到花粉识别和倍半萜生物合成过程而TD基因被分配到单萜生物合成和萜类代谢过程以及应激反应。萜烯合酶TPSs是绿色植物中萜类化合物生物合成的关键酶。我们发现菊苣族物种的基因组比其他菊科植物含有更多的TPSs特别是对TPS-a和TPS-b亚家族这些主要涉及倍半萜和单萜的合成。识别了几个串联重复的TPS-a和TPS-b基因。特别是13个TPS-a副本和10个TPS-b副本分别密集分布在27号和19号染色体上。
通过ab initio和同源性方法的结合识别了重复序列。总共83.38%的组装序列被注释为重复元素TEs包括79.59%的逆转录转座子、8.63%的DNA转座子和0.92%的简单重复和卫星。据我们所知菊花中识别的TEs比例是已测序菊科物种中最高的从环球朝鲜蓟的58.4%到向日葵的74.7%不等。LTR逆转录转座子被发现构成了菊花基因组的72.96%其中Copia40.40%和Gypsy24.79%亚家族占最大百分比。Copia元素密度从染色体的末端向中心增加而Gypsy元素在染色体上的分布相对均匀。值得注意的是Copia和Gypsy在菊科中的比例存在较大差异。与菊花1.63、C. nankingense1.74、C. seticuspe1.28、C. makinoi3.66和C. lavandulifolium1.3基因组中Copia元素更为丰富的情况相反黄花蒿0.86、向日葵0.26和新发布的Mikania micrantha0.37基因组含有更多的Gypsy元素。这些发现表明LTR/Copia元素的扩增是菊花基因组膨胀的主要驱动力。Copia和Gypsy元素的这些不同行为的机制尚待阐明。我们发现在这三个物种分化后菊花、C. nankingense和向日葵中的LTRs发生了非常近期的爆发0.5百万年前这比在黄花蒿大约1百万年前和环球朝鲜蓟大约2百万年前中识别的LTR爆发略晚。此外菊花中Copia和Gypsy逆转录转座子插入的爆发发生在接近的时间且在Copia/Gypsy爆发的预测时间上各染色体之间没有显著差异。总体而言这些结果表明菊花基因组的特点是活跃的转座并且TE插入的积累是栽培菊花基因组扩展的主要原因。
栽培菊花的起源
尽管栽培菊花的起源引起了广泛关注但贡献给栽培菊花的野生祖先仍不确定。旨在识别这些祖先物种的先前系统发育学研究通常基于传统的形态学和细胞学分类或有限数量的分子标记产生了不一致的结果。通过利用菊花基因组我们重新测序了12种被认为是栽培菊花最可能的祖先物种的中国野生菊花物种每个存取平均覆盖深度约为8.5倍Supplementary Fig. 13, Supplementary Data 5。用11,755个SNP生成的系统发育树图3a清楚地显示具有白色辐射小花的C. rhombifolium和来自南京的四倍体C. indicum可能与栽培菊花的关系更为密切这与发现C. rhombifolium和C. indicum南京与菊花共享最多特异片段的结果一致图3b。此外身份得分IS分析清楚地显示C. indicum南京0.866、C. rhombifolium0.853、C. indicum天柱山0.847、C. indicum湖北0.844、C. dichrum0.841和C. potentilloides0.833这形成了一个独立的支系也展示了与栽培菊花更高的基因组相似性比其他野生菊花物种更为接近图3c和Supplementary Data 6。值得注意的是不同地理区域和染色体倍性水平的C. indicum存取被分为三个主要支系并展示了比物种间观察到的还要多的遗传多样性图3a这在其他研究中也有发现。我们推测菊花属内的种间杂交以及C. indicum栖息地多样性可能促成了这种遗传变异。 a 使用向日葵H. annuus作为外群的菊花属植物的最大似然系统发育树。分支上的数字表示支持值。菊花 cv. ‘钟山紫桂’和12种重新测序的二倍体或四倍体野生菊花物种的形态和细胞学特征在右侧展示。b UpSet图显示覆盖深度大于4×的100 kb非重叠滑动窗口的数量。c 12种野生菊花物种的相同得分IS值分布。更高的IS值表示与菊花的关系更为密切。每个箱形图的中心线是中位数顶部和底部边缘对应于第一和第三四分位数须表示从箱体边缘延伸出的1.5倍四分位范围。灰色点是异常值。每个物种的平均IS值以橙色点表示并在箱形图顶部标记。数据使用单向ANOVA分析随后进行双尾Tukey的诚实显著差异HSD多重比较测试n 70,524不同的小写字母表示在P 0.01的水平上统计显著差异。d 基于kmer的菊花 Smudgeplots分析。
为了进一步追踪渐渗事件我们计算了菊花基因组上每个100 kb滑动窗口内的平均IS值。结果发现栽培菊花中观察到大量小热点具有更高的IS值和少数大热点源自这些野生菊花物种这表明广泛且多次的基因组渐渗可能有助于栽培菊花的形成以及菊花属物种复杂的网状进化历史。
C. nankingense长期以来被怀疑是栽培菊花的二倍体祖先。这项研究中组装的两个基因组使我们能够研究菊花三倍体化后的基因丢失和保留。C. nankingense中大约74.44%的所有基因与菊花中至少一个同源拷贝具有同源性而55.10%的基因在菊花中保留了三个同源拷贝。然而我们无法在菊花基因组中识别一个明显归属于C. nankingense的主导染色体组与异源多倍体草莓和高粱的情况不同这表明C. nankingense可能不是栽培菊花的直接祖先供体。这一发现得到了基于SNP的系统发育树图3a和IS分析图3c的支持。利用C. seticuspe基因组的组装我们进行了类似的基因保留分析发现C. seticuspe与菊花的关系不如C. nankingense密切。
栽培菊花是自体多倍体还是异源多倍体的起源仍不清楚。区分不同形式的多倍体并非总是直接的。通常染色体行为、生育力、分离比率和形态学结合遗传数据是区分自体多倍体和异源多倍体的主要标准。以前的细胞学研究揭示六倍体栽培菊花在其中二价体占主导地位的二倍体样的减数分裂中但很少观察到单价体和多价体主要是四价体。然而菊花的二态或多态遗传代表了一个连续体内的极端情况。我们在花粉母细胞PMC减数分裂期间进行的核型分析显示18条染色体形成了9个二价体而9条染色体保持为单价体9II 9I而秋水仙碱诱导的双倍单倍体表现得像异源多倍体几乎专门形成二价体27 II。基于唯一SNPs的每个同源组的系统发育分析显示同一组内的三个同源染色体都彼此分离除了Chr17和Chr18这与菊花可能有异源多倍体起源的可能性一致。
尽管如此我们发现与菊花基因组比较时不同野生物种的覆盖均匀分布这与已知的异源四倍体烟草和棉花的观察结果不同。这种不一致可能是因为菊花属内的物种关系密切现存的二倍体或四倍体野生菊花物种可能也经历了广泛的网状进化
和高异质性栽培菊花的假定原始祖先可能已经灭绝。为了验证这些结果不是由于选定的潜在祖先引起的我们还使用了基于TEs分布的13-mer聚类方法这不需要访问或甚至知道祖先谱系的活代表。尽管基于识别的4719个染色体特异性13-mer每组三个同源染色体明显基于聚类但我们发现所有同源染色体之间的13-mer计数除了Chr7-Chr8-Chr9外都存在明显差异表明菊花可能不是严格的自体多倍体。此外结果表明与自体多倍体紫花苜蓿相比深度120x的17-mer占据了更大的比例菊花与C. nankingense之间的同源直系同源基因Ks分布观察到四个九个同源组中的四个存在显著差异稍微不同的同源组内基因保留模式进一步支持了菊花可能不是严格的自体多倍体的可能性。有趣的是Smudgeplot分析暗示菊花的基因组结构可能是“AAB”或“AB”。通过荧光原位杂交FISH分析比较三联体内的同源染色体也显示两个同源染色体通常与第三个更为相似但也呈现出差异支持菊花中同源染色体的“AA’B”关系。
根据这些发现以及以前报告的证据以及与其他典型的异源多倍体和自体多倍体的比较我们得出结论菊花 cv. ‘钟山紫桂’很可能是一个特定的片段异源多倍体。
菊花中同源基因表达偏倚
为了探索菊花的转录行为我们比较了不同器官中注释基因的全基因组转录水平Supplementary Note 6。每个同源组在器官中的表达模式相似除了位于第13号染色体中间的基因表达水平显著低于第14和第15号染色体上的基因Supplementary Figs. 21 和 22。我们关注了在三个同源染色体上的同源区块中显示1:1:1对应关系的11,438个基因称为三联体。结合所有九个器官的数据进行的全局分析显示21.65%的同源三联体表达没有统计学上的显著差异被归类为平衡类别从Chr1-Chr2-Chr3染色体组的19.20%到Chr22-Chr23-Chr24染色体组的23.50%Supplementary Fig. 23具有单一同源优势的同源三联体比例41.73%显著高于具有单一同源抑制的比例36.61%Supplementary Fig. 24其中Chr8优势占最大比例24.7%。GO分析指出平衡三联体在九个同源组中丰富于不同的生物过程这些过程与各种生命过程相关。特别是‘蛋白稳定’、‘生殖结构发展’、‘多细胞生物发展的调节’、‘转移酶活性的调节’、‘叶发育’、‘射击系统发展’等在两个同源组中被富集而生长素运输GO:0060918出现在三个同源组中Supplementary Data 9。此外我们发现同源基因方向和差异基因表达之间的相关性较弱Supplementary Note 6, Supplementary Tables 15 和 16这表明菊花中的同源基因表达偏倚可能不是由基因方向变化引起的。这些观察可能代表了菊花基因新功能化或亚功能化的第一步。
花朵进化和发展的遗传基础
花形在栽培菊花改良过程中经受了密集的选择并继续是育种计划的主要目标。栽培菊花具有比其他菊科物种更多样化的头状花序形态这主要由彩色和多样形态的辐射花瓣决定。根据花冠管合并的程度花瓣可以被划分为扁平型、勺状型和管状辐射花Supplementary Fig. 25c但花瓣多样性的遗传基础尚不清楚。先前的研究表明花器官的身份由MADS-box基因调控作为众所周知的ABCE模型的一部分。在这里我们在菊花基因组中鉴定了所有的MADS-boxSupplementary Fig. 26 和 Supplementary Data 10和ABCE基因Supplementary Fig. 25a。结果显示如其多倍体性质所预期的菊花基因组拥有比其他菊科植物和拟南芥更多的MADS-box基因特别是SEP和SVP类。同源基因对的同源性分析、Ks分析和重复分析揭示最近的WGT-2以及较小规模的重复事件促进了MADS-box家族成员的扩张Supplementary Fig. 6a, b导致菊花基因组中每个ABCE模型基因至少有三个非常相似的副本。与未重复的同源基因相比重复基因可以经历放松的功能约束允许它们在基因序列和表达模式上发散并进行亚功能化或新功能化。如Supplementary Fig. 25a所示PISTILLATAPI同源基因确实显示出不同的表达模式。一个副本evm.model.scaffold_4253.83在营养器官中表达水平较高而其他成员在生殖器官中高度表达暗示它们的功能可能经历了亚功能化。相比之下9种品种盘状小花中的六个AGAMOUSAG同源基因的表达水平显著高于辐射花中相应基因的表达水平表明AG在决定花器官身份方面的功能保守。基因表达分析还表明MADS-box B类基因PI和DEFICIENSDEF/APETALA3AP3可能在花瓣和雄蕊发育中起重要作用。
TCP家族CYCLOIDEA2CYC2类基因调节花的对称性、花序结构和生殖器官发育。先前的研究表明CYC2类基因调节菊科物种如向日葵、千里光Senecio vulgaris和非洲菊的辐射和盘状小花的分化。我们在菊花中鉴定了25个CYC2样基因Supplementary Fig. 25b这比C. nankingense和向日葵分别发现的七个和八个成员要多得多。系统发育分析显示菊花的CYC2a样基因经历了几次重复事件一个亚类中的基因在生殖器官中高度表达而另一个亚类中的基因在营养器官中高度表达与其他CYC2类基因一致Supplementary Fig. 25b。先前的研究表明CmCYC2c在C. lavandulifolium中的构成性表达导致辐射小花数量和辐射小花花瓣舌片长度的增加。然而它们的表达与花瓣融合程度之间没有相关性表明花瓣融合不仅由CYC2s控制还由菊花中的其他基因控制。
为了进一步确定花瓣形状变异的分子遗传基础我们在一个来自扁平型品种和管状型品种的F1群体中执行了全基因组混合分离分析测序BSA-seq方案图4a, Supplementary Fig. 27 和 Supplementary Note 7。使用ΔSNP-index和ED算法检测到与花瓣融合程度相关的72个一致的基因组区域Supplementary Data 11。特别是作为CYC/DICHOTOMA下游、与DIVARICATADIV对立控制花的对称性的MYB类基因RAD6evm.model.scaffold_2712.53被发现在qPT5-5图4b。该QTL在BSA-seq方法中一致检测到位于第5号染色体的201.00-202.10 Mb区间内对于SNPs的ΔSNP指数和ED峰值分别为0.91和1.65对于InDels为0.76和1.15Supplementary Fig. 28。CmRAD6在扁平型品种中高度表达并且是与花瓣融合程度负相关的turquoise模块中的一个中心基因r -0.92; P 5.0E-04图4c, d 和 Supplementary Fig. 29。此外通过BSA-seq和加权相关网络分析WGCNA鉴定了几个花发育候选基因如CYC2s、AGL6、MADS33AGL12、IBL1、PI图4d 和 Supplementary Fig. 28。还鉴定了几个生长素响应基因Supplementary Data 12表明生长素可能在花瓣发育中起关键作用与我们之前的发现一致。这些结果提供了栽培菊花花瓣形状遗传结构的见解而在此组装的参考基因组为加速未来QTL精细定位和育种计划提供了重要资源。 a 父母和后代之间花冠管融合程度的变异。标尺 1 cm。b 通过SNP-index顶部和欧几里得距离底部算法使用SNPs检测到第5号染色体上控制花瓣类型的QTLs。顶部1%的阈值由水平蓝色虚线指示。一个被指定为qPT5-5的显著峰包含32个基因在右侧部分放大并阴影显示。绿线和蓝线分别代表位于正义链和反义链上的基因。CmRAD6evm.model.scaffold_2712.53由红色三角形表示。c 三种扁平花瓣型栽培品种R/D13、三种管状花瓣型栽培品种R/D46和三种勺状花瓣型栽培品种R/D7~9的辐射R和盘状D小花中32个基因的表达。绿星、粉红三角形和紫色菱形分别代表在扁平与管状、扁平与勺状、管状与勺状组别中基因的差异表达。d 绿松石模块中基因的子网络。中心基因的热图与c面板相同。e 代表性非黄色野生和栽培菊花中CCD4a基因的系统发育树展示了花色育种过程的潜力。橙色三角形合并了所有传统的日本菊花和一个传统的中国菊花栽培品种。粉红色三角形代表了传统的中国菊花和盆栽菊花的混合。紫色和蓝色三角形分别代表传统的中国菊花和切花菊花的组。完整树状图见Supplementary Fig. 31。
CmCCD4a的系统发育分析揭示了菊花花色育种的历史
栽培菊花的花色多样性主要是由于其彩色的辐射花瓣这是这些植物的主要观赏性状之一。根据唐代618-907的文献栽培菊花只有黄色的辐射花瓣而宋代960-1279的文献记录了栽培菊花中各种颜色的辐射花瓣。一个重要的问题是栽培菊花的花瓣颜色是如何从仅黄色变化为多种花色的。已经表明类胡萝卜素裂解双加氧酶CmCCD4a调节菊花辐射花瓣中黄色素类胡萝卜素的降解Supplementary Note 8 和 Supplementary Fig. 30c, e。我们发现CCD4a在菊花基因组中缺失。此外原始菊花品种‘钟山紫桂’具有紫色的辐射花瓣Supplementary Fig. 1a。然而测序的单倍体材料显示黄色或略微橙色的辐射花瓣图3a并且通过人工全基因组加倍不能恢复花色Supplementary Fig. 1b, c。因此我们假设野生菊花属物种的CCD4a基因通过人工杂交引入到栽培菊花中但拷贝数较低杂交后容易丢失导致辐射花瓣恢复为黄色。
为了验证这一假设并确定CCD4a是如何被引入栽培菊花的我们试图扩增40种栽培菊花品种和14种与菊花属相关的野生物种的CCD4a基因。结果显示黄色或橙色辐射花瓣的栽培品种和野生亲缘中没有CCD4a基因。最终我们从23种栽培菊花品种和9种菊花属的野生亲缘中克隆了78个CCD4a序列。系统发育分析显示CCD4a通过多个独立的杂交事件被引入到不同的菊花栽培品种群中图4e 和 Supplementary Fig. 31。传统中国菊花和盆栽菊花的CCD4a基因可能来自C. vestitum而切花菊花的CCD4a基因可能来自C. zawadskii图4e。这意味着与传统菊花和盆栽菊花相比切花菊花的育种过程涉及了不同的人工杂交事件。有趣的是传统日本菊花的CCD4a聚成一个独立的支系Supplementary Fig. 31这表明菊花的花色性状可能源自日本的独立育种过程。总的来说通过人工杂交多次引入CCD4a基因促进了原始菊花辐射花瓣中类胡萝卜素的降解为现代栽培菊花的花色多样性做出了贡献。这一发现也支持了菊花的育种和传播历史。
讨论
由于高序列相似性和同源异源交换多倍体基因组的组装和分析仍然是一个巨大的技术挑战。为了克服这些困难我们选择了一个特定的单倍体栽培菊花作为测序材料这大大降低了组装、注释和下游分析的复杂性。PacBio长读取测序允许解决和组装富含重复和高基因组相似性的区域。生成的菊花基因组具有1.87 Mb的contig N50大小、303.69 Mb的scaffold N50大小和27.99的LAI。它为进化和比较基因组学研究提供了宝贵的资源。我们的数据表明先前报道的C. nankingense的最近WGD事件估计约在6百万年前更可能是一个WGT事件在此称为WGT-2并且由所有菊花属物种共享图2b和Supplementary Fig. 6。此外还揭示了栽培菊花中一个非常近期的独立三倍体化事件约3百万年前图2b。因此菊花在WGT-γ之后总共经历了至少三轮WGT加上最近的LTR爆发0.5百万年前图2d导致了庞大、复杂的基因组结构。
多倍体长期被认为是植物进化和物种形成的主要力量。迄今为止已经测序了七种六倍体植物的基因组所有这些基因组都被认为是异源多倍体的起源。先前的研究揭示盆栽菊花在遗传上与野生菊花祖先物种的关系比切花菊花或传统菊花更为密切。因此‘钟山紫桂’基因组揭示了栽培菊花的起源。基于我们当前的发现以及先前的报告我们推断多个已识别的渐渗、杂交和多倍体化事件导致了菊花多倍体复合体的进化网状并且先前认为是栽培菊花的祖先的C. nankingense、C. lavandulifolium和C. seticuspe可能不是直接的祖先供体。系统发育和IS分析图3证明了在巫山重庆中国狭窄分布的C. rhombifolium与栽培菊花关系更为密切。还有待进一步探索的问题包括C. rhombifolium在栽培菊花形成中的可能涉及以及杂交混合物何时以及如何扩大其范围。我们在这里提供的多线证据结合以前的研究暗示菊花 cv. ‘钟山紫桂’很可能是一个特定的片段异源多倍体按照Stebbins等人的定义并揭示了其正在进行的发散进化。不幸的是我们未能将27个拟染色体分配给亚基因组我们关于菊花“AA’B”基因组构成的猜想仍需进一步研究。有趣的是我们发现只有约22%的菊花同源基因显示平衡表达这远低于异源多倍体小麦72.5%和芸苔属植物Brassica juncea83.8%的百分比。这可能由栽培菊花的快速进化和其特定的无性繁殖解释。
栽培菊花比其他菊花属物种具有更大的形态多样性特别是在花形和颜色方面。在这项研究中我们推断回溯至6百万年前的时间段是菊花种化和栽培菊花快速进化的重要时期。最近的WGT-2和三倍体化事件可能导致了花形态多样性的扩张。基于参考基因组我们能够初步揭示栽培菊花遗传多样性的变异底层Supplementary Data 13并识别了几个涉及花瓣发育的候选基因这将允许进一步的精细定位和功能验证。此外我们对CCD4a的系统发育研究提供了每种栽培类型甚至不同栽培品种独立育种历史的视角。此外我们重建了菊花花色化的花青素和黄酮醇生物合成途径Supplementary Note 8 和 Supplementary Fig. 30d。
总之我们在这里提供的基因组资源可以帮助挖掘控制菊花重要性状的中心基因并有助于研究菊花的进化。此外参考基因组将促进分子标记辅助育种和基因组编辑在栽培菊花中的应用。菊花的异源多倍体基因组可能有助于指导其他具有高异质性和不确定起源的大型复杂多倍体基因组的组装。
方法
植物材料和基因组测序
我们对之前表征的盆栽和地栽型菊花 cv.‘钟山紫桂’2n 6x 54的一株单倍体n 3x 27进行了整个基因组的测序该株单倍体是通过非受精卵母细胞离体培养获得的Supplementary Fig. 1。从幼嫩叶片组织中提取基因组DNA使用DNAsecure Plant KitTIANGEN中国北京进行Illumina短读测序、PacBio长读测序、10X Genomics和Hi-C文库构建和测序详见Supplementary Note 1。为了支持基因组注释从各种器官中提取总RNA使用RNA提取试剂盒华粤洋中国北京进行测序RNAseq。本研究使用的所有植物材料均来自菊花种质资源保藏中心中国江苏南京南京农业大学。
染色体组装和验证
利用PacBio SMRT测序仪获得的长读序列进行了长读组装采用FALCON75进行了全新组装参数设置如下length_cutoff_pr 11,000overlap_filtering_setting --max_diff 500 --max_cov 500。根据PacBio长读序列使用Quiver76对初始组装进行了修正。然后使用默认设置的BWA-MEM77将10X Genomics读序列与组装进行了比对。使用条形码测序读数进行了FragScaff78进行脚手架构建。利用Illumina序列进行了错误校正使用Pilon79进行了基于Illumina序列的校正。随后使用BWA-MEM4将Hi-C测序读数与组装的脚手架比对并使用ALLHiC80对这些脚手架进行了聚类和重排序。利用Juicebox81对脚手架进行了微调从脚手架中移除了不一致的contigs经过仔细的手动检查后生成了最终的染色体组装。将前10×最长的PacBio读序列使用minimap2参数“-k 15 -w 10 -I 9 G”进行了映射以计算其连续性方法是计算唯一映射≥80%的对齐长度比例。此外我们还根据Supplementary Note 2的描述为二倍体C. nankingense进行了染色体尺度的基因组组装。使用MCScanPython-jcvi对二倍体C. nankingense和菊花的基因组进行了同源性分析。
使用Embryophyta odb10数据库的CEGMA (http://korflab.ucdavis.edu/dataseda/cegma/)82、BUSCO (http://busco.ezlab.org/)83以及LTR Assembly Index (LAI)84来评估基因组组装的完整性和连续性。利用BLAT (Blat Spec and Users Guide)将ESTs映射到组装上评估基因完整性。
基因组注释
我们采用了蛋白质同源、全新和转录组数据相结合的预测方法来注释蛋白质编码基因。使用TBLASTN25将六种物种拟南芥、胡萝卜、向日葵、莴苣、番茄和马铃薯的蛋白序列与菊花基因组进行比对E值设定为1e-5。使用GeneWise84预测每个BLAST命中区域的准确基因结构。对于基于转录组的预测使用TopHat--splice-mismatches 2 --max-intron-length 500000 --min-intron-length 50和Cufflinks85--max-intron-length 500000 --min-intron-length 50 --max-mle-iterations 5000将三种组织的RNA-seq数据映射到菊花基因组上。此外使用Trinity86组装RNA-seq数据--min_glue 2 --min_kmer_cov 2然后使用PASA软件87改进基因结构。生成的基因集被标记为PASA-T-set并用于训练全新基因预测程序。使用五个全新基因预测程序即Augustus版本2.5.588、GENSCAN版本1.089、GlimmerHMM版本3.0.190、Geneid91和SNAP92预测了在重复遮蔽的基因组中的编码区域。最后使用EVidenceModeller (EVM)93将所有预测组合起来生成非冗余的基因集。
蛋白质编码基因的功能注释通过BLASTp搜索E值 ≤ 1e-594针对SwissProt (UniProtKB/Swiss-Prot)、NR (ftp://ftp.ncbi.nih.gov/blast/db/)、InterPro (InterPro, V32.0)、Pfam (Pfam is now hosted by InterPro, V27.0)和KEGG数据库 (KEGG Database)进行。
通过多种数据库和软件包包括RepeatModeler95、LTR_FINDER96、RepeatMasker和RepeatProteinMask97的全新和同源性方法识别了菊花基因组中的转座元件TEs详见Supplementary Note 2。LTR反转录转座子使用一个管道进行注释该管道使用LTRharvest98、LTR_FINDER96和LTRdigest99。我们提取了每个LTR的长末端重复序列使用MUSCLE100对其进行了比对然后用Kimura二参数方法计算LTR之间的距离K。LTR插入时间估计使用下式进行TK/2×r其中r是Asteraceae家族的一般替代率为1.3 × 10−8每个位点每年。额外细节见Supplementary Note 3。
基因家族鉴定
使用拟南芥中ABCE花发育基因的蛋白序列和菊花中报道的CYC2基因作为查询在菊花参考基因组中使用BLASTp进行识别设置阈值为E值 ≤ 1e-5。选择至少覆盖种子蛋白序列50%以上且蛋白序列相似性 50%的对齐结果作为同源物。然后使用PFAMPfam is now hosted by InterPro预测这些同源物的结构域。只考虑具有相同蛋白质结构域的基因为同源物。提供了在包括菊花、A. annua、C. cardunculus、C. nankingense、C. seticuspe、L. sativa、H. annuus和A. thaliana在内的八种植物物种中鉴定TPS和MADS-box家族成员的结果详见Supplementary Note 3。
栽培菊花的起源
对于全基因组重测序选择了12个中国野生菊花种质代表了所有现存的潜在的二倍体和四倍体栽培菊花的祖先。根据经过过滤的SNP通过构建最大似然树和计算相同得分IS值来评估系统发育关系。使用染色体级别的C. nankingense和C. seticuspe基因组作为参考进行了基因保留分析。为进一步澄清菊花的基因组结构采用了两种基于kmer的方法并检查了测序的单倍体和倍性植物的减数分裂行为。进行了FISH分析以评估同源染色体之间的序列差异。所有细节见Supplementary Note 5。
挖掘花形状的数量性状位点和候选基因
基于参考基因组我们能够通过整合BSA-seq和WGCNA来识别数量性状位点和候选基因详见Supplementary Note 7。简而言之对于BSA-seq分析在‘红小’和‘Q5-12’的F1群体中构建了两个极端DNA池即扁平体积BF和管状体积BT每个池中混合了20个个体的DNA详见Supplementary Fig. 25。对于四个文库包括两个父本和两个子代池使用DNBseq-T7平台测序以获得平均覆盖率为30×的150 bp PE reads。使用GATK软件进行了SNP/InDel变异调用。使用了两种关联分析方法SNP-index和欧氏距离ED。绝对ΔSNP指数和ED值的前1%被认为与花冠管合并度CTMD强相关。
对于WGCNA在早期开花阶段分别对九个代表性品种的花瓣和盘瓣进行了解剖提取RNA进行转录组测序。使用DESeq进行了差异基因表达分析。在过滤了样本中低丰度FPKM ≤ 1的基因后使用74,074个花瓣特异基因进行了WGCNA软件包的共表达网络分析使用最小模块大小为50个基因和合并阈值为0.25的动态树切割算法。将CTMD值用作表型数据来识别与花瓣类型相关的模块。共表达网络在Cytoscape软件中可视化。
CCD4a基因的系统发育分析
为了获得菊花属物种的CCD4a核苷酸序列设计了基于CCD4a开放阅读框ORF序列的引物对CCD4a-ORF-F5-ATGGGCTCTTTTCCCACATCT-3/R5-ATAATCAAAGCGTTGTTAGGTCATT-3。PCR混合物包括17μL ddH2O25μL 2× Phanta Max缓冲液1μL dNTP混合物2μL每个CCD4a-ORF-F/RSangon Biotech中国上海1μL Phanta Max高保真度DNA聚合酶Vazyme Biotech中国南京和2μL DNA。PCR程序包括95°C 3分钟然后进行35个循环95°C 15秒55°C 15秒72°C 120秒最后延伸72°C 5分钟。将PCR产物插入pEASY-Blunt Simple Cloning载体TransGen Biotech中国北京然后转化为DH5α进行测序。使用MUSCLE软件进行多序列比对使用MEGA X构建ML方法111的系统发育树。内部支持值是使用1000次Bootstrap重复估计的。