基于全基因组SNP构建甘蓝型油菜指纹图谱

王升博, 黄一鸣, 梁聪园, 王静, 杨庆勇

中国油料作物学报 ›› 2022, Vol. 44 ›› Issue (5) : 966-972.

PDF(2667 KB)
欢迎访问《中国油料作物学报》, 2025年5月7日 星期三
PDF(2667 KB)
中国油料作物学报 ›› 2022, Vol. 44 ›› Issue (5) : 966-972. DOI: 10.19802/j.issn.1007-9084.2021234
遗传育种·生物技术

基于全基因组SNP构建甘蓝型油菜指纹图谱

作者信息 +

Construction of fingerprint for Brassica napus germplasm by genome-wide SNPs

Author information +
文章历史 +

本文亮点

甘蓝型油菜是世界上重要的油料作物,可用作油料、饲料以及食品等,具有较高的经济价值。为了高效快速地鉴定并区分油菜品种,加强油菜品种管理,本试验利用505份油菜种质的重测序数据进行SNP鉴定,根据杂合率、位点缺失率以及多态性等指标对SNP集合进行筛选,得到了能够高效鉴定油菜种质的核心SNP位点组合,构建了DNA指纹图谱。该套核心位点组合包括897个位点,其MAF、PIC的平均值分别为0.41、0.474。使用该套SNP位点组合进行品种区分,每两个材料之间的差异位点数目90%为357~508。对核心SNP位点进行精简,最少用17个SNP 标记可完全鉴定该套种质。本研究使用高质量的油菜重测序数据,筛选出了897个核心SNP位点,并利用该套核心SNP组合构建了油菜的特征指纹图谱,为油菜遗传多样性分析、品种鉴定以及种质管理提供数据参考。

HeighLight

As an important oil crop, Brassica napus provides raw material for vegetable oil and extraction meal as feed, food and fuel worldwide, and has a high economic value. To efficiently identify rapeseed varieties and improve the management of rapeseed varieties, we performed genome-wide re-sequencing for 505 B. napus accessions and identified a core set of SNPs for DNA fingerprint construction. A total of 897 core SNPs were obtained after strict filtering. Detection of 505 B. napus accessions using these 897 core SNPs combination, the average value of MAF was 0.41, and the average polymorphism information content was 0.474. There was at least one different locus between B. napus accessions pairs, and 90% pairs showed 357-508 different loci. Based on these core SNPs, the fingerprint was constructed. Moreover, we obtained the simplified 17 SNPs by reducing the SNP markers, which could fully identify the set of 505 B. napus germplasm. This study provides a reference for genetic diversity analysis, molecular identification and genetic improvement in B. napus.

引用本文

导出引用
王升博 , 黄一鸣 , 梁聪园 , 王静 , 杨庆勇. 基于全基因组SNP构建甘蓝型油菜指纹图谱[J]. 中国油料作物学报, 2022, 44(5): 966-972 https://doi.org/10.19802/j.issn.1007-9084.2021234
Sheng-bo WANG , Yi-ming HUANG , Cong-yuan LIANG , Jing WANG , Qing-yong YANG. Construction of fingerprint for Brassica napus germplasm by genome-wide SNPs[J]. CHINESE JOURNAL OF OIL CROP SCIENCES, 2022, 44(5): 966-972 https://doi.org/10.19802/j.issn.1007-9084.2021234
中图分类号: S565.4   
油菜是我国非常重要的经济作物,其生长速度快、富含营养物质,可用作家畜饲料及农田肥料[1]等,不仅如此,成熟的油菜籽含油丰富,为35%~45%,是我国食用油和生物柴油的重要来源。油菜是我国食用植物油的第一大来源,2019年其种植面积为6583千公顷,占所有油料作物种植面积的50.9%,远高于花生、向日葵以及芝麻等油料作物[2]。然而我国的植物油自给率仅为30.8%,无法满足消费需求,因此大力发展油菜产业,是维护国家食用油供给安全的战略举措[3]。其中优异种质资源的发掘利用与保护对提高油菜产量具有关键性作用[4]。杂交育种是获得理想性状品系的重要手段,通过引进和收集优质种质资源,并经杂交可得到产量高、抗逆性强、适应性强等性状优良的油菜品种。杂交油菜因其优良特性而得到了广泛的应用,我国成为了世界上第一个成功大面积利用油菜杂种优势的国家[5]。随着油菜育种和产业的不断发展,杂交油菜品种数量不断增加,为了有效进行种质管理,迫切需要建立可以对油菜进行高效品种鉴定的技术体系和数据支持。
构建作物的DNA指纹图谱是一种可以有效进行品系鉴定技术手段之一。DNA指纹图谱以个体内核苷酸位点变异为基础,根据作物不同品系间基因组上的差异特征,对作物品种进行鉴定区分。相较于形态鉴定的方法,DNA指纹图谱具有高度的个体特异性和环境稳定性。分子标记是构建DNA指纹图谱的重要基础,单核苷酸多态性(single nucleotide polymorphism,SNP)作为第三代分子标记,其数量多、分布广、突变率低、分型简单,适合大规模实验并且其等位基因频率也易于估计[6]。已有研究表明[7~9],SNP标记技术能很好地够标记不同品种的特异性,被国际植物新品种保护联盟推荐为农作物品种鉴定和指纹数据库构建的方法之一[10]。田红丽等[7]利用384个SNP位点构建了335个玉米杂交种的DNA指纹图谱,为玉米品种分子鉴定、指纹数据构建以及分子育种提供了关键数据支撑。李乐晨等[8]提供了含1500位点的一套核心SNP位点组合,用于海岛棉遗传多样性分析和品种鉴定。赵仁欣等[9]使用5374个油菜SNP标记进行了甘蓝型油菜品种特异性和一致性的分析,并构建了油菜DNA指纹图谱。但当前油菜仍缺乏使用大规模样本构建的稳定的指纹图谱,本研究中使用505份油菜材料的重测序数据,进行SNP鉴定,并筛选了897个具有高多态性、高品种识别度的核心SNP位点,根据该套核心SNP位点组合构建了油菜的DNA指纹图谱,为油菜的遗传多样性分析、品种鉴定和种质管理提供数据参考。

1 材料与方法

1.1 材料

参试材料包括从不同研究机构收集的505个甘蓝型油菜种质,种植于武汉(2015-2016年)。

1.2 方法

1.2.1 DNA提取及文库构建

取幼苗期新鲜叶片,置于液氮中快速冷冻。使用TIANGEN植物基因组DNA试剂盒提取总DNA。使用TruSeq文库构建试剂盒(Illumina,圣地亚哥,加利福尼亚),提取每个样品中至少1.5 μg基因组DNA用于构建文库。之后使用Novogene生物信息技术公司的Illumina HiSeq平台进行双末端(2×150 bp)测序。

1.2.2 获取SNP位点及注释

使用BWA(v0.7.15)软件将质控后的重测序数据比对到ZS11参考基因组上[11],得到bam文件。然后使用sentieon(v201808.08)软件对bam文件进行SNP calling,得到包含原始SNP位点的vcf文件。使用SnpEff(v5.0)软件注释SNP在基因上的位置。

1.2.3 筛选核心SNP位点

使用plink(v 1.90b6.18)软件对获得的原始vcf文件的SNP位点进行筛选:(1)去除InDels以及位于scaffold上的位点,只保留19条染色体上的单核苷酸变异位点;(2)筛选出最小基因频率(MAF)>0.2的位点;(3)筛选出杂合率(het)<0.05的位点;(4)去除高缺失率的位点,仅保留缺失率(geno)<0.05的位点,以增加基因型填充的准确性和速度;(5)根据SNP注释信息,去掉基因间区的SNP位点;(6)使用beagle(v5.1)软件进行基因型填充后,根据指标MAF>0.3、het<0.01再次进行位点筛选;(7)过滤连锁不平衡(LD)值<0.2的位点。

1.2.4 数据分析及可视化

使用R语言中的RIdeogram软件包绘制SNP位点在染色体上的物理位置示意图。使用python3的matplotlib图形库绘制DNA指纹图谱。
使用python3脚本,参照王风格等人使用的方法[12],从核心位点中分层选取位点组合,分析品种识别率。品种识别率定义为可被识别的样本占总的样本数量的比例。本次试验中,若一个样本的基因型与其它任一样本都不同,则认为其可以被识别。

1.2.5 获取最优位点组合

为了节约鉴定成本,需要进一步精简核心SNP数量[13]。具体方法如下:(1)随机打乱核心SNP位点的顺序,依次删除SNP标记,若删除后的SNP组合的识别率仍为100%,则说明删掉的标记为冗余标记,否则保留该位点,直至SNP位点组合中无冗余标记。(2)重复第一步的过程50次,获得位点数量最少的集合。(3)选取SNP位点最少的集合多组,将其合并,去除重复SNP,获得新的SNP组合。(4)对该新组合重复步骤(1)多次,最终获得包含SNP位点最少的一个组合。

2 结果与分析

2.1 核心SNP位点筛选

本研究利用505份油菜材料的重测序数据,鉴定到了9 970 990个SNP位点。根据杂合率、多态性、连锁不平衡(LD)值等指标对SNP进行筛选,最终获得高质量的897个核心SNP(表1,首页OSID码中的附表1)。对897个位点的PIC、MAF和杂合率进行计算得,PIC均值为0.474,变化范围为0.3~0.5;MAF均值为0.41,变化范围为0.42~0.5;杂合率均值为0.0089,变化范围为0.002~0.012。这表明其杂合率普遍较低,适合构建指纹图谱。
表1 各筛选步骤中的SNP数量

Table 1 The number of SNPs in each filtering step

过滤步骤

Filtering step

SNP数量

The number of SNP markers

raw data 9 970 990
remove scaffold SNPs 8 220 713
MAF>0.2 1 838 956
het<0.05 1 373 962
geno<0.05 496 699
Imputation 496 699
remove intergenic SNPs 373 406
MAF>0.3 219 772
het<0.01 18 244
LD<0.2 897
图1 897个核心SNP在染色体上的位置
注:红色线条表示核心SNP;黑色三角形表示精简的17个SNP

Fig. 1 Position of 897 core SNPs on chromosomes

Note: The red line indicates the core SNPs, and the black triangles represent the 17 SNPs in the most simplified SNP combination

Full size|PPT slide

图2 897个SNP位点的MAF和PIC分布图

Fig. 2 Distribution of MAF and PIC values of the 897 SNP loci

Full size|PPT slide

2.2 分析SNP核心位点在基因组上的分布特征

897个核心SNP位点在油菜19条染色体上的物理位置(图1)说明,核心SNP位点可以比较全面地覆盖到各个染色体。A亚基因组染色体的核心SNP数目和密度大于C亚组的(图1表2)。A亚基因组中,A03染色体上的核心位点最多,为75个,A01的最少,仅24个;C亚基因组中,核心位点最多的是C04,达74个,最少的是C02,仅25个(表2)。
表2 统计各染色体上的核心SNP位点

Table 2 Statistics of the core SNPs on chromosomes

染色体

Chromosome

标记数

Number of markers

染色体长度

Length /Mb

分布密度

Density /(kb/SNP)

染色体

Chromosome

标记数

Number of markers

染色体长度

Length /Mb

分布密度

Density/(kb/SNP)

A01 24 38.0 1 583.5 C01 31 57.9 1 867.1
A02 33 35.9 1 089.2 C02 25 65.3 2 611.8
A03 75 44.9 598.2 C03 64 79.1 1 235.3
A04 51 25.7 503.5 C04 74 71.2 961.9
A05 45 46.0 1 022.0 C05 48 59.6 1 240.6
A06 63 48.7 773.1 C06 39 52.5 1 346.5
A07 46 32.3 702.2 C07 59 61.0 1 033.7
A08 31 28.3 913.8 C08 51 53.7 1 052.2
A09 54 65.9 1 219.7 C09 28 68.4 2 443.5
A10 56 26.6 474.9 total 419 568.5 1 356.9
total 478 392.3 820.7

2.3 DNA指纹图谱的构建及分析

利用该套核心SNP位点组合,将505份材料进行两两间比较。材料间的差异位点数目的统计结果显示,两两材料间均存在差异位点,其中,两两材料间的差异位点数目有90%处在357~508区间上(图3),占到总核心位点数目的39.8%~56.6%。这表明两两样本之间的差异位点数目较多,说明897个位点能显著区分该群体的油菜品种,可用于构建505份油菜的特征DNA指纹图谱。此外,本研究采用基于遗传算法的植物品种真实性鉴定位点筛选方法[12],从897个位点中选取位点组合,位点个数从2个增加到30个,分析位点组合对505份油菜品种的识别效率(图4)。结果表明,9个位点组合的识别率为43%,可识别接近一半的材料;14个位点组合的识别率可达到91%;组合位点数目到达28个时,识别率稳定在100%。这表示该套核心位点组合对于品种的区分能力很强。因此,利用897个SNP标记组合,本研究构建了505份油菜样本的特征指纹图谱(图5)。
图3 油菜两两材料间差异位点数分布情况

Fig. 3 Distribution of the number of different sites between B. napus accession pairs

Full size|PPT slide

图4 品种识别率变化曲线图

Fig. 4 Recognition rate of SNP combinations with different number of SNPs

Full size|PPT slide

图5 505份油菜DNA指纹图谱
注:每行代表1个品种;每列代表1个SNP位点,按照在基因组上物理位置排序;不同基因型分别用不同颜色表示

Fig. 5 DNA fingerprints from 505 B. napus germplasm

Note: The rows represent B. napus accessions. The columns represent core SNPs locus, which is sorted by physical location in genome. Different genotypes are displayed in different colors

Full size|PPT slide

2.4 鉴定505个油菜品种的最简SNP位点组合

为筛选最精简SNP位点组合,以快速且低成本地进行油菜品系区分,本研究参考李志远等[14]的方法,从897个核心位点中筛选得到能区分505份油菜的最少SNP位点数目的组合,该组合包含17个SNP标记(表3),分布在12条染色体上(图1)。使用这17个SNP位点组合区分样本时,每两个样本之间至少存在一个差异SNP位点,能够区分505份油菜种质。
表3 精简后的17个核心SNP标记信息

Table 3 Information of the 17 simplified core SNPs in detecting 505 B. napus germplasm

SNP编号

SNP ID

染色体

Chromosome

位置

Position /bp

等位基因 A

Allele A

等位基因 B

Allele B

1 A03 4 294 160 G C
2 A03 23 310 934 T C
3 A05 872 945 A T
4 A07 18 469 370 T C
5 A09 57 259 238 C T
6 A10 18 527 388 A T
7 A10 21 039 076 G A
8 C02 23 742 881 T C
9 C03 65 838 150 C T
10 C03 70 516 306 C T
11 C04 1 911 594 C T
12 C04 28 626 338 T C
13 C05 11 671 173 C T
14 C06 21 453 185 A G
15 C07 46 771 071 A G
16 C08 36 762 293 A C
17 C08 45 178 626 C T

3 讨论

甘蓝型油菜是重要的油料作物,具有广泛的经济用途,如油用、菜用以及饲用等[15]。油菜也因此品种繁多,迫切需要能有效进行品种鉴定以及种质管理的数据支撑。本研究利用505份油菜重测序数据,进行SNP鉴定,筛选出了897个核心SNP位点,并利用该套核心SNP组合构建了505份油菜材料的DNA指纹图谱,为油菜遗传多样性分析和品种鉴定分子鉴定、种质管理以及重要性状的遗传改良提供了重要数据参考。
过去,以简单重复序列(simple sequence repeat,SSR)标记为基础的指纹检测技术由于其单个SSR标记的信息含量较多、所需位点少、重复性好、大多数为共显性标记等一系列优点而被广泛应用于品种鉴定分析[14,16]。然而,SSR标记指纹检测技术也存在很大的局限,如存在位点少、操作复杂、成本高、通量低等。随着技术的快速发展,以SNP标记为基础的新一代分子标记技术应运而生,弥补了SSR标记的不足。相比之下,SNP标记具有明显的优势:(1)SNP为基因组中的最小的遗传变异单位,更易于整合数据,在数据统计和分析方面也更加简单;(2)突变的频率低,遗传稳定性更高;(3)测序通量高,成本低。目前,SNP检测技术已被ISF(International Seed Federation,国际种子联盟)等国际组织推荐为品种身份鉴定的辅助方法[17],逐渐被应用于重要农作物的遗传多样性分析和指纹图谱构建。本研究使用基因组重测序技术,鉴定了505份油菜种质的SNP位点,筛选出了核心SNP标记,在评估核心标记对油菜品种的识别能力之后,构建了DNA指纹图谱。结果表明,利用筛选出的核心SNP标记构建的指纹图谱,能够高效地进行品种区分和鉴定。
为了构建一套准确且稳定的甘蓝型油菜DNA指纹图谱,需要筛选出一套核心标记位点组合。筛选核心位点的标准根据农作物品种以及鉴定的内容和目的不同需要进行适当的调整。核心SNP位点组合需要多态性高、重复性和稳定性好、杂合率低、在基因组上分布均匀。除此之外,位点数目的选择也是极为重要的一个方面。一般情况下,位点数目越少,则鉴定的成本更低、速度更快。但位点数目过少,则难以鉴定亲缘关系相近的品系。因此在实际应用中需要综合多方面考虑SNP标记的筛选,选择最有效且可靠的SNP标记进行DNA指纹图谱构建。在本研究中,剔除了低多态性、高杂合率、高缺失率以及染色体上物理位置未知的SNP位点,得到对油菜品系识别能力强的897个核心SNP位点用于指纹图谱的构建。此外,我们挑选到17个SNP位点作为最精简位点组合,这17个SNP位点能识别本研究中使用的505份油菜种质中所有的材料。将最精简位点以及核心位点相结合,能够在不同的条件下对油菜品种进行准确的鉴定和识别。因此该套核心位点组合能在油菜品种的分子鉴定中起到重要的数据支撑作用,同时还能为油菜遗传多样性分析、分子标记辅助育种提供数据参考。

4 结论

本研究基于505份油菜材料的基因组重测序数据,筛选到了适用于油菜品种鉴定的高质量的一套核心SNP位点组合,该套SNP位点组合包含897个位点,多态性以及品种区分度高。基于这套位点组合,本研究构建了油菜DNA指纹图谱,为油菜的遗传多样性分析、品种鉴定、种质管理以及分子育种提供数据参考。

参考文献

1
黎咏蜀. 饲用油菜栽培技术及营养价值研究[D]. 重庆: 西南大学, 2014.
2
中国统计年鉴[M]. 北京:中国统计出版社, 2020.
3
刘成, 冯中朝, 肖唐华, 等. 我国油菜产业发展现状、潜力及对策[J]. 中国油料作物学报201941(4): 485-489. DOI:10.7505/j.issn.1007-9084.2019.04.001 .
4
李利霞, 陈碧云, 闫贵欣, 等. 中国油菜种质资源研究利用策略与进展[J]. 植物遗传资源学报202021(1): 1-19. DOI:10.13430/j.cnki.jpgr.20200109005 .
5
杨勇. 甘蓝型油菜遗传多样性分析及核心亲本的指纹图谱构建[D]. 武汉: 华中农业大学, 2013.
6
刘可心. 利用SNP芯片构建玉米DNA指纹技术的初步研究[D]. 长春: 吉林农业大学, 2016.
7
田红丽, 杨扬, 王璐, 等. 兼容型maizeSNP384标记筛选与玉米杂交种DNA指纹图谱构建[J]. 作物学报202046(7): 1006-1015. DOI:10.3724/SP.J.1006.2020.93048 .
8
李乐晨, 朱国忠, 苏秀娟, 等. 适于海岛棉指纹图谱构建的SNP核心位点筛选与评价[J]. 作物学报201945(5): 647-655. DOI:10.3724/SP.J.1006.2019.84123 .
9
赵仁欣, 李森业, 郭瑞星, 等. 利用SNP芯片构建我国冬油菜参试品种DNA指纹图谱[J]. 作物学报201844(7): 956-965. DOI:10.3724/SP.J.1006.2018.00956 .
10
唐立群, 肖层林, 王伟平. SNP分子标记的研究及其应用进展[J]. 中国农学通报201228(12): 154-158. DOI:10.3969/j.issn.1000-6850.2012.12.028 .
11
Sun F Fan G Hu Q, et al. The high-quality genome of Brassica napus cultivar ‘ZS11’ reveals the introgression history in semi-winter morphotype[J]. Plant J201792(3): 452-468. DOI:10.1111/tpj.13669 .
12
王凤格,赵久然,杨扬.基于遗传算法的植物品种真实性鉴定位点筛选方法[P]. 中国发明专利, ZL201310629676.2. 2013.
13
李梓榕, 袁雄, 陈叶, 等. 基于全基因组SNP高效鉴定水稻种质资源并构建指纹图谱[J]. 分子植物育种202018(18): 6050-6057. DOI:10.13271/j.mpb.018.006050 .
14
李志远, 于海龙, 方智远, 等. 甘蓝SNP标记开发及主要品种的DNA指纹图谱构建[J]. 中国农业科学201851: 2771-2788.
15
张青松, 廖庆喜, 肖文立, 等. 油菜种植耕整地技术装备研究与发展[J]. 中国油料作物学报201840(5): 702-711. DOI:10.7505/j.issn.1007-9084.2018.05.013 .
16
匡猛, 杨伟华, 许红霞, 等. 中国棉花主栽品种DNA指纹图谱构建及SSR标记遗传多样性分析[J]. 中国农业科学201144: 20-27.
17
Rafalski A. Applications of single nucleotide polymorphisms in crop genetics[J]. Curr Opin Plant Biol20025(2): 94-100. DOI:10.1016/s1369-5266(02)00240-6 .

脚注

基金

国家自然科学基金(32070559)
国家重点研发计划(2017YFE0104800)
PDF(2667 KB)

2003

Accesses

0

Citation

Detail

段落导航
相关文章

/