La génomique de l'engrain met en lumière l'histoire du plus ancien blé domestiqué

Nature (2023)Citer cet article

6925 Accès

169 Altmétrique

Détails des métriques

L'engrain (Triticum monococcum) a été la première espèce de blé domestiquée et a joué un rôle central dans la naissance de l'agriculture et de la révolution néolithique dans le Croissant Fertile il y a environ 10 000 ans1,2. Ici, nous générons et analysons des assemblages génomiques de 5,2 Go pour le petit épeautre sauvage et domestiqué, y compris des centromères complètement assemblés. Les centromères de l'engrain sont très dynamiques, montrant des preuves de changements de centromères anciens et récents causés par des réarrangements structurels. L'analyse du séquençage du génome entier d'un panel de diversité a révélé la structure de la population et l'histoire évolutive de l'engrain, révélant des modèles complexes d'hybridations et d'introgressions après la dispersion de l'engrain domestiqué du Croissant Fertile. Nous montrons également qu'environ 1 % du sous-génome A du blé panifiable moderne (Triticum aestivum) provient de l'engrain. Ces ressources et découvertes mettent en lumière l’histoire de l’évolution de l’engrain et fournissent une base pour accélérer l’amélioration de l’engrain et du blé panifiable assistée par la génomique.

L'engrain (T. monococcum) a été la première espèce de blé que les humains ont domestiquée il y a environ 10 000 ans dans le Croissant Fertile, une région du Proche-Orient souvent appelée le berceau de la civilisation1,2. L'engrain sauvage était un ingrédient des plus anciens produits de type pain connus, cuits par les chasseurs-cueilleurs dans l'actuelle Jordanie quatre millénaires avant l'aube de l'agriculture3. L'engrain a joué un rôle central dans l'établissement de l'agriculture dans le Croissant Fertile et c'est la seule espèce de blé diploïde (2n = 2x = 14, génome AmAm) dont il existe à la fois des formes sauvages et domestiquées. Une différence morphologique notable entre l’engrain sauvage et domestiqué est le système de dispersion des grains. L'engrain sauvage a un rachis fragile qui facilite la dispersion des graines, tandis que le rachis de l'engrain domestiqué n'est pas cassant4. L'engrain est étroitement apparenté au Triticum urartu, le donneur du génome A du blé dur tétraploïde (Triticum durum) et du blé panifiable hexaploïde (T. aestivum)5. Contrairement à T. urartu, l'engrain sauvage et domestiqué a une longue histoire de culture et de sélection humaine dans diverses conditions environnementales, ce qui fait de l'engrain une source précieuse de variation génétique pour la sélection du blé. De multiples introgressions naturelles et artificielles d'engrain dans le blé tendre contenant des gènes importants sur le plan agricole ont été décrites6,7,8,9,10. Les analyses génétiques des populations indiquent que l'engrain sauvage se regroupe en trois groupes distincts (races α, β et γ) et désignent une région autour des montagnes de Karacadağ, dans le sud-est de la Turquie, comme site de domestication de l'engrain11,12,13,14,15,16,17. .

Ici, nous établissons et analysons un ensemble complet de ressources génomiques pour l'engrain, y compris des assemblages de référence annotés de novo à l'échelle des chromosomes d'une accession d'engrain sauvage et d'une accession d'engrain domestiqué, ainsi que le séquençage du génome entier d'un panel de diversité d'engrain. Nos résultats dévoilent l'histoire évolutive complexe de l'engrain et offrent un aperçu de la dynamique du génome des Triticeae, y compris la structure du centromère, tout en établissant des ressources précieuses qui augmentent la boîte à outils génomique pour l'amélioration du blé.

Nous avons généré des assemblages de référence de deux accessions d'engrain en utilisant une combinaison de séquençage consensuel circulaire PacBio18, de cartographie optique19 et de capture de conformation chromosomique20 (tableau de données étendu 1, tableau supplémentaire 1 et figure supplémentaire 1). TA10622 est une race locale d'engrain domestiqué (T. monococcum L. subsp. monococcum) au rachis non cassant qui a été collectée en Albanie au début du XXe siècle. L'accession d'engrain sauvage TA299 (T. monococcum L. subsp. aegilopoides ; race α) a été collectée lors d'une expédition en 1972 dans le nord de l'Irak21 et possède un rachis cassant. Les intégrités de l'assemblage ont été vérifiées à l'aide d'une carte génétique d'engrain (Tableaux supplémentaires 2 et 3). Nous avons observé un degré élevé de colinéarité entre les deux ensembles de pseudomolécules (Fig. 1 et Fig. 2 supplémentaire) et entre les deux assemblages d'engrain et le sous-génome A du blé tendre (Fig. 3 supplémentaire). Les exceptions les plus évidentes étaient les réarrangements bien décrits du chromosome 4A du blé panifiable, qui ont subi des inversions et des translocations dans le blé polyploïde . Nous avons annoté 32 230 et 32 090 modèles de gènes de confiance élevée sur les 7 pseudomolécules de TA299 et TA10622, respectivement (scores BUSCO de 99,2 % pour TA299 et 99,4 % pour TA10622) (Tableaux supplémentaires 4 et 5).

30% missing) at the population level. In JoinMap, we removed identical markers (similarity = 1) and mapped only one marker of the identical pair. We grouped the markers using minimum LOD of 6 and the markers were mapped using a regression mapping approach and the Kosambi function. The linkage maps were visualized using Mapchart (v.2.32; https://www.wur.nl/en/show/mapchart.htm). Linkage maps were constructed using this approach with both wild and domesticated einkorn assemblies./p>

60.0 || MQ < 40.00 || MQRankSum < −12.5 || ReadPosRankSum < −8.0 || SOR > 3.0’. In total, 208,855,939 SNPs were called from 219 einkorn accessions. After quality control using VCFtools108 (v.0.1.17), the raw SNPs were filtered using GATK107 (v.4.1.8.0) and VCFtools108 (v.0.1.17) as follows: SNP clusters, defined as three or more SNPs located within 10 bp; low and high average SNP depth (4 ≤ DP ≥ 15); and SNPs located in the unanchored chromosome were removed. Moreover, one misclassified accession (TA574; initially was classified as γ) was removed on the basis of PCA and divergence analysis. Finally, only biallelic SNPs were retained for further analyses, representing a final VCF file of 121,459,674 SNPs (Supplementary Table 15). These SNPs were annotated using snpEff109 (v.5.0e) with TA299 HC gene models. The false-positive error rate of variant calling (percentage of polymorphic sites in a resequenced TA299 sample compared with the TA299 reference) was 0.008%, which is comparable to the error rates of other studies43,44,45,46 (Supplementary Fig. 19a). Variants were evenly distributed across the seven chromosomes, except for the centromeres that showed a marked reduction in variant densities due to reduced read mapping (Supplementary Fig. 19b, Supplementary Fig. 20 and Supplementary Table 16). Approximately 2.2% of the total SNPs were gene-proximal (2 kb upstream and downstream of a coding sequence). An additional 0.8% of the SNPs were located in introns and 0.5% in exons. Of the exonic SNPs, 317,023 (53.4%) were non-synonymous affecting 26,505 genes, of which 9,145 SNPs resulted in a disruption of coding sequences (premature stop codon) in 5,726 genes. Furthermore, 45.7% of the total SNPs (55,558,212 SNPs) represented rare variants with a minor allele frequency below 1% (Supplementary Fig. 19c and Supplementary Table 17). Variant calling using the TA10622 assembly revealed very similar results on the basis of population divergence, PCA and nucleotide diversity (α, π = 0.0012; β, π = 0.0017; γ, π = 0.0022; domesticated, π = 0.0012; Supplementary Fig. 21a–c), confirming the high accuracy of variant calling and the independence of population structure analyses from which reference assembly is used. The SNP calling against the TA10622 reference assembly was used for the analyses presented in Extended Data Fig. 7a,b,e./p> 10% and 5% randomly sampled SNPs; total SNPs = 5,318,268). First, the genetic distances were computed using Euclidean distances with the ‘dist’ function in the stats R package. The distance matrix was converted to a phylo object using the R package ape and the tree was generated using the phyclus R package. For estimating individual ancestry coefficients, the R package LEA ‘snmf’ function was used with the entropy option and with 10 independent runs for each K (K is the number of putative ancestral populations) from K = 1 to K = 10 using the same SNP subset used to generate the phylogenetic tree. The cross-entropy value decreased with increasing K and reached a plateau starting from K = 6 (Supplementary Fig. 14)./p>13-fold coverage. We used the Illumina reads of TA4342-L96 (Sequence Read Archive: SRR21543761) as the parental control. We followed the MutMap protocol with minor modifications57. High-quality filtered reads were aligned to the T. monococcum accession TA10622 using BWA96. SAM files were converted into .bam files using SAMtools69. SAMtools (markdup option) was used to mark and remove PCR duplicates. Improperly mapped read pairs were removed from the .bam files retaining only concordantly aligned reads with MAPQ ≥ 30. The BCFtools mpileup tool was used for SNP calling70. SNPs were filtered on the basis of the following criteria: minQ ≥ 30, Fisher Strand (FS) > 40, mapping quality (MQ < 40), minDP > 3 and genotype quality (GQ < 20). SNPs within 10 bp proximity of indels were removed and only the biallelic SNPs were retained. SNP positions with an identical allele in both TA4342-L96 and the tin3 mutant bulk were treated as varietal SNPs and were removed from the analysis. SnpSift109 was used to select EMS-type (G/C to A/T) transitions from the VCF file. We considered the positions with a SNP index of ≥0.9 to be homozygous, whereas SNPs with an SNP index of <0.3 were removed, and the rest were considered to be heterozygous. We used the mutplot tool (https://github.com/VivianBailey/Mutplot) to calculate the average SNP index using a window size of 100 kb116. The average SNP index was plotted along the chromosomes using ggplot2117. SnpEff 5.0c (build 2020-11-25 14:23) was used to calculate the effect of the variants on genes./p>