文献翻译：Genomic features of bacterial adaptation to plants

236 阅读 0 评论 156 点赞

我是靠谱客的博主顺利春天，这篇文章主要介绍文献翻译：Genomic features of bacterial adaptation to plants，现在分享给大家，希望可以做个参考。

Genomic features of bacterial adaptation to plants

- 摘要
- 背景
- 结果
- - 扩展植物相关细菌参考目录
  - 一个广泛的，高质量的细菌基因组集合
  - PA基因组：更多的糖代谢，更少的移动元素
  - PA和RA基因的鉴定与验证
  - 在不同PA基因组中可重复富集的蛋白质结构域
  - PA和RA蛋白的植物蛋白模拟
  - PA基因簇的共现
  - 新推测的PA和RA基因操纵子
- 讨论
- 方法
- - 细菌分离与基因组测序
  - 3837个分离基因组及其分离位点的数据汇编
  - 细菌基因组树的构建
  - 3837个基因组聚类成9个类群
  - 基因组分析
  - 基因组大小比较和基因类别富集分析
  - 基于UCLUST和Orthofinder的基因聚类基准测试
  - PA、NPA、RA和土壤基因/结构域的鉴定
  - 利用亚基因组验证预测的PA、NPA、RA和土壤基因
  - 主坐标分析
  - 库鲁里副伯克霍尔德菌M130中PA基因对水稻根系定殖的影响
  - - 突变结构
    - 根际定殖试验库鲁里菌及其突变衍生物
  - 植物模拟PA和RA蛋白（PREPARADOs）
  - PA、NPA、RA和土壤操纵子的预测及其作为生物合成基因簇的注释
  - 杰基尔和海德分析
  - Construction of Δ5-Hyde1 strain
  - 西瓜酸乳杆菌AAC00-1对不同菌株的竞争测定
  - - 细菌菌株
    - 竞争分析

在这里插入图片描述
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5957079/

摘要

植物与各种细菌有密切的联系。
植物相关（PA）细菌表面上已经进化出能够适应植物环境的基因。
然而，这些基因的身份大多是未知的，它们的功能很差的特点。
我们对芸薹科、杨树和玉米根中的484株细菌进行了基因组测序。
然后我们比较了3837个细菌基因组，以确定数以千计的PA基因簇。
PA细菌的基因组编码更多的碳水化合物代谢功能和更少的移动元素比相关的非植物相关基因组。
我们通过实验验证了两组PA基因的候选基因，一组参与植物定殖，另一组参与PA细菌之间的微生物竞争。
我们还鉴定了64个PA蛋白结构域，这些结构域可能模拟植物结构域；有些是PA真菌和卵菌共有的。
这项工作扩展了基于基因组的植物-微生物相互作用的理解，并通过微生物组工程为高效和可持续农业提供了线索。

背景

动植物的微生物群已经与宿主共同进化了数百万年。
由于光合作用，植物是多种细菌群落的丰富碳源。
这些包括共生者和共产主义者，以及病原体。
植物病原菌和植物生长促进细菌对植物生长、健康和生产力有显著影响4-7。
除了深入研究豆科植物根瘤、农杆菌m9的T-DNA转移、Ⅲ型分泌介导的致病因子esi10等关系外，对植物微生物相互作用的分子机制的理解还相当有限。
因此，识别和鉴定细菌基因和功能对于帮助微生物在植物环境中繁衍的作用是非常重要的。
这些知识应提高我们防治植物疾病的能力，并利用有益的细菌功能，直接影响全球粮食安全、生物能源和碳封存。

基于标记基因分析或喷枪元基因组测序的独立培养方法，大大提高了我们对植物环境中微生物生态学的理解11-15。
同时，测序成本的降低使得植物相关细菌（PA）菌株的基因组测序在大范围内16。
重要的是，隔离物能够在硅预测中进行功能验证。
分离基因组还为单个基因提供基因组和进化背景，以及能够访问由于测序深度有限而可能被元基因组学遗漏的稀有生物基因组的能力。
虽然亚基因组测序具有捕获未培养生物体DNA的优势，但多项16srrna基因调查结果表明，最常见的植物相关细菌主要来自4个易于培养的植物13,17（蛋白质细菌、放线杆菌、类杆菌和硬种皮）。
因此，在对植物微生物瘤16中丰富的成员进行取样时，细菌培养不是主要限制。

我们的目的是鉴定有助于细菌适应植物的基因（植物相关基因）和那些特别有助于细菌根定植的基因（根相关基因）。
我们对484个新分离的细菌和来自芸薹科、玉米和杨树根部的单个细菌细胞进行了基因组测序。
我们将新测序的基因组与现有的基因组组合成一个包含3837个高质量、非冗余基因组的数据集。
然后，我们发展了一种计算方法，以确定植物相关（PA）基因和根相关（RA）基因的基础上比较系统发育相关的基因组与知识的起源隔离。
我们通过实验验证了两组PA基因，包括一个在植物相关微生物竞争中起作用的新基因家族。
此外，我们还对不同门的细菌之间，甚至细菌与真核生物之间共享的许多PA基因进行了表征。
这项研究代表了一个全面和公正的努力，以确定和表征候选基因所需的细菌-植物界面。

结果

扩展植物相关细菌参考目录

为了获得一个完整的PA细菌参考基因组集，我们分别从芸薹科（91%来自拟南芥）、杨树（毛果杨和三角杨）和玉米中分离并测序了191、135和51个新菌株（方法见表1，补充表1-3）。
这些细菌是从植物的根内部（内生室）、根表面（根面）或附着于根（根际）的土壤中分离出来的。
此外，我们还对拟兰介表面灭菌根中107个单细菌细胞进行了分离和测序。
所有的基因组都在公共数据库和一个专门的网站上组装、注释和保存（见网址，补充表3，方法）。

在这里插入图片描述

一个广泛的，高质量的细菌基因组集合

除了上述新测序的基因组外，我们还利用公共数据库收集了5587个细菌基因组，这些基因组属于PA细菌的四个最丰富的门13（方法）。
我们根据其明确的分离生态位将每个基因组手动分类为PA、非植物相关（NPA）或土壤衍生（方法，补充表1-2）。
PA基因组包括从植物或根际分离的生物体。当从根平面或根内生室分离时，PA细菌的一个子集也被注释为“RA”。
从土壤中分离出来的细菌基因组被认为是一个独立的类群，因为这些菌株是否能积极地与植物结合尚不清楚。
最后，将剩下的基因组标记为非植物相关（NPA）基因组；它们是从不同的环境中分离出来的，包括人类、动物、空气、沉积物和水生环境。

我们进行了严格的质量控制过程，以消除低质量或冗余的基因组（方法）。
这导致了最终的3837个高质量和非冗余基因组的数据集，包括1160个PA基因组，其中523个也是RA。
这3837个基因组分为9个单系分类群，以便在系统发育相关基因组之间进行比较基因组学（图1a，补充表1-2，方法，URL）。

为了确定我们从培养分离物中收集的基因组是否代表了植物相关细菌群落，我们分析了来自拟南芥11、12、大麦18、小麦和黄瓜14植物环境的培养无关的16S rDNA调查和亚基因组（方法）。
这里分析的9个分类群占PA环境中发现的细菌群落总数的33-76%（中位数41%，补充表4），因此代表了植物微生物群的重要部分，与以前的报告13、16、19一致。
在这里插入图片描述

Figure 1
Genome dataset used in analysis and differences in gene category abundances

a. Maximum likelihood phylogenetic tree of 3837 high quality and non-redundant bacterial genomes based on the concatenated alignment of 31 single copy genes. Outer ring denotes the taxonomic group, central ring denotes the isolation source, and inner ring denotes the RA genomes within PA genomes. Taxon names are color-coded based on phylum: green – Proteobacteria, red – Firmicutes, blue – Bacteroidetes, purple - Actinobacteria. See URLs for ITOL interactive phylogenetic tree.

图1
用于分析的基因组数据集和基因类别丰度的差异
a 基于31个单拷贝基因串联比对的3837个高质量非冗余细菌基因组的最大似然系统发育树。外圈表示分类学类群，中环表示分离源，内圈表示PA基因组中的RA基因组。
分类单元名称是基于门的颜色编码：绿色-变形细菌，红色-厚壁菌，蓝色-拟杆菌，紫色-放线菌。
有关ITOL交互式系统发育树，请参见URL。

PA基因组：更多的糖代谢，更少的移动元素

我们比较了从植物环境中分离的细菌与从非植物环境中分离的共有祖先的细菌的基因组。
这两个群体在适应特定生态位的过程中进化出的一组辅助基因应该是不同的。
比较PA、土壤和NPA基因组的大小发现，PA和/或土壤基因组显著大于NPA基因组（P<0.05，PhyloGLM和t检验，补充图1a，补充表5）。
在9个分析类群中的6-7个类群中观察到了这种趋势（取决于测试），代表了所有四个门。
有PA和NPA分离位点的少数属的泛基因组分析显示PA和NPA基因组之间的泛基因组大小相似（补充图2）。

泛基因组(Pan-genome)研究思路与应用—作物篇

接下来，我们使用26个广泛的功能基因类别（补充表6），研究了PA基因组中某些基因类别与NPA对应基因相比是否富集或缺失。
使用PhyloGLM检验（图1b）和t检验（补充图3）检测富集。
两类基因表现出相似的独立于系统发育的趋势，暗示了一个依赖环境的选择过程。
“碳水化合物代谢和转运”基因类别在六个分类群的PA生物体中得到扩展（图1b，上图）。
这是α变形杆菌、拟杆菌、黄单胞菌科和假单胞菌中扩展最广的一类（补充图3，上图）。
相比之下，四个PA分类群中的可移动遗传元件（噬菌体和转座子）表达不足（图1b和补充图3，上面板）。
有趣的是，PA基因组显示出基因组大小的增加，尽管移动元素减少，而移动元素通常作为水平基因转移和基因组扩展的载体。
RA细菌与土壤细菌的比较显示，与PA和NPA组相比，RA细菌的变化不那么剧烈，正如生活在更相似生境中的生物体所预期的那样（图1b和补充图3，下面板）。

在这里插入图片描述

b. Differences in gene categories between PA/NPA (top panel) and RA/soil (bottom panel) genomes of the same taxon. For both panels, the heat map indicates the level of enrichment or depletion based on a PhyloGLM test. Significant (colored) cells have p value < 0.05, FDR corrected. Hot colored cells indicate significantly more genes in PA and RA genomes in the upper and lower panels, respectively. Histograms on the upper and right margins represent the total number of genes compared in each column and row, respectively. PA – plant-associated, NPA – non-plant associated, RA – root associated, soil – soil-associated. * not a formal class name. Carbohydrates – Carbohydrate metabolism and transport gene category. Full COG category names from the X axis appear in Supplementary Table 6. Note that cells with high absolute estimate values (dark colors) are based on categories of few genes and are therefore more likely to be less accurate.

b 同一分类单元的PA/NPA（顶面板）和RA/土壤（底面板）基因组之间基因类别的差异。
对于两个面板，热图显示了基于GLM测试的富集或耗尽水平。
显色细胞p值<0.05，FDR校正。
热色细胞表明，在上面板和下面板的PA和RA基因组中，分别有更多的基因。
上边缘和右边缘的直方图分别表示每列和每行中比较的基因总数。
PA-植物相关，NPA-非植物相关，RA-根系相关，土壤-土壤相关。
*不是正式的类名。
碳水化合物-碳水化合物代谢和运输基因类别。
X轴的完整COG类别名称见补充表6。
请注意，具有高绝对估计值（深色）的细胞基于少数基因的类别，因此更可能不太准确。

PA和RA基因的鉴定与验证

我们试图确定在PA和RA基因组中富集的特定基因，分别与NPA和土壤来源的基因组进行比较（补充图4，方法）。
首先，我们使用不同的注释资源基于同源性对每个分类单元的蛋白质/蛋白质结构域进行聚类：COG20、KEGG Orthology21和TIGRFAM22，它们通常占细菌基因组中所有基因的35%-75%。
为了在我们的分析中捕获没有现有功能注释的基因，我们还使用了Orthofinder24（遵循基准测试；补充图5）将每个分类单元内的所有蛋白质序列聚类为基于同源性的正交群。
最后，用Pfam25对蛋白质结构域进行聚类（方法见url）。
这五种蛋白质/结构域聚类方法用于平行比较基因组学管道。
每个蛋白质/结构域序列被额外标记为起源于PA或NPA基因组。

接下来，我们使用五种独立的统计方法测试蛋白质/结构域簇是否与PA生活方式显著相关：hypergbin、hypergcn（两种版本的超几何测试）、phyloglmbin、phyloglmcn（两种基于PhyloGLM26的系统发育测试）和Scoary27（一种严格的组合测试（方法））。
这些分析基于基因存在/缺失或基因拷贝数（方法）。
如果一个基因至少通过一个测试属于一个重要的PA基因簇，并且起源于PA基因组，我们将其定义为显著PA（以下简称“PA基因”）。
我们用同样的方法定义了显著的NPA、RA和土壤基因。使用不同方法发现的重要基因簇具有不同程度的重叠（补充图6-7）。
总的来说，我们注意到PA和RA基因之间的高度重叠以及NPA和土壤基因之间的重叠（补充图8）。
总的来说，PA基因从异质分离源的NPA基因组中缺失（补充图9-10）。
使用仅包含来自每种方法的PA和NPA基因的矩阵进行主坐标分析（PCoA），作为特征增加了PA与NPA基因组沿前两个轴的分离（补充图11）。
基于五种聚类技术和五种统计方法，我们为每个分类单元提供了具有统计意义的PA、RA、土壤和NPA蛋白质和结构域的完整列表（补充表7-15，URL）。

在这里插入图片描述
Figure S4. Overview of the algorithm used to call PA and NPA genes (proteins) and gene operons. High quality PA and NPA genomes were collected. All protein and protein domains were retrieved from genomes. Different protein/domain clustering approaches were used based on existing functional annotation (COG, Pfam, TIGRfam, KEGG orthology) or based on running OrthoFinder over all protein coding genes (for simplicity TIGRfam and KEGG orthology were not mentioned in the figure). Note that clusters may contain a combination of orthologous and paralogous genes. Significant PA/NPA clusters (enriched with PA/NPA proteins/domains) were called based on five tests: PhyloGLM and the Hypergeometric test, both gene copy number and gene presence/absence versions (phyloglmcn, phyloglmbin, hypergcn, hypergbin), and Scoary. Genes from PA and NPA genomes in PA and NPA clusters, respectively, are marked with a triangle. Genes from the significant protein clusters (OrthoFinder, COG) were separately used to predict PA/NPA gene operons comprised of nearly exclusively adjacent PA/NPA genes sharing the same orientation. PA Pfam domains were used to search the overlap between those and plant-like protein domains (PREPARADOs).

图S4。概述了用于调用PA和NPA基因（蛋白质）和基因操纵子的算法。
收集了高质量的PA和NPA基因组。
所有蛋白质和蛋白质结构域均从基因组中提取。
基于现有的功能注释（COG、Pfam、TIGRfam、KEGG orthology）或基于对所有蛋白质编码基因运行OrthoFinder（为简单起见，图中未提及TIGRfam和KEGG orthology），使用不同的蛋白质/结构域聚类方法。
注意，簇可能包含同源和旁同源基因的组合。
重要的PA/NPA簇（富含PA/NPA蛋白质/结构域）基于五个测试：PhyloGLM和超几何测试、基因拷贝数和基因存在/缺失版本（phyloglmcn、phyloglmbin、hypergcn、hypergbin）和Scoary。
PA和NPA簇中PA和NPA基因组的基因分别用三角形标记。
来自重要蛋白质簇（hothofinder，COG）的基因分别用于预测PA/NPA基因操纵子，这些操纵子由几乎完全相邻的PA/NPA基因组成，具有相同的方向。
PA-Pfam结构域用于搜索这些结构域与植物样蛋白结构域（PREPARADOs）之间的重叠。

为了验证我们的预测，我们评估了自然环境中PA/RA基因的丰度模式。
我们检索了38个公开获得的PA、NPA、RA和土壤鸟枪亚基因组，包括一些未用于分离此处分析的细菌的PA环境14、28、29（补充表16a）。
我们从所有统计方法（方法，补充图12-16）将这些培养非依赖性亚基因组的读数映射到PA基因。
PA亚基因组中多达7个分类群的PA基因比NPA亚基因组更丰富（P<0.05，t检验）（图2a，补充表16b）。
另一方面，RA、土壤相关基因和NPA基因在其预期环境中并不一定更丰富（补充表16b）。

在这里插入图片描述
a. PA genes, which were predicted based on isolate genomes, are more abundant in PA metagenomes than in NPA metagenomes. Reads from 38 shotgun metagenome samples were mapped to significant PA, NPA, RA, and soil genes predicted by Scoary. P values are indicated for the significant differences between the PA and NPA or RA and soil in each taxon (two sided t-test). Full results and explanation for normalization are presented in Supplementary Figure 14.
a 基于分离基因组预测的PA基因在PA亚基因组中比在NPA亚基因组中更丰富。
从38个鸟枪元基因组样本中读取的数据被映射到Scoary预测的重要PA、NPA、RA和土壤基因。
P值表示每个分类单元中PA和NPA或RA与土壤之间的显著差异（双侧t检验）。
完整的结果和规范化解释如补充图14所示。

此外，我们选择了8个通过多种方法（补充表17a）预测为PA的基因，通过植物内细菌适合度分析（方法）进行实验验证。
我们用野生型Paraburkholderia kururiensis M130（一种水稻内生菌30）或8个基因的敲除突变株接种表面灭菌水稻幼苗（n=9-30个幼苗/实验）的根。
我们种植了11天的植物，收集并量化了紧密附着在根部的细菌（方法，补充表17b）。
与野生型细菌（图2b）相比，两个基因的突变导致4-6倍的定植减少（FDR校正的Wilcoxon秩和检验，q<0.1），而对生长率没有观察到影响（补充图17）。
这两个基因编码一个来自nodT家族的外膜外排转运体和一个Tir伴侣蛋白（CesT）。
这是合理的，其他六个基因检测功能方面的植物协会没有捕捉到在这个实验环境。

在这里插入图片描述
b. Rice root colonization experiment using wild type Paraburkholderia kururiensis M130 or knockout mutants for two predicted PA genes. Two mutants exhibited reduced colonization in comparison to wild type: G118DRAFT_05604 (q-value = 0.00013, wilcoxon rank sum test) encodes an outer membrane efflux transporter from the nodT family, and G118DRAFT_03668 (q-value = 0.0952, wilcoxon rank sum test), a Tir chaperone protein (CesT). Each point represents the average count of a minimum of 3-6 plates derived from the same plantlet, expressed as cfu/g of root.
b。利用野生型库鲁里副伯克霍尔德氏菌M130或两个预测PA基因的敲除突变体进行水稻根系定殖试验。
与野生型相比，两个突变体的定殖率降低：G118DRAFT_05604（q值=0.00013，wilcoxon秩和检验）编码来自nodT家族的外膜外排转运蛋白，G118DRAFT_03668（q值=0.0952，wilcoxon秩和检验），一种Tir伴侣蛋白（CesT）。
每个点代表来自同一植株的至少3-6个平板的平均计数，用cfu/g根表示。

细菌中的基因操纵子常常编码需要不同蛋白质间协同表达的功能。
因此，我们测试了我们的方法是否能正确预测已知的PA操纵子。
我们根据PA和RA基因的基因组接近度和方向将其分为假定的PA和RA操纵子（补充图4，方法，URL）。
这种分析产生了一些众所周知的PA功能，例如nodABCSUIJZ和nifHDKENXQ操作子（图2c-d）。
Nod和Nif蛋白是生物氮循环的组成部分，分别介导根瘤31和固氮32。
我们还鉴定了植物激素赤霉素前体的生物合成基因簇33,34（图2e）。
其他已知的PA操纵子与多种细菌的趋化性35、分泌系统（如T3SS36和T6SS37）以及鞭毛生物合成38–40有关（图2f-i）。

在这里插入图片描述

c-i. Examples of known functional PA operons captured by different statistical approaches. The PA genes are underlined. c. Nod genes, d. NIF genes, e. ent-kaurene (gibberelin precursor), f. Chemotaxis proteins in bacteria from different taxa. g. Type III secretion system. h. Type VI secretion system, including the imp genes (impaired in nodulation), i. Flagellum biosynthesis in Alphaproteobacteria. Below each gene appears the gene symbol or the protein name where such information was available.
c-i 不同统计方法捕获的已知功能性PA操纵子的例子。PA基因有下划线。c。Nod基因，d。NIF基因，e。安替比林（赤霉素前体），f。不同类群细菌趋化蛋白的研究。g。Ⅲ型分泌系统。h。VI型分泌系统，包括imp基因（结瘤受损），i。α变形杆菌鞭毛的生物合成。在每一个基因下面都会出现基因符号或蛋白质名称，在那里可以获得这些信息。

总之，我们通过五种不同的统计方法（补充表18）确定了数千个PA和RA基因簇，并通过计算和实验方法对其进行了验证，拓宽了我们对植物-微生物相互作用的遗传基础的理解，为进一步的实验提供了宝贵的资源。

在不同PA基因组中可重复富集的蛋白质结构域

PA和RA蛋白以及在进化多样性分类群中保守的蛋白质结构域对于细菌与植物的相互作用具有潜在的关键作用。
基于多重测试（补充表19a），我们鉴定了767个Pfam结构域，它们是至少三个分类群中的重要PA结构域。
我们详细阐述了在所有四个门中属于PA/RA的几个域。
其中两个结构域，DNA结合（pfam00356）和配体结合（pfam13377）是LacI转录因子（TF）家族的特征。
这些TF调节基因表达以响应不同的糖41，并且它们的拷贝数在所分析的9个分类群中的8个的PA和RA细菌的基因组中扩展（图3a）。
对lacI家族基因的基因组邻居的检查显示，所有这些分类群中涉及碳水化合物代谢和转运的基因都有很强的富集，这与lacI家族成员的预期调控41一致（补充图18）。
我们分析了这些假定的LacI家族TFs调控靶点的启动子区域，并鉴定了三个AANCGNTT回文八聚体，这些八聚体除了一个分类单元外在统计学上都富集，可能作为TF结合位点（补充表20）。
这些数据表明，积累大量由LacI家族控制的调控子是细菌谱系适应植物环境的一种常见策略。

另一个结构域，醛酮还原酶（pfam00248），是一个代谢结构域，富集于所有四个门的八个分类群的PA和RA细菌的基因组中（图3b）。
该结构域参与多种底物的代谢转化，包括糖和有毒羰基化合物42。因此，居住在植物环境中的细菌可能会消耗类似的底物。
补充图19中描述了在至少六个分类群中富集的额外PA和RA蛋白质和结构域。

我们还鉴定了在NPA和/或土壤基因组中可重复富集的结构域，包括许多可移动遗传元件的结构域（补充图20）。

在这里插入图片描述

Figure 3
Proteins and protein domains that are reproducibly enriched as PA/RA in multiple taxa

Occurrence of protein domains (from Pfam) was compared between PA and NPA bacteria and between RA and soil bacteria. Taxon names are color coded by phyla as in Figure 1. a. Transcription factors having LacI (Pfam00356) and periplasmic binding protein domains (Pfam13377). These proteins are often annotated as COG1609. b. Aldo-keto reductase domain (Pfam00248). Proteins with this domain are often annotated as COG0667. A two-sided t-test was used for the presence of the genes in a-b between the genomes sharing the same label and was used to verify the enrichment reported by the various tests. FDR-corrected P values are indicated for significant results (q value < 0.05). Filled circles denote the number of different statistical tests (maximum five) supporting a gene/domain being PA/NPA/RA/soil associated. Gene illustrations above each graph represent random protein models. Color coding of the different labels (PA etc.) is as in Figure 1a. Note that a and b have double panels due to different scales. Actino. – Actinobacteria, Alphaprot. – Alphaproteobacteria, Bacil. – Bacillales, Burkholder. – Burkholderiales, Bactero. – Bacteroidetes, Pseud.– Pseudomonas, Xanthom. – Xanthomonadaceae. Box-and-whisker plots represent median, 25th and 75th percentiles, extreme data points that are within a 1.5 fold the interquartile range from the box, and outliers. Full results are in Supplementary Table S19.

图3
在多个分类群中以PA/RA形式重复富集的蛋白质和蛋白质结构域
比较了PA和NPA细菌以及RA和土壤细菌蛋白质结构域的出现情况。类群名称按门用颜色编码，如图1所示。
a。具有LacI（Pfam00356）和周质结合蛋白结构域（Pfam13377）的转录因子。这些蛋白质通常被注释为COG1609。
b。醛酮还原酶结构域（Pfam00248）。具有此结构域的蛋白质通常被注释为COG0667。
使用双侧t检验来确定A-b基因在共享同一标签的基因组之间的存在，并用于验证各种试验报告的富集情况。FDR校正的P值表示显著结果（q值<0.05）。填充圆表示支持PA/NPA/RA/土壤相关基因/结构域的不同统计测试（最多五个）的数量。每个图上面的基因插图代表随机蛋白质模型。不同标签（PA等）的颜色编码如图1a所示。请注意，由于比例不同，a和b有两个面板。肌动蛋白-放线杆菌，α保护菌-α变形杆菌伯克霍尔德杆菌伯克霍尔德医院，细菌-拟杆菌，假单胞菌-假单胞菌，黄原菌-黄单胞菌科。方框图和胡须图表示中位数、第25和第75百分位、距离方框1.5倍四分位间距内的极端数据点和异常值。完整结果见补充表S19。

PA和RA蛋白的植物蛋白模拟

一些分泌到真核宿主细胞中抑制防御和促进微生物增殖的微生物效应蛋白43-45被认为是从真核生物到细菌的聚合进化或蛋白质结构域的水平转移。
我们寻找新的候选效应物或其他功能性植物蛋白模拟物。
我们检索了一组通过多种方法或在多种分类群中可重复预测的重要PA/RA Pfam结构域，并将其与植物基因组中也比细菌基因组中更丰富的蛋白质结构域交叉引用（方法）。
该分析得到了由11916个基因编码的64个类似植物的PA和RA结构域（PREPARADOs）（补充图21，补充表21）。
PREPARADOs的数量是与可重复的NPA/土壤域和植物域重叠的域的数量的四倍（n=15）。
制备物在拟杆菌科和黄单胞菌科的基因组中相对丰富（平均占所有结构域的0.5%以上，补充图22）。
一些PREPARADOs先前被描述为效应蛋白内的结构域，例如锚蛋白重复序列46、染色体缩合重复调控子（RCC1）47、富含亮氨酸重复序列（LRR）48和果胶裂解酶49。
有趣的是，来自植物基因组的PREPARADOs富集了3-14倍（P<10）−5，Fisher精确检验）与NLR 50–53类植物细胞内固有免疫受体融合时预测为“整合效应诱饵”的as结构域（与两个随机结构域集比较；方法，补充图21和23，补充表21）。
令人惊讶的是，2201种细菌蛋白质编码17/64的PREPARADOs≥在整个蛋白质序列中，与植物、PA真菌或PA卵菌的真核蛋白有40%的同源性，因此可能保持类似的功能（补充图24，补充表21-22）。
在这个类群中的斑片状分布patchy distribution可能是由于趋同进化或是在经历植物环境共同选择力的系统发育上的远缘生物之间的cross-kingdom HGT造成的。

在这里插入图片描述 Figure S21. The algorithm used to predict PREPARADO and their co-enrichment with domains common to plant disease resistance proteins of the NLR class. LRR is illustrated as a PREPARADO as LRR6 and LRR8 are also PREPARADOs.

在这里插入图片描述

Figure S24. Maximum-likelihood phylogenetic trees of a few PREPARADO-containing proteins demonstrating high similarity between those found in PA bacteria, fungi, oomycetes, and plants. Only a small fraction of the proteins in the tree are presented due to size limitation. In each label the long integer represents an IMG gene ID. Accession starting with XP_ are Refseq proteins.

七个含有PREPARADO的蛋白质家族的特征是N末端真核生物或细菌信号肽，然后是一个专门用于碳水化合物结合或代谢的PREPARADO（补充表21）。
其中一个结构域Jacalin是一个甘露糖结合凝集素结构域，在拟南芥基因组的48个基因中发现，与人类基因组的3个基因相比25。
甘露糖存在于不同细菌和真菌病原体的细胞壁上，可作为微生物相关分子模式（MAMP），被植物免疫系统识别54–61。
我们鉴定了一个约430个氨基酸长的微生物蛋白家族，该家族带有一个信号肽，随后是一个功能性不明确的核酸内切酶/核酸外切酶/磷酸酶家族结构域（pfam03372），最后是一个Jacalin结构域（pfam01419）。
引人注目的是，这种结构域在植物中不存在，但分布在不同的微生物中，其中许多是植物病原菌，包括革兰氏阴性和阳性细菌、子囊菌门和担子菌门的真菌以及卵菌（图4）。
我们推测，这些微生物凝集素的分泌可能会超过植物免疫受体的甘露糖结合在微生物细胞壁上，有效地充当伪装。

综上所述，我们发现了一大组在植物和定植于植物的微生物之间共享的蛋白质结构域。在许多情况下，整个蛋白质在进化上很遥远的PA微生物中是保守的。

在这里插入图片描述
Figure 4
A protein family shared by PA bacteria, fungi, and oomycetes that resemble plant proteins

Maximum likelihood phylogenetic tree of representative proteins with Jacalin-like domains across plants and PA organisms. Endonuclease/exonuclease/phosphatase (EEP)-Jacalin proteins are present across PA eukaryotes (fungi and oomycetes) and PA bacteria. In most cases these proteins contain a signal peptide in the N-terminus. The Jacalin-like domain is found in many plant proteins, often in multiple copies. Protein accession appears above each protein illustration.

图4
类似植物蛋白质的细菌、真菌和卵菌共有的蛋白质家族
植物和PA生物中具有Jacalin样结构域的代表性蛋白质的最大似然系统发育树。核酸内切酶/核酸外切酶/磷酸酶（EEP）-Jacalin蛋白存在于PA真核生物（真菌和卵菌）和PA细菌中。在大多数情况下，这些蛋白质的N端含有一个信号肽。Jacalin样结构域存在于许多植物蛋白质中，通常有多个拷贝。蛋白质加入出现在每个蛋白质插图的上方。

PA基因簇的共现

我们发现了大量PA基因簇（正交群）的病例，这些病例表明基因组之间高度共现（见URL）。
当PA基因来自系统发育感知测试（即PhyloGLM和Scoary）时，它们是分类群间HGT事件的候选基因。
例如，我们从伯克霍尔德类12个不同属的散在分布的PA/土壤基因组中，在鞭毛样基因座中鉴定了一个由Scoary预测的多达11个共现基因的簇（平均成对Spearman相关=0.81）（图5）。
两个被注释的鞭毛样蛋白FlgB（COG1815）和FliN（pfam01052）也是放线杆菌和α变形杆菌分类群中的PA基因。
剩下的六个基因编码假设的蛋白质，除了一个以外，其余的都是β-蛋白杆菌特有的，这暗示了在植物环境中进化的鞭毛结构变体。
鞭毛介导的运动或鞭毛衍生的分泌系统（如T3SS）对植物定殖和毒力具有重要意义39、40、62、63并可水平转移64。

在这里插入图片描述
Figure 5
Co-occurring PA/soil flagellum-like gene cluster is sporadically distributed across Burkholderiales

a. Left panel: A hierarchically clustered correlation matrix of all 202 significant PA orthogroups (gene clusters) from Burkholderiales, predicted by Scoary. Right panel: the orthogroups are presented within and adjacent to the flagellar-like locus of different genomes. Gene names based on blast search appears in parentheses. hyp. - a hypothetical protein, RHS - RHS repeat protein. Genes illustrated above and below line are located on the positive and negative strand, respectively. b. The Burkholderiales phylogenetic tree based on the concatenated alignment of 31 single copy genes. Pillars of filled circles represent the 11 orthogroups presented in a, using the same color coding as in a. Genus names are shown next to each pillar.

图5
PA/土壤鞭毛样基因簇在伯克霍尔德菌中零星分布
a 左图：Scoary预测的所有202个伯克霍尔德类重要PA正交群（基因簇）的层次聚类相关矩阵。
右图：正群出现在不同基因组的鞭毛样位点内及其附近。基于blast搜索的基因名称出现在括号中。hyp。-一种假设的蛋白质，RHS-RHS重复蛋白。线上方和线下方的基因分别位于正链和负链上。
b。基于31个单拷贝基因串联比对的伯克霍尔德类系统发育树。实心圆柱表示a中显示的11个正交组，使用与a中相同的颜色编码。属名显示在每根柱子旁边。

新推测的PA和RA基因操纵子

除了成功捕获几个已知的PA操纵子（图2c-i），我们还发现了其他假定的PA细菌操纵子（见url）。
两个以前未被鉴定的PA基因家族很明显。
这些基因在PA基因组中被组织在多个基因座中，每个基因座最多有5个串联基因拷贝。
它们编码短，高度分化和高拷贝数的蛋白质，预计将被分泌，如下所述。
引人注目的是，这两个PA蛋白家族从未在同一基因组中同时存在，它们的基因组存在与Acidovorax属（伯克霍尔德目）的致病性或非致病性细菌生活方式完全相关（图6a）。
根据史蒂文森经典小说中的人物，我们分别将非病原体和病原体中的基因家族命名为Jekyll和Hyde。

典型的Jekyll基因长97 AAs，包含一个N-末端信号肽，缺乏跨膜结构域，98.5%的病例出现在非致病性PA或土壤相关的嗜酸杆菌分离物中（图6a，补充图25d，补充表23a）。
单个基因组可编码多达13个Jekyll基因拷贝（图6a），分布在多达9个基因座（补充表23a）。
我们最近从天然生长的拟南芥叶片中分离到四个酸性过氧化物酶菌株16。
即使这些几乎完全相同的分离株也携带高变的Jekyll基因座，这些基因座的差异性比相邻基因大得多，包括拷贝数变异和各种突变（图6b，补充图25，补充表24）。

Hyde假定操纵子，另一方面，是由两个不同的基因家族无关的Jekyll。
一个典型的Hyde1蛋白有135个氨基酸和一个N端跨膜螺旋。
Hyde1蛋白也是高度可变的，通过拷贝数变异、序列差异和位点内转座子插入来测量（图6a、c、补充图26a-c、补充表23b）。
Hyde1在99%的植物病原性酸中毒病例中被发现。
这些基因组携带多达15个Hyde1基因拷贝，分布在多达10个基因座中（图6a，补充表23b）。
在70%的病例中，Hyde1直接位于我们命名为Hyde2的更保守的~300 AA长PA蛋白编码基因的下游（图6c-d，补充表23d）。
我们在不同的变形杆菌中鉴定了Hyde2基因座和Hyde1样基因座。
它们包含一个高度可变的Hyde1样家族，仅维持其短长度和跨膜螺旋（补充图26d）。
Hyde编码的生物体包括其他植物病原菌，如丁香假单胞菌，其中Hyde1样Hyde2基因座在密切相关的菌株之间又是高度可变的（图6d，补充表23c）。
然而，惊人的海德基因组扩增是特定于植物病原Acidovorax谱系（补充表23e）。
值得注意的是，Hyde基因通常由编码核心结构T6SS蛋白的基因（如PAAR、VgrG和Hcp65）直接插入，或与PAAR融合（图6d，补充图27a-b，补充表23e）。
因此，我们认为Hyde1和/或Hyde2可能构成一个新的T6SS效应子家族。

在这里插入图片描述
Figure 6
Rapidly diversifying, high copy-number Jekyll and Hyde PA genes

a. Maximum likelihood phylogenetic tree of Acidovorax isolates based on concatenation of 35 single-copy genes. The pathogenic and non-pathogenic branches of the tree are perfectly correlated with the presence of Hyde1 and Jekyll genes, respectively. b. An example of a variable Jekyll locus in highly related Acidovorax species isolated from leaves of wild Arabidopsis from Brugg, Switzerland. Arrows denote the following locus tags (from top to bottom): Ga0102403_10161, Ga0102306_101276, Ga0102307_107159, Ga0102310_10161. c. An example of a variable Hyde locus from pathogenic Acidovorax infecting different plants (host plant appears after species name). The transposase in the first operon fragmented a Hyde2 gene. Arrows denote the following locus tags (from top to bottom): Aave_3195, Ga0078621_123525, Ga0098809_1087148, T336DRAFT_00345, AASARDRAFT_03920. d. An example of a variable Hyde locus from pathogenic Pseudomonas syringae infecting different plants. Arrows denote the following locus tags (from top to bottom): PSPTOimg_00004880 (a.k.a PSPTO_0475), A243_06583, NZ4DRAFT_02530, Pphimg_00049570, PmaM6_0066.00000100, PsyrptM_010100007142, Psyr_4701. Genes colored using the same colors in B-D are homologous with the exception of genes colored in ivory (unannotated genes) and Hyde1 and Hyde1-like genes which are analogous by similar size, high diversification rate, position downstream to Hyde2, and a tendency for having a transmembrane domain. PAAR – proline-alanine-alanine-arginine repeat superfamily.

图6
快速多样化、高拷贝数的Jekyll和Hyde-PA基因
a。基于35个单拷贝基因串联的酸乳杆菌分离株最大似然系统发育树。树的致病性和非致病性分支分别与Hyde1和Jekyll基因的存在完全相关。
b。从瑞士布鲁格野生拟南芥叶片中分离到的高度相关酸乳菌属植物中的可变Jekyll基因座的一个例子。箭头表示以下轨迹标签（从上到下）：Ga0102403_、Ga0102306_、Ga0102307_、Ga0102310_。
c。致病性嗜酸杆菌感染不同植物（寄主植物出现在物种名称之后）的可变Hyde基因座的一个例子。第一个操纵子中的转座酶片段化了一个Hyde2基因。箭头表示以下轨迹标签（从上到下）：Aaveu 3195、Ga0078621u 123525、Ga0098809u 1087148、T336DRAFTu 00345、aahardraftu 03920。
d。致病性丁香假单胞菌感染不同植物的可变Hyde基因座实例。箭头表示以下轨迹标签（从上到下）：PSPTOimg_00004880（又名PSPTO_0475）、A243_06583、NZ4DRAFT_02530、Pphimg_00049570、PmaM6_0066.00000100、PsyrptM_010100007142、Psyr_4701。
在B-D中使用相同颜色着色的基因是同源的，但在象牙色中着色的基因（未注释的基因）和Hyde1和Hyde1样基因除外，它们大小相似，多样化率高，位于Hyde2的下游，并且倾向于具有跨膜结构域。PAAR–脯氨酸-丙氨酸-丙氨酸-精氨酸重复序列超家族。

Jekyll和Hyde1基因序列多样性的增加表明这两个PA蛋白家族可能参与了植物环境中与其他生物的分子军备竞赛。
由于许多VI型效应剂用于细菌间的战争，我们测试了Acidovorax Hyde1蛋白的抗菌性能。
两种基因变体在大肠杆菌中的表达导致细胞数量减少105-106倍（图7a，补充表25）。
我们构建了一个缺失5个Hyde1基因座的突变体(Δ5-1个；包含9/11 Hyde1基因）的植物病原菌Acidovorax citrulli AAC00-1（补充图28，补充表25）。
野生型（WT），Δ5-Hyde1和T6SS突变体(ΔT6SS）产酸菌与E。
对T6SS杀伤敏感的大肠杆菌菌株66和9个系统发育多样的拟南芥叶片细菌分离株16。
值得注意的是，野生型E与野生型Acidovorax共孵育后的大肠杆菌和6个叶片分离物比与野生型Acidovorax共孵育时减少了102-106倍Δ5-1或ΔT6SS Acidovorax（图7b，补充图29，补充表25）。
结合Hyde基因座与T6SS的基因组关联，这些结果表明嗜酸菌的T6SS抗菌表型是由Hyde蛋白介导的，并且这些毒素被用于与其他PA生物竞争。
与微生物相互作用的功能一致，我们没有检测到Δ寄主植物上的5-1菌株（西瓜；未显示）。
然而，通过T6SS清除竞争对手有助于Acidovorax citrulli在其host67上的持久性。

在这里插入图片描述
Figure 7
Hyde1 proteins of Acidovorax citrulli AAC00-1 are toxic to E. coli and various PA bacterial strains

a. Toxicity assay of Hyde proteins expressed in E. coli. GFP, Hyde2 - Aave_0990, and two Hyde1 genes from two loci, Aave_0989 and Aave_3191, were cloned into pET28b and transformed into E. coli C41 cells. Aave_0989 and Aave_3191 proteins are 53% identical. Bacterial cultures from five independent colonies were spotted on LB plate. Gene expression of the cloned genes was induced using 0.5 mM IPTG. P values indicate significant results (two sided t-test). b. Quantification of recovered prey cells after co-incubation with Acidovorax aggressor strains. Antibiotic-resistant prey strains E. coli BW25113 and nine different Arabidopsis leaf isolates were mixed at equal ratios with different aggressor strains or with NB medium (negative control). Δ5-Hyde1 contains deletion of five Hyde1 loci (including nine out of 11 Hyde1 genes). ΔT6SS contains a vasD (Aave_1470) deletion. After co-incubation for 19 hours on NB agar plates, mixed populations were resuspended in NB medium and spotted on selective antibiotic-containing NB agar. Box plots of at least three independent experiments with individual values superimposed as dots are shown. Double asterisks denote a significant difference (one-way ANOVA followed by Tukey’s HSD test) between wild type vs. ΔT6SS, and wild type vs. Δ5-Hyde1, with P values denoted on top. Full strain names and statistical information appear in Supplementary Table 25. For a time course experiment with exemplary strains see Supplementary Figure 29.

图7
Acidovorax citrulli AAC00-1的Hyde1蛋白对大肠杆菌和各种PA菌株
a。大肠杆菌表达海德蛋白的毒性测定。大肠杆菌。将GFP、Hyde2-Aave-u0990和两个基因座Aave-u0989和Aave-u3191的Hyde1基因克隆到pET28b中，转化到大肠杆菌C41细胞。Aave-u0989和Aave-u3191蛋白有53%的相同。在LB平板上发现来自5个独立菌落的细菌培养物。用0.5mmM IPTG诱导克隆基因的表达。P值表示显著结果（双侧t检验）。
b。与嗜酸杆菌侵略者菌株共孵育后恢复的捕食细胞的定量。抗抗生素猎物菌株E。将大肠杆菌BW25113和9个不同的拟南芥叶片分离物以相同比例与不同的侵染菌株或NB培养基（阴性对照）混合。Δ5-Hyde1包含5个Hyde1基因座的缺失（包括11个Hyde1基因中的9个）。ΔT6SS包含vasD（Aave U 1470）删除。混合菌群在NB琼脂平板上共培养19小时后，再悬浮在NB培养基中，并在含NB琼脂的选择性抗生素上进行斑点。显示了至少三个独立实验的方框图，其中单个值叠加为点。双星号表示野生型和野生型之间存在显著差异（单因素方差分析，Tukey的HSD检验）。ΔT6SS和野生型vs。Δ5-1，顶部表示P值。完整菌株名称和统计信息见补充表25。关于示范菌株的时程实验，参见补充图29。

讨论

人们越来越认识到植物相关微生物群落在宿主生长和健康中起着重要作用。了解植物与微生物在基因组水平上的关系，有助于利用微生物提高农业生产力。大多数研究都集中在特定的植物微生物组群上，更强调微生物多样性而不是基因功能12、14、16、18、68–74。在这里，我们对从不同植物宿主分离的近500个RA 细菌基因组进行了测序。这些新的基因组被合并到一个3837个高质量的细菌基因组中进行比较分析。我们发展了一种系统的方法来鉴定PA和RA基因以及推测的操纵子。我们的方法是准确的，这反映在捕获许多以前被证明具有PA功能的操纵子的能力，PA亚基因组中PA基因的富集，确认Hyde1蛋白可能是Acidovorax中针对其他PA细菌的VI型效应物，并对影响水稻根系定殖的两个新基因进行了验证。我们注意到，从植物环境中富集基因组的细菌基因也可能在适应共享同一生态位的许多其他生物中发挥作用，正如我们在Hyde1中所证明的那样。

我们使用五种不同的统计方法来识别与植物/根系环境显著相关的基因，每种方法都有其优缺点。系统发育校正方法（phyloglmbin、phyloglmcn和Scoary）允许准确识别与环境无关的多系基因。基于我们的元基因组验证，超几何测试预测植物相关群落中比Phyloglm丰富的基因更多。它还可以识别单系PA基因，但产生的假阳性率高于系统发育测试，因为在每个PA谱系中，许多谱系特异性基因都会被视为PA。Scoary是所有方法中最严格的方法，并产生最低数量的预测（补充表18）。未来的实验验证应优先考虑在多个分类群和/或通过多种方法预测的基因（补充图5-6，补充表20、26）。
我们发现了64个。含有其中19个结构域的蛋白质预计由Sec或T3SS分泌（补充表21）。值得注意的是，携带其中35个结构域的植物蛋白属于细胞内天然免疫受体的NLR类（补充图23，补充表21）。因此，这些蛋白结构域可以作为分子模拟物。有些可能通过破坏关键的植物蛋白质相互作用来干扰植物免疫功能75,76。同样，我们在PA细菌、真菌和卵菌中检测到的含Jacalin的蛋白质可能代表了一种通过与细胞外微生物甘露糖分子结合来避免MAMP触发的免疫的策略，从而作为一种分子隐形斗篷77,78。

最后，我们证明了在系统发育多样的细菌类群中，许多PA功能惊人地一致，有些功能甚至与PA真核生物共享。这些性状中的一些可能促进微生物在植物上的定殖，因此在农业接种剂的基因组工程中可能被证明是有用的，从而最终产生更有效和可持续的农业。

方法

细菌分离与基因组测序

详细的隔离过程出现在补充元信息中。利用原冷79,80分离出甘蓝科和杨树的细菌株。从田纳西、北卡罗来纳州和俄勒冈的三角杨和毛硬木杨的根组织中培养杨树菌株。根样品按前所述进行处理15,81。简单地说，根际菌株采用连续稀释法进行根际培养，而对根际菌株，在10ml MgSO4（10mm）溶液中用无菌砂浆和杵粉碎表面灭菌根，然后进行连续稀释。在R2A琼脂培养基上分离菌株，并挑选出菌落，并重新条纹至少三次，以确保分离。分离株经16srdna-PCR鉴定，Sanger测序。

对玉米分离株，我们选择了兰辛、纽约和乌尔巴纳、白细胞介素（IL）生长的Il14h和Mo17玉米基因型相关的土壤。在每个地点种植每个玉米基因型的根际土壤样品，并在第12周收集，如前所述68。从每个根际土壤样品中，清洗土壤，并将样品镀到假单胞菌分离琼脂（BD诊断系统）。培养皿在30℃下孵育°C直到菌落形成，从细胞中提取DNA。

用于分离单个细胞，A。将地中海菌Col-0和Cvi-0两种材料进行了成熟培养。根在蒸馏水中多次洗涤。根表面用漂白剂消毒。然后用无菌砂浆和杵磨平表面消毒的根。用FACS分离单个细胞，然后用MDA进行DNA扩增，并按前82所述筛选16srdna。

利用NGS平台对分离株和单个细胞的DNA进行测序，主要采用IlluminaHiseq技术（补充表3）。用不同的组装方法组装测序基因组DNA（补充表3）。基因组使用DOE-JGI微生物基因组注释管道（MGAP v.4）23进行注释，并存放在IMG数据库83、ENA或Genbank供公众使用。

3837个分离基因组及其分离位点的数据汇编

我们从IMG系统中检索到5586个细菌基因组（见url，补充表1）。分离位点是通过人工整理过程确定的，包括扫描IMG元数据、DSMZ、ATCC、NCBI生物样本（见url）和科学文献。根据其分离位点，每个基因组被标记为PA、NPA或土壤。当从EC或根平面分离时，PA生物也被标记为RA。我们采用了严格的质量控制，以确保高质量和最小偏差的基因组：

已知分离位点-筛选出缺失分离位点信息的基因组。
高基因组质量和完整性-如果N50大于50000
bp，则所有分离的基因组都通过此筛选。如果单个扩增的基因组至少有90%的35个通用单拷贝COGs84，那么它们就通过了质量筛选。此外，CheckM85用于评估分离物基因组的完整性和污染。只使用至少95%完整且不超过5%污染的基因组。
高质量的基因注释-通过此筛选的基因组至少有90%的基因组序列编码基因，例外情况是：在巴尔通体属中，大多数基因组的编码碱基百分比低于90%。
非冗余-我们计算了每对基因组的全基因组平均核苷酸同一性（gANI）和比对分数（AF）值86。当AF超过90%，gANI高于99.995%时，我们认为基因组对是冗余的。在这种情况下，一个基因组被随机选择，另一个基因组被标记为“冗余”并被过滤掉。
系统发育树的一致性——我们筛选出了14个细菌基因组，这些基因组显示了它们给定的分类法和它们在细菌树中的实际系统发育位置之间的差异。

细菌基因组树的构建

为了构建3837个高质量非冗余基因组的细菌系统发育树，我们使用AMPHORA287从每个基因组中检索了31个通用的单拷贝基因。对于每个单独的标记基因，我们使用默认参数的肌肉构建了一个比对。我们使用Zorro88屏蔽了31条路线，并过滤了路线的低质量列。最后，我们将31个比对串联成一个整体的合并比对，从中我们使用FastTree 2.189中实现的WAG模型构建了一个近似最大似然的系统发育树。数据集S5中提供了每个分类单元的树（参见URL）。

3837个基因组聚类成9个类群

数据集被划分为不同的分类群（分类学组），以便在下游分别从同一分类群的NPA或土壤基因组中鉴定富集在每个分类群的PA或RA基因组中的基因。为了确定要分析的分类类群的数量，我们使用R包ape中实现的同系词函数（参见url）将系统发育树转换为距离矩阵。然后，我们使用k-medoids聚类将3837个基因组分为9组，这是在R包fpc的PAM算法中实现的（参见url）。k-medoids将n个对象的数据集聚类成k个先验定义的簇。为了确定数据集的最佳k值，我们比较了k值在1到30之间时的轮廓系数。选择k=9作为最大平均轮廓系数（0.66）。此外，当使用k=9时，分类群是单系的，包含数百个基因组，并且在大多数分类群中PA和NPA基因组之间相对平衡（表1）。由此产生的基因组簇通常与注释的分类单位重叠。一个例外是放线菌门。在这里，我们的聚类将基因组分为两个类群，我们简单地命名为“放线菌1”和“放线菌2”。然而，我们严格的系统发育分析支持先前关于放线菌门分类的修订建议90。

此外，该树还揭示了拟杆菌门中非常不同的细菌类群，它们不能被分成单系群。具体来说，鞘氨醇杆菌目（来自鞘氨醇杆菌纲）和噬胞菌科（来自噬胞菌纲）是副系的。因此，我们决定将所有拟杆菌统一为一个门级分类单元。补充资料中提供了对16S年9个分类群的流行率和元基因组的分析。

基因组分析

对于补充图2中的每个比较，从每个环境（特定环境中的PA和NPA）中随机选择一组10个基因组，并计算该组中系统发育距离的平均值和标准差。这一步骤重复50次，得到两组随机的基因组（PA和NPA），它们具有可比性，并且在系统发育距离的平均值和标准差之间具有最小的差异。用于泛基因组分析的基因取自正交组（见下文）。核心基因组、辅助基因组和独特基因被定义为分别出现在所有10个基因组、2-9个基因组或仅一个基因组中的基因。对于核心基因组和辅助基因组，使用每个相关正交组的中位拷贝数。

基因组大小比较和基因类别富集分析

从IMG数据库（见url）检索基因组大小，并使用t检验和Phyloglm26进行比较。使用rsm包中的内核密度图（见url）绘制补充图1。使用RPS-BLAST程序检索蛋白质编码基因并将其映射到COG-id，e值截止值为1e–2，比对长度至少为一致序列长度的70%。每个COG ID映射到至少一个COG类别（补充表6）。对于每个基因组，我们计算一个特定类别的基因数量。t检验和philoglm检验用于比较基因组中共享相同分类单元和类别但标签不同（例如PA和NPA）的基因数量。

基于UCLUST和Orthofinder的基因聚类基准测试

我们使用两种算法：UCLUST91（v7.0）和Orthofinder24（v1.1.4）计算了上述9个分类群中每个分类群的编码序列簇（CDS）。UCLUST在目标中使用50%的标识和50%的覆盖率来调用集群。使用的命令：usearch7.0.1090u i86linux64-clusteru fast<inputu file>-id 0.5-maxaccepts 0-maxrejects 0-targetu cov 0.5-uc<outputu file>。为了提高成对比对的性能，我们在Diamond92（v0.8.36.98）中使用了加速蛋白质比对算法，并在Diamond-blastp算法中使用了–非常敏感的选项。在计算路线之后，我们使用默认参数运行Orthofinder。请参阅用于计算正交组的脚本的URL。

补充图5显示了Orthofinder与UCLUST的基准测试。为了估计UCLUST和Orthofinder输出的聚类的质量，我们将数据集中的蛋白质映射到Amphora93门的分类单元标记集。接下来，我们比较了在UCLUST和Orthofinder输出的聚类中，由Phylaèu Amphora鉴定的每个分类单元特异性标记的分布。为了比较这两种方法，我们估计了两个指标：纯度和碎片指数，如补充图5和补充信息中所述。

PA、NPA、RA和土壤基因/结构域的鉴定

以下描述适用于PA、NPA、RA和土壤基因。为了文本简洁，这里只描述PA基因。PA基因的鉴定采用两步过程，包括基于AA序列相似性的蛋白质/结构域聚类和随后对PA细菌蛋白质/结构域显著富集的蛋白质/结构域聚类的鉴定（补充图4）。基因和蛋白质结构域的聚类涉及五种独立的方法：Orthofinder24、COG20、Kegg orthology（KO）21、TIGRFAM22和Pfam25。选择Orthofinder（遵循上述基准）作为聚类方法，包括所有蛋白质，包括那些缺乏任何功能注释的蛋白质。我们首先分别为每个分类单元编制了基因组中所有蛋白质的列表。对于COG、KO、TOGRFAM和Pfam，我们使用了现有的IMG基因注释，这些注释是基于不同蛋白质/结构域模型的blast比对23。这个过程产生了基因/结构域簇。接下来，我们测试了哪些簇显著富集了来自PA基因组的基因。这些簇被称为“PA簇”。在统计分析中，我们只使用了超过五个成员的集群。我们用Benjamini-Hochberg-FDR校正P值，并用q<0.05作为显著性阈值，除非另有说明。每个簇中的蛋白质根据其编码基因组的标签被分类为PA或NPA。

三种主要的方法是超几何测试（“Hyperg”）、PhyloGLM和Scoary。Hyperg寻找一组基因组中基因拷贝的整体富集，但忽略了数据集的系统发育结构。PhyloGLM26考虑到系统发育信息，以消除明显的富集，可以解释为共同祖先。在两个版本中使用了Hyperg和PhyloGLM测试；基于基因存在/缺失数据（hypergbin，phyloglmbin）或基因拷贝数数据（hypergcn，phyloglmcn）。我们还使用了严格版本的Scoary27，这是一种基因存在/缺失方法，结合了Fisher精确检验、系统发育检验和标签排列检验。第一个超几何检验hypergcn使用基因拷贝数数据，以聚类为样本，以PA和NPA基因的总数为群体，将聚类中PA基因的数量视为“成功”。第二个版本，hybergbin，使用基因存在/缺失数据。使用Benjamini Hochberg FDR94校正COG/KO/TIGRFAM/Pfam簇的p值。对于丰富的Orthofinder聚类，我们使用了Bonferroni校正，阈值为P<0.1，因为使用亚基因组的下游验证显示更显著的聚类的假阳性更少。使用的第三和第四种统计方法是Phyloglm26，在phylolm（v2.5）R包中实现（参见URL）。PhyloGLM将生活方式（如PA与NPA）进化的马尔可夫过程与正则化的逻辑回归相结合。这种方法利用已知的系统发育来指定具有共同祖先的基因组之间的剩余相关结构，因此不需要做出观察是独立的错误假设。直觉上，PhyloGLM倾向于在同一分类群的多个谱系中发现的基因。对于每个分类单元，我们使用图1a中的子树来估计观察值之间的相关矩阵，并使用每个基因的拷贝数（在phyloglmcn中）或存在/缺失模式（在phyloglmbin中）作为唯一的自变量。phyloglmbin/phyloglmcn中的阳性和阴性估计分别表示PA/RA和NPA/土壤蛋白质/结构域。

最后，第五种统计方法是Scoary27，它使用基因存在/缺失数据集。Scoary结合了Fisher精确检验、系统发育感知检验和经验标签转换置换分析。只有在以下条件下，Scoary才认为基因簇是显著的：1。Fisher精确检验的q值低于0.05，2。两两比较算法得出的“最差”p值分别低于0.05和3。经验（基于排列的）p值低于0.05。这些都是非常严格的标准，产生的重要预测相对较少。优势比大于或小于1分别表示PA/RA和NPA/土壤蛋白质/结构域。

有关用于基因富集测试的代码，请参见url。关于使用验证基因组数据集对PA/NPA预测稳健性进行额外评估的说明见补充资料。

利用亚基因组验证预测的PA、NPA、RA和土壤基因

元基因组样本（n=38，补充表16）从NCBI和GOLD下载（见URL）。阅读被翻译成蛋白质，并且使用HMMsearch95将至少40个氨基酸长的蛋白质与不同的蛋白质参考比对。蛋白质参考包括预测PA，RA，土壤，和NPA蛋白质从Orthofinder发现有意义的不同方法。标准化过程在补充图12-16中解释。

主坐标分析

为了观察具有统计学意义的富集/缺失正交组对PA和NPA基因组分化的总体贡献，我们使用PCoA和logistic回归。对于所分析的9个分类群中的每一个，我们都对一组矩阵进行了分析。第一个基质是全基因组基质；这个矩阵描述了一个给定分类群中所有基因组中包含的所有正交群的分布。随后的矩阵代表全基因组矩阵的子集，这些矩阵中的每一个都只描述了被用来测试基因型-表型关联的五种不同算法中的一种所称的具有统计意义的正交组的分布。此过程的完整描述见补充信息。

我们使用R（v 3.3.1）stats包中的函数cmdscale，使用vegan（v 2.4-2）R包中的vegdist函数实现的堪培拉距离，在上述所有矩阵上运行PCoA（参见url）。然后，我们取PCoA的前两个输出轴作为自变量，对每个基因组的标签（PA，NPA）进行logistic回归分析。最后，我们计算了每个不同模型的Akaike信息标准（AIC）。简而言之，AIC估计当一个模型被用来表示一个特定数据集的真实模型时，会损失多少信息。请参阅用于执行PCoA的脚本的url。

库鲁里副伯克霍尔德菌M130中PA基因对水稻根系定殖的影响

补充资料中描述了库鲁里副伯克霍尔德氏菌M130的生长和转化细节。

突变结构

使用补充表17c中所列的引物，从每个感兴趣的基因中扩增出200-900 bp的内部片段。首先在pGem2T简易载体（Promega）中克隆片段并测序（GATC-Biotech；德国），然后用EcoRI限制性内切酶切下并克隆到pKNOCK Km R96的相应位点。然后将这些质粒用作自杀传递系统以产生敲除突变体并转移到P。库鲁里安M130通过三亲交配。所有突变体均用特异于pKNOCK-Km载体和靶基因上下游基因组DNA序列的引物进行PCR验证。

根际定殖试验库鲁里菌及其突变衍生物

对水稻（BALDO）种子进行表面灭菌处理，30℃无菌条件下萌发° 在黑暗中呆了七天。然后将每株幼苗无菌移入含有35毫升半强度霍格兰溶液半固体基质（0.4%琼脂）的50毫升Falcon试管中。然后用107 cfu的P。kururiensis悬浮液。植株在30℃下生长了11天° C（16-8小时明暗循环）。为了测定细菌数量，将植物在自来水下冲洗1分钟，然后在子叶下方切下根。将根风干15分钟，称重，然后转移到含有5 mL PBS的无菌管中。旋涡后，悬浮液连续稀释至10−1和10−将2份PBS和小份样品置于含有适当抗生素（Rif 50）的KB板上μ重量为g/mL，Rif 50μg/mL和Km 50μg/mL的突变体）。30℃孵育3天后计算cfu。从10个独立的植株中每稀释一次，用3个重复测定平均cfu值。

植物模拟PA和RA蛋白（PREPARADOs）

补充图21总结了用于寻找植物模拟PA和RA蛋白质的算法。已下载Pfam25 30.0版元数据。在绿假单胞菌和细菌中出现的蛋白质域，在绿假林中的发生频率至少比细菌高出两倍，被认为是植物样结构域（n=708）。同时，我们扫描了九个分类群中五种算法预测的一组显著的PA、RA、NPA、土壤Pfam蛋白域。我们在至少四次试验中汇编了一个重要的PA/RA域列表，以及在两个试验中的显著NPA/土壤（n=1779）。前两组之间的重叠定义为PrepareAdos（n=64）。同时，我们创建了两个500个随机植物控制集，如Pfam域和500个随机PA/RA Pfam域。用Fisher精确试验，对与对照组相比，将制备的材料与对照组的NLR蛋白进行了比较。为了识别植物抗病蛋白中的区域，所有蛋白质都是从植物僵尸和油菜中提取的（见URL）。为了识别植物抗病蛋白中的区域，我们使用hmmscan搜索蛋白质序列，以确定NB-ARC（PF00931.20）、TIR（PF01582.18）、TIR_2（PF13676.4）或RPW8（PF05659.9）域的存在。根据与植物、真菌和原生动物的所有RESEQ蛋白的最后一个排列，携带制备域的细菌蛋白被认为是对真菌、菌丝体或植物蛋白质的全长同源性。全长定义为至少为查询和参考蛋白质长度的90%的比对长度。用于考虑高氨基酸同一性的阈值为40%。补充资料中有关于蛋白质分泌预测的解释。

PA、NPA、RA和土壤操纵子的预测及其作为生物合成基因簇的注释

基于基因组距离对每个基因组的重要PA、NPA、RA和土壤基因进行聚类：共享相同支架和链的基因（相距达200bp）被聚类到相同的预测操纵子中。我们允许在操纵子内的每对重要基因之间最多有一个间隔基因，这是一个非重要基因。使用这五种方法对COG和OrthoFinder聚类中的基因进行操纵子预测。如果IMG-ABC数据库97中至少有一个组成基因是BGC的一部分，操纵子被注释为生物合成基因簇（BGC）。

杰基尔和海德分析

为了找到Jekyll和Hyde基因的所有同源物和副同源物，我们对所有IMG分离株使用e值阈值为1e-5的IMG blast搜索。分别以基因Aave_、A243_、Ga0078621_和Ga0102403_的蛋白质作为查询序列，搜索Acidovorax的Hyde1同源物、假单胞菌的Hyde1同源物、Hyde2和Jekyll基因。使用Mafft98进行多序列比对。基于35个单拷贝基因110的串联，利用RaxML99建立了酸模属植物的系统发育树。

Construction of Δ5-Hyde1 strain

详细施工Δ补充资料中出现5-1株。在添加利福平（100%）的营养琼脂培养基上培养了西瓜酸菌AAC00-1及其衍生突变体μg/ml）。为了删除一个由5个Hyde1基因组成的簇（Aave U 3191-3195），我们进行了标记交换突变，如前所述101。无标记突变体被命名为Δ经PCR扩增和测序证实其基因型。重复标记交换突变程序以进一步删除4个Hyde1基因座（补充图28）。所使用的引物列于补充表25。11个Hyde1基因（5个基因座）中9个缺失的突变株被命名为Δ5-Hyde1，用于竞争试验。ΔT6SS突变体是从ronwalcott的实验室获得的。

西瓜酸乳杆菌AAC00-1对不同菌株的竞争测定

细菌菌株

E。大肠杆菌BW25113 pSEVA381在37℃的LB肉汤（5g/L NaCl）中有氧生长°C在氯霉素存在下。在NB培养基（5 g/L NaCl）中于28℃有氧培养天然抗抗生素细菌叶片分离株16和耐酸菌菌株°C在适当的抗生素存在下。竞争试验中使用的抗生素耐药性和浓度见补充表25。

竞争分析

竞争分析的进行与其他66102所述类似。简单地说，收获细菌过夜培养物并在PBS（pH7.4）中洗涤以去除多余的抗生素并在新鲜的NB培养基中重新悬浮至10的光密度。捕食者和被捕食者按1:1和5:1的比例混合μ在干的NB琼脂平板上滴加1%的混合物，并在28℃下培养°C。作为阴性对照，相同体积的NB培养基与捕食细胞混合，而不是与捕食者菌株混合。共孵育19h后，从琼脂中去除细菌斑点，再悬浮于500℃培养基中μ在含抗生素的NB琼脂上对捕食菌株进行筛选。在28℃孵育后测定恢复的猎物细胞的cfu°C。所有分析均在至少三个生物重复中进行。

最后

以上就是顺利春天最近收集整理的关于文献翻译：Genomic features of bacterial adaptation to plants的全部内容，更多相关文献翻译：Genomic内容请搜索靠谱客的其他文章。

本图文内容来源于网友提供，作为学习参考使用，或来自网络收集整理，版权属于原作者所有。

本文分类：文献整理
浏览次数：236 次浏览
发布日期：2023-09-02 00:10:33
本文链接：https://www.kaopuke.com/article/k-p-k_14_uzo_10_fw_14__23_gy.html

文献翻译：Genomic features of bacterial adaptation to plants

Genomic features of bacterial adaptation to plants

摘要

背景