首页

转录组学高通量挑选 根据高通量测序的玄参根部转录组学研讨及萜类化合物组成相关基因的发掘

点击:0时间:2020-08-30 04:22:53

潘媛+陈大霞+宋旭红+张雪+李隆云

[摘要] 该研讨运用新一代测序技能Illumina HiSeqTM4000在转录水平上对药用植物玄参根部进行测序,结合生物信息学办法展开基因功用注释和SSR位点查找。经过测序,共取得65 602 036条原始序列。运用生物信息学软件拼接和拼装序列,取得73 983条unigene,均匀长度823 bp。序列同源性比较标明,56 389条unigene与其他物种具有不同程度的同源性。经过Swiss-Prot,GO,KEGG,COG比对注释,发现520条编码玄参次生代谢途径要害酶基因和191个相关转录因子。运用MISA软件在一切unigenes中共查找到11 659个SSR位点,重复类型以二核苷酸为主。该研讨所取得的参加次生代谢的要害基因可为研讨玄参药用成分的生物组成和调控机制奠定根底,取得的很多SSR位点为后续研讨玄参种质判定及遗传多样性研讨供给参阅。

[要害词] 玄参;转录组;高通量测序;萜类物质

[Abstract] To investigate the profile of gene function and search for SSR, a new technology of high-throughput Solexa / Illumina sequencing was used to generate the root transcriptome of Scrophularia ningpoensis, and 65 602 036 raw reads were obtained. Based on the bioinformatics analysis and Trinity, 73 983 unigenes were obtained with an average length of 823 bp. The comparison of sequence homology in database showed that 56 389 unigenes had different degrees of homology. A total of 520 metabolic pathways related genes and 191 related transcription factors were identified by the Swiss-Prot, GO, KEGG and COG.The 11 659 SSRs were found by MISA and the highest frequency was AG/CT. In this study, we obtained numerous SSRs to provide references for the study of functional gene cloning and genetic diversity of S. ningpoensis. The key genes involved in the secondary metabolism are the basis for the study of biosynthesis and regulatory mechanism of the secondary metabolites.

[Key words] Scrophularia ningpoensis;transcriptome;high throughput sequencing;terpenoids

玄參为玄参科植物玄参Scrophularia ningpoensis Hemsl.的枯燥根。玄参为我国常用中药材,始载于《神农本草经》,列为中品,历代药典都有收载。味甘、苦、咸、微寒,具有清热凉血,滋阴降火,解毒散结等成效[1]。研讨发现玄参含有环烯醚萜、苯丙素、多糖等多种化学成分,具有维护心脑血管体系、抗炎、增强免疫等药理活性[2]。长期以来,因为玄参分子生物学相关研讨起步较晚,缺少玄参成长发育相关的分子符号开发、遗传图谱构建以及次生代谢途径等根底性研讨成果的支撑,玄参分子育种、药效成分组成研讨进展缓慢。高通量测序技能的呈现,为研讨玄参成长发育及次生代谢的分子机制供给了重要的基因资源,并为展开玄参功用基因组学研讨供给了全新的思路和办法[3-4]。

高通量转录组测序技能已广泛运用于生物体转录组基因表达剖析,选用该技能能全面快速地获取研讨目标在某一状态下基因转录信息,从中发掘重要功用基因,提醒不同生物学性状的分子机制[5-7]。展开玄参转录组的研讨,也或许发现一些与其药效活性成分生物组成相关的候选基因,为玄参药效资源的充分运用奠定根底。本研讨拟在转录水平上,运用Illumina HiSeqTM4000测序技能构建玄参根系转录组数据库,取得玄参转录本信息,并进行功用注释及SSR位点剖析,提醒玄参根系转录组的全体表达特征,为进一步提醒玄参有用成分的累积、道地性构成等生物学进程的分子生物学研讨供给丰厚的数据资源。

1 资料与办法

1.1 样品 药用植物玄参块根采自重庆市武隆县仙女山玄参GAP栽培基地,收集时刻为2015年8月初(块根膨大期),经重庆市中药研讨院李隆云研讨员判定为玄参科玄参属植物玄参S. ningpoensis。挑选成长强健无病害的玄参植株,纯水洗净整个块根,用灭菌后的吸水纸吸干外表水分,迅速将块根切成约5 mm厚的薄片,立即用液氮速冻,后放入-80 ℃冰箱保存备用。

1.2 RNA的提取与转录组测序 选用 Trizol Reagent (Invitrogen)法提取玄参根总RNA,运用Agilen2100生物剖析仪和NanoDrop分光光度计对提取的总RNA进行质量检测。总RNA质检合格后,用带有Oligo (dT)的磁珠富集真核生物mRNA参加fragmentation buffer,将mRNA打断成短片段,以mRNA为模板,用6碱基随机引物(random hexamers)反转录组成第一条cDNA链,然后参加缓冲液、dNTPs、RNase H和DNA polymerase Ⅰ组成双链cDNA链,经过QiaQuick PCR试剂盒纯化并加EB缓冲液洗脱之后做结尾修正、加poly (A)并衔接测序接头,然后用琼脂糖凝胶电泳进行片段巨细挑选,接着进行PCR扩增,构建好的文库用Illumina HiSeqTM4000进行测序。

1.3 数据的拼接与拼装 经测序取得的原始序列(raw reads),去除里边含有带接头的、低质量的reads,评价测序数据质量,并对测序数据进行过滤,然后取得洁净序列(clean reads)。本研讨选用Trinity[8]对clean reads进行拼接。该软件经过序列之间的堆叠(overlap)信息拼装得到堆叠群(contigs),然后部分拼装得到转录本(transcripts),最后用 TGICL和 Phrap 软件对转录本进行同源聚类和拼接得到单基因簇(unigene)。

1.4 功用注释与分类 经过blastx将拼接所得unigene比对到Nr[10](Non-redundant protein database,非冗余蛋白数据库),Nt,Swiss-Prot(SwissProt protein database,蛋白质序列数据库),GO[11](Gene Ontology,基因本体论数据库)、KEGG(Kyoto Encyclopedia of Genes and Genomes,东京基因与基因组百科全书)和COG(Cluster of Orthologous Groups,蛋白质直系同源数据库) (e-value<10-5),然后取得该unigene的功用注释信息[9]和分类信息,对一切注释信息进行收拾。

1.5 SSR位点挑选 将转录组数据用MISA 软件进行SSR剖析。设置参数如下:总重复序列长度不低于20 bp;二核苷酸、三核苷酸、四核苷酸、五核苷酸和六核苷酸至少重复次数别离为10,7,5,4,4 [14]。

2 成果与剖析

2.1 转录组测序与数据拼装 选用Illumina HiSeqTM4000高通量测序技能对玄参根系转录组进行了测序,共得到6 560万条raw reads以及6 456万条clean reads。本研讨clean reads Q20为97%(一般为>90%),GC量为44.82%,根本呈正态散布,质量合格。选用Trinity软件拼装共发作109 260个转录本,均匀长度为493 nt。一般把一切转录本中最长的一个视为unigene,共取得了73 983个unigene,长度201~15 502 nt,见表1。

2.2 序列功用注释与分类 运用BLAST程序将拼装得到的unigene与NT,NR,KOG,GO,Swissprot,KEGG数据库进行比对,进行unigene的序列类似性剖析,然后得到该unigene的蛋白质功用注释信息。其间,匹配到 NR数据库中的有56 389条,占悉数unigene的76.21%,这以后依次是Swissprot(56.44%),Nt(55.9%),GO(50.47),KO(31.05%),KOG(21.97%)。对这6种数据库进行拓扑剖析,共有9 494条unigene在一切数据库中一起标示成功,占总unigene数的12.83%,并且在一切数据库中至少有1种数据库注释成功的unigene有58 948条,占总unigene数的79.67%。

以 NR 数据库为例进行剖析,56 389条unigenes在NR数据库中可找到类似序列。注释基因同源序列的物种散布状况见图1,在类似序列匹配度较高的近缘物种中,芝麻Sesamum indicum所占份额最高,为71.5%;其次是合瓣花Erythranthe guttata所占份额为14.0%,这些物种都为本研讨中的序列注释供给了参阅序列。

将玄参Unigene与KOG数据库进行比照,可猜测 unigene功用并进行分类计算。成果标明,共有16 126条 unigene(14.66%)被注释到26种KOG分类中,见图2。从图中可以看出unigene触及的KOG功用类别比较全面,触及了大多数的生命活动。如RNA加工与润饰、能量的组成与运送、氨基酸转运与代谢、染色体结构和动力学等。其间,“翻译后润饰,蛋白质转运”是最大类别,包含2 233条unigene,结合GO数据库对玄参根系的unigene进行功用分类,可从微观上知道玄参根系表达基因的功用散布特征。试验成果标明,有 37 346条unigene被注释到GO分类,其间参加生物学进程(biological process)分类中首要集合于细胞进程(cellular process,21 126个),代谢进程(metabolic process,19 743个)和生物调理(biological regulation,7 192个);在细胞组分(cellular component) 首要集合于细胞 (cell,9 369个)、细胞成分(cell part,9 364个)和细胞器(organelle,7 780个);在分子功用(molecular function)分类中首要集合于结合蛋白(binding,21 810个)和催化活性(catalytic activity,16 641个),见图3。

2.3 序列代谢通路剖析 根据KEGG数据库的注释信息能进一步得到unigene的代谢通路注释。本研讨将unigene根据参加的KEGG代谢通路分为5个分支:细胞进程(A),环境信息处理(B),遗传信息处理(C),代谢(D)和有机体系(E),其间触及较多的有遗传信息处理中的翻译(2 096个)、折叠、分类和降解(1 897条),触及最少的是环境信息处理中的膜转运(91条),见图4。

结合KEGG数据库,对玄参根系的 unigene 或许参加或触及的代谢途径进行了计算剖析。成果标明,22 972条unigene参加到129个代谢通路中,与玄参次生代谢相关的unigene有782条。首要代谢产品有16種,这些代谢产品别离为花青素(anthocyanin)、咖啡因(caffeine)、黄酮和黄酮醇(flavone and flavonol)、类黄酮(flavonoid)、芥子油苷(glucosinolate)、异黄酮(isoflavonoid)、异喹啉类生物碱(isoquinoline alkaloid)、苯丙素(phenylpropanoid)、类固醇(steroid)、生物素(biotin)、油菜素内酯(brassinosteroid)、类胡萝卜素(carotenoid)、萜类化合物(terpenoid)、柠檬烯和蒎烯(limonene and pinene)和玉米素(zeatin)。玄参药用成分首要有环烯醚萜类、苯丙素、多糖、部分黄酮类等,其间注释到萜类、苯丙素类、黄酮类物质生物组成与代谢途径的unigene别离有56,249,52条,见图5。

2.4 玄参次生代谢途径相关基因的发掘 环烯醚萜类、苯丙素类是玄参的首要药用成分,它们的生物组成和代谢触及到细胞色素P450、DXR-1-脱氧-D-木酮糖-5-磷酸复原异构酶(1-deoxy-D-xylulose 5-phosphate reductoisomerase)、FPPS-法呢基焦磷酸组成酶(farnesyl pyrophosphate synthase )、HMGS-3-羟基-3-甲基戊二酰辅酶A(3-hydroxy-3-methyglutaryl-CoA)及HMGR-HMG-CoA复原酶等酶的效果[15],以上说到的酶都存在于玄参根中,其间编码细胞色素P450宗族相关酶的unigene共查找到504条,编码1-脱氧-D-木酮糖-5-磷酸复原异构酶的unigene共查找到9条,法呢基焦磷酸组成酶共查找到1条,3-羟基-3-甲基戊二酰辅酶A 和HMG-CoA复原酶各查找到3条,见表2。

转录因子也称反式效果因子,是可以与真核基因发动子区域中顺式效果原件发作特异性相互效果的DNA结合蛋白,经过他们之间以及与其他相关蛋白之间的相互效果,激活或按捺转录。本研讨运用iTAK软件对玄参转录组序列信息进行转录因子猜测,发现有3 919条unigene分归于72个转录因子宗族。现在发现的植物萜类转录因子首要包含AP2/ERF類、WRKY类、锌指类、bZIP类、bHLH类等[15]。在玄参转录组信息中与萜类组成相关的AP2/ERF类转录因子的表达丰度最高,触及到的unigene有191条,见图6。AP2/ERF类转录因子是植物特有的一类转录因子,AP2/ERF宗族成员在结构上含有一个或多个AP2/ERF结构域。每个AP2/ERF结合域有2个保守序列块—YRG原件和RAYD原件[16-18]。该转录因子已从拟南芥、烟草、水稻、玉米等多栽培物中别离取得,他们在植物的成长、发育、各种生物和非生物钳制以及多种生理生化反响中发挥重要效果。此外,WRKY类转录因子的表达丰度也较高,它是近年来新发现的植物特有的锌指型转录调控因子,可以调控植物信号转导和生理生化进程,调控植物次生代谢途径中编码要害酶基因的活性,并在植物抗病及免疫方面具有重要效果[19-20]。这些转录因子的发现将有助于玄参次生代谢成分生物组成途径的进一步研讨。

2.5 SSR位点剖析 SSR,简略重复序列符号(simple sequence repeats),又称为短串联重复序列或微卫星符号,是一类由几个核苷酸(1~6个)为重复单位组成的长达几十个核苷酸的重复序列,长度较短,且广泛均匀散布于真核生物基因组中。因为重复单位的核苷酸不同以及重复次数不完全相同,造成了SSR长度的高度变异性,其间最常见的双核苷酸重复类型,如(CA)n。一般选用SSR分子符号法对物种种质资源进行遗传多样性剖析。本试验运用MISA软件在玄参根系的73 983条unigenes中共查找到11 659个SSR位点,其间10 022条序列都存在SSR位点。SSR 的类型丰厚,单核苷酸至六核苷酸重复类型均存在,所占份额改变较大,见表3。其间,二核苷酸重复所占份额最高,达到了40.13%;份额最低的是五核酸重复,仅为 0.20%;单核苷酸重复和三核苷酸重复所占份额大致适当,别离为30.46%,27.87%。在检测成果中,共呈现61种基序类型,呈现频率最高的6类基序为:AG/CT(2475),AT/AT(1316),AC/GT(885),ATC/ATG(692),AAG/CTT(590)和ACC/GGT(572)。上述 SSR 特征剖析,有助于展开玄参及其同属物种的基因组差异剖析、分子符号开发和遗传连锁图谱构建的研讨。

3 评论

现在,高通量转录组测序技能现已广泛运用于药用植物转录组剖析中。本研讨初次选用高通量测序技能对玄参根进行转录组测序和功用剖析,深一步发掘其次生代谢相关基因,填补了玄参转录组信息的空白。测序数据选用Trinity软件共拼接得到73 983条unigene,均匀序列长度823 bp,约73%的reads参加了拼接,拼接的N50长度为1 546 bp,所测得的unigene数量根本涵盖了悉数转录组信息。测序数据质控合格,测序质量杰出。取得如此大的序列信息量,标明高通量测序技能是批量发现玄参功用基因的有用手法。本研讨运用生物信息学办法对拼接序列进行注释和功用分类,其间56 389条unigene在Blast、同源性查找中得到注释,注释率达76.2%,剩余的17 594条unigene或许是因为长度较短而未与公共数据库中的序列比对上,也或许对错编码序列或者是新的基因[21]。

本研讨经过同源查找,共发现520条编码玄参次生代谢途径要害酶的相关基因和191个相关转录因子。这些基因的发现,为后续展开的玄参次生代谢物组成要害基因的判定和克隆供给了根底数据。众所周知,萜类物质结构杂乱,化学组成较困难,现在首要以原植物提取取得。因而,展开玄参次生代谢物组成要害酶基因及转录因子的表达调控分子机制尤为重要,跟着后基因组作业的深化,这些要害基因将作为改造植物代谢途径的有力东西,人为操控次生代谢物的组成量。本研讨所取得的转录组信息不但为玄参次生代谢物生物组成研讨供给根底数据,一起也为进一步展开玄参成长发育、抗病抗逆等相关分子机制研讨供给牢靠信息。

此外,与传统测序办法比较,高通量测序技能操作简略,可以发掘出很多的SSR位点信息。本研讨发现玄参根SSR位点11 659个,重复类型以二核苷酸为主,占悉数SSR的40.13%。这些SSR位点的发现可为玄参分子符号的开发、集体遗传多样性剖析、种质判定、符号辅佐挑选、基因定位、亲缘判定等方面的研讨供给根据。

因为玄参未展开全基因组测序,可供参阅的遗传信息十分少,因而对玄参根转录组的特性剖析还有待于进一步的深化研讨。本研讨所取得的玄参根转录组信息,一方面取得很多SSR位点,为后续研讨玄参的功用基因克隆及遗传多样性研讨供给参阅;另一方面取得了丰厚的参加次生代谢的要害基因,也为玄参药用成分的生物组成和调控机制奠定根底。

[参阅文献]

[1] 我国药典.一部[S].2015:108.

[2] Qian J, Hunkler D, Safayhi H, et al. New iridoid-related constituents and the anti-inflammatory activity of Scrophularia ningpoensis[J]. Planta Med, 1991, 57: 56.

[3] Grabherr M G, Haas B J, Yassour M, et al..Full-length transcriptome assembly from RNA-Seq data without a reference genome[J]. Nat Biotechnol, 2011, 29, 644.

[4] Fullwood M J, Wei C L, Liu E T,et al. Next-generation DNAsequencing of paired-end tags for transcriptom and genome analysis[J]. Genome Res, 2009, 19(4): 521.

[5] Dassanayake M,Haas J S,Bohnert H J,et al. Shedding light on an extremophile life style through transcriptomics[J]. New Phytologist,2010, 183 (3): 764.

[6] Lu T T,Lu G J,Fan D L,et al. Function annotation of the rice transcriptome at single-nucleotide resolution by RNA-Seq[J]. Genome Res,2010, 20 (1):1238.

[7] Sangwan R S,Tripathi S,Singh J,et al. De novo sequencing and assembly of Centella asiatica leaf transcriptome for mapping of structural,functional and regulatory genes with special reference to secondary metabolism[J]. Gene,2013, 525 (2): 58.

[8] Grabherr M G, Haas B J, Yassour M, et al.Full-length transcriptome assembly from RNA-Seq data without a reference genome[J]. Nat Biotechnol, 2011, 29: 644.

[9] Conesa A, Gtz S, García-Gómez J M, et al. Blast GO: a universal tool for annotation, visualization and analysis in functional genomics research[J]. Bioinformatics, 2005, 21(18):3674.

[10] Altschul S F, Madden T L, Schffer A A, et al. Gapped BLAST and PSI-BLAST: a new generation of protein database search programs[J]. Nucleic Acids Res, 1997, 25:3389.

[11] Young M D, Wakefield M J, Smyth G K, et al. Gene ontology analysis for RNA-seq: accounting for selection bias[J]. Genome Biol, 2010, 11 (2) :R14.

[12] Gtz S, García-Gómez J M, Terol J, et al. High-throughput functional annotation and data mining with the Blast2 GO suite[J]. Nucleic Acids Res, 2008, 36: 3420.

[13] Kanehisa M, Araki M, Goto S, et al. KEGG for linking genomes to life and the environment[J]. Nucleic Acids Res, 2008, 36:480.

[14] Simbaqueba J, Sanchez P, Sanchez E, et al. Development and characterization of microsatellite markers for the cape gooseberry physalisperuviana[J]. PLoS ONE, 2011, 6(10): e26719.

[15] 趙恒伟,葛峰,孙颖,等. 植物萜类物质生物组成的相关转录因子及其运用远景[J].中草药,2012,10(43):2512.

[16] Iwase A, Mitsuda N, Koyama T, et al. The AP2/ERF transcription factor WIND1 controls cell dedifferentiation in Arabidopsis [J]. Curr Biol, 2011, 21(6): 508.

[17] Qi W W, Sun F, Wang Q J, et al. Rice ethylene-response AP2/ERF factor OsEATB restricts internode elongation by down-regulating a gibberellin biosynthetic gene [J]. Plant Physiol, 2011, 157(1): 216.

[18] Yang C Y, Hu F C, Li J P, et al. The AP2/ERF transcription factor AtERF73/HRE1 modulates ethylene responses during hypoxia in Arabidopsis [J]. Plant Physiol, 2011, 156(1): 202.

[19] Rushton P J, Somssich I E, Ringler P, et al. WRKY transcription factors [J]. Trends Plant Sci, 2010, 15(5): 1360.

[20] Tripathi P, Rabara R C, Langum T J, et al. The WRKY transcription factor family in Brachypodium distachyon[J]. BMC Genomics, 2012, 13(270): 1.

[21] 李滢,孙超,罗红梅,等. 根据高通量测序 454 GS FLX的丹参转录组学研讨[J]. 药学学报,2010,45(4):524.

[责任编辑 吕冬梅]

相关资讯
最新新闻
关闭