|
|
| |
| 表达序列标签技术及3'非编码区分析 |
|
基因组中发生转录表达的序列(即基因)仅占总序列的2%~5%,对这一部分序列进行测序直接导致基因的发现并获得基因组中与生命现象最密切的信息。研究生物学表型特异性相关基因以及重要生命进程相关基因的时空表达谱,对阐释基因或基因家族的功能、基因网络的途径及其结构尤为重要(Jonathan
Donson et al.,2002)。一个细胞的基因表达水平能够精确而特异地反映其类型、发育阶段及反应状态,因此通过基因表达谱可以系统、全面地了解特定细胞、组织或器官的基因表达模式,并描述和解释其生理功能。新近的研究表明,利用基因表达谱可以早期预测正常细胞的肿瘤化倾向(Shoemaker
et al., 2002),这意味着:在一个生命系统的生物学特征趋势还未出现以前,基因表达的调控网络已经暗示出生命系统的发展方向。精确地了解转录水平的网络结构是如何调节生命系统的进程,可以为揭示基因系统性表达的基本规律,也为阐明细胞在发育过程信息学特征及研究调控网络的动态平衡提供理论基础。
如何处理全基因组表达的数据?常用的最简单的方法是描述性的系统工具。Adams等(Adams et al.,1991)首次提出表达序列标签(Expressed
Sequence Tag, EST)概念,这是一种与核酸微阵列、基因表达系列分析(Serial Analysis of
Gene Expression , SAGE)等互为补充的经典技术。以Okubo等(Okubo et al.,1992)为代表的基于EST的基因表达谱研究已有十余年的历史,在技术和理论上较为完善。该技术的理论基础是,来自某一组织的足够数量的EST可代表特定组织中的基因的表达情况(Mekhedov
et al.,2000),可用于研究基因表达模式和基因组序列之间的复杂关系(Iseli et al.,2002),已成为注释基因组序列的宝贵资源,在功能基因组学研究的各个方面发挥了重要的作用(Ewing
et al.,1999; Fernandes et al.,2002; Lee et al.,2002; Okano
et al.,2001; Qutob et al.,2000)。通过EST技术,可了解细胞、组织或生命进程中基因表达模式的特征,鉴定出特异性基因(Zhan
et al.,2000)。EST技术也可用于破译代谢途径(Ohlrogge et al.,2000),快速有效地克隆编码生化反应途径中的关键基因(Runnsley
et al.,1996)。例如,Cahoon等(Cahoon et al.,1999)曾从苦瓜(Momordica
Charantia)和凤仙花(Impatiens Balsamina)产油组织的EST数据库中鉴定出脂质合成途径(lipid-linked
biosynthesis)的关键酶-脂肪酸共轭酶(fatty-acid conjugases)基因。对EST认真细致的生物信息学分析可以鉴定出组织特异性的EST,是制备高质量cDNA微阵列的前提工作(Lofftus
et al.,1999)。基于对EST数据的分析,还可以挖掘出mRNA加工和成熟的分子机制,如mRNA加工信号元件,可变剪接和3'末端加工的多样性等(Kan
et al.,2001)。
基因的表达调控过程主要发生在5个不同水平上,即:DNA水平、转录水平、转录后水平、翻译水平和翻译后水平。转录后水平的调控在整个基因调控网络中处于重要的地位。真核生物中,成熟的mRNA
要经过原初转录本(pre-mRNA)的转录后水平修饰(包括5'帽子结构的形成、内含子的剪切及3'末端加工)才能形成。一个转录本的总体结构由5'非编码区(5'Untranslated
Region,5'UTR),编码区(Open Reading Frame,ORF)和3'非编码区(3' Untranslated
Region,3'UTR)组成。现已了解3'UTR具转录本特异性(Coulson et al., 1997, Wu
et al 2000),它在mRNA转录后修饰、细胞内定位及转运、维持mRNA稳定性及保证翻译的效率方面都具重要的调控功能(Mignone
et al.,2002)。3'UTR是发生3'末端加工的区域,包含各种顺式(cis-)作用元件,能够和特定的加工复合物互作以调控mRNA的3'末端加工。对哺乳动物的研究表明,真核生物中3'末端加工涉及3'UTR内某个位点的剪切和末端添加多聚腺苷酸尾[Poly(A+)]两个关键过程。应用缺失实验和序列分析已确认了哺乳动物mRNA的3'UTR包含了核心顺式作用元件(Barabino
et al., 1999)。这类元件与加工复合物的相互作用是3'末端形成的核心机制(Pauws et al., 2001),包括三部分:Poly(A+)位点,也可称为剪切位点(cleavage
site, CS),保守序列为YA (Y代表T 或C)的二聚核苷酸,这种保守序列的单碱基比例为A > T >
C > G (Chen et al., 1995; Zhao et al., 1999) ;Poly(A+)位点上游(5'端)10-30
nt 处存在着保守的Poly(A+)定位信号序列(以AATAAA为主)。Poly(A+)位点下游(3'端)存在着稳定3'末端加工复合物作用的保守性稍差的T/GT丰富序列,称为下游作用元件(Downstream
Element, DSE)。在植物中,相关元件则表现出分散性、多样性以及复杂性的特点(Rothnie,1996)。图1显示了植物mRNA其3'UTR结构的一种简单模型(Zhao
et al.,1999)。植物mRNA中Poly(A+)定位信号序列变异较大,特定Poly(A+) 定位信号序列对各自Poly(A+)的形成最为有效(Zheng
et al.,2000),这个信号序列被称为近端上游调控元件(Near Upstream Element, NUE),也称为位置元件(Position
Element, PE)。在NUE上游存在对Poly(A+)的形成效率具重要影响的远端上游调控元件(Far Upstream
Element, FUE),保守性同样较低,也称为效率元件(Efficiency Element,EE)。Poly(A+)位点的情况则同哺乳动物类似。植物中不同基因之间的3'UTR结构往往不同,即使对于一个基因,加工过程中发挥作下游用的元件也可能不同,多Poly(A+)位点的现象在植物中普遍存在。有些基因的3'UTR含几个Poly(A+)位点和多个NUE,如豌豆的rbcS-E9基因(pea
rbcS-E gene)(图2)。反式(trans-)作用元件方面,已知至少4种酶参与顺反元件互作和3'末端的加工(Zheng
et al., 2000),分别为识别NUE序列的CPSF(Cleavage Polyadenylation-Specific
Factor)、识别FUE 的CstF(Cleavage stimulation Factor)、负责剪接mRNA前体的CFs(Cleavage
factors)和用于加Poly(A+)尾的PAP [Poly(A+) Polymerase],这些酶可能的组合模式如图3所示。值得注意的是,并非所有的mRNA都存在加Poly(A+)尾的修饰过程,如组蛋白的mRNA。而tRNA
3'末端的加工则以另一种机制进行。
|
 |
图1. 植物mRNA 3'末端顺式作用元件(引用自Zhao et al.,1999)
Fig.1. Plant cis-elements in mRNA 3' end processing (from Zhao
et al., 1999)
|
 |
图2. 豌豆pea rbcS-E9基因的多Poly(A+)位点,引自http://www.uky.edu/~aghunt00/polya.signal.html。
Fig.2. Multi Poly(A+) sites of pea rbcS-E9 gene, from http://www.uky.edu/~aghunt00/polya.signal.html.
|
 |
图3. 植物中参与mRNA 3'末端加工的反式作用元件,参照(Zheng et
al., 2000)重画。CPSF直接识别NUE,CstF识别FUE,CFs负责剪切mRNA前体,PAP用于Poly(A+)尾的生成。
Fig.3. Plant trans-elements in mRNA 3' end processing, redrawed
from Zheng et al., 2000. CPSF recognizes NUE directly, CstF
recognizes FUE, CFs are required for the cleavage reaction,
PAP is required for the Poly(A+) sequence generation.
|
有关3'UTR顺式作用元件的数据挖掘研究,已提供了大量的研究线索(van Helden et al., 2000;
Graber et al., 1999)。对具Poly(A+) EST数据集的挖掘,可鉴别出3'末端的顺式作用元件,发现和总结出它们的序列特征(Pauws
et al.,2001)。对3'UTR一级结构的分析和数据积累有助于尚处起步阶段的3'UTR序列二级结构的解析(Pesole
et al.,1999),从而更深刻地理解非编码区的调控特征。就目前3'UTR分析中使用的数学算法而言,绝大部分集中在一级结构特征的描述和统计上,如对碱基字符串(nucleotide
word,以下简称字符串)的出现频率进行显著性分析、对位置分布特征的鉴别和组成序列的比对。涉及的模型包括统计数学模型、分类数学模型和马尔柯夫链数学模型等(van
Helden et al.,2000)。研究还涉及3'UTR的序列特征与生物学特性的相互关系,如序列特征与基因功能间的相关性研究(Conklin
et al.,2002)。对不同组织中同一基因表达的成熟mRNA其Poly(A+)位点差异的研究,发现位点差异的mRNA具组织特异性分布现象(Beaudoing
et al.,2001)。算法的细节和参数的设置决定预测结果的准确,如将已有的分析超长基因组序列中某段特异序列出现频率的算法,直接移植到平均长度仅有数百碱基的3'UTR集合的分析中去,是否恰当值得进一步探讨。
水稻是主要的粮食作物,理想的禾本科模式植物(Serageldin,2002)。基因组测序工作已基本完成,但这些序列信息仅仅是理解基因组功能的起点,重要而艰巨的任务是功能基因组研究,即对基因组所含的3-5万个基因进行精确的功能注释,揭示基因调控机制和相互作用网络(Yu
et al,2002;Goff et al,2002)。作为功能基因组学的重要内容,水稻的EST项目已产生不少的数据和成果(Sasaki
et al.,1994,1996; Yamamoto et al.,1997)。NCBI(National Center
for Biotechnology Information)的dbEST(EST database)数据库已积累了202,290条水稻EST
(截至2003.5.2 ),且积累速度正在加快。从EST数据规模看,相对基因组测序计划的进展,相比其他缺乏完整基因组数据的作物(如玉米),水稻EST的研究相当有限。从EST数据的来源看,特定组织或生物过程(如植物微生物互作)的数据较少。从已有EST序列特点看,绝大部分水稻EST序列出自5'端测序,缺乏具转录本特异性的3'EST。而3'EST数据的缺乏不利于表达谱的分析和以EST技术为基础的后续研究(如制备cDNA微阵列,基因组序列分析),也不利于对水稻mRNA非编码区,特别是对有重要调控功能的3'UTR序列特征的研究。基于上述情况,本研究组采用3'EST测序方式,分析了三个特异性水稻cDNA
文库的表达谱特征。在整理含3'UTR序列的EST数据的基础上,结合水稻基因组草图,着重挖掘了水稻mRNA 3'末端顺式作用元件的序列和分布特征 |
|