|
|
EST数据集合按不同文库的背景分成三个数据子集:叶文库、胚乳库和茎文库子集,各自包含13316、9369 和 2485条具Poly(A+)尾的EST。通过序列的聚类分析将相似序列归为同一EST簇,每个EST簇被认为来自同一个独立的转录本TUT。单条序列产生的簇被称为"Singleton",两条以上的相似序列所产生的簇被称为"Contig"。基本数据的统计概况在表1中给出。虽然每条Poly(A+)
EST都含有被认为是基因特异性的UTR区域,但由于存在转录后修饰的情况或mRNA前体剪接方式的多样性,实际上也会导致成熟mRNA
3'UTR区域具序列多态性,这样代表同一个基因的EST有可能没有被分配到同一簇中。
不同的文库测序结果所获得的具Poly(A+)序列的百分比有所不同,这与文库的质量有关, 另外某些mRNA过高比例的Poly(A+)导致了测序结果无法满足本文对具有Poly(A+)尾EST数据的筛选规则。
Yamamoto等对来自水稻根、芽、穗等9个cDNA文库共24728条EST进行了冗余度分析(Yamamoto et
al.,1997),统计显示,TUT比例在开花期穗的1715条EST数据集中为29.9%,在绿芽组织的4506条EST数据集中为53.4%,而在总EST数据集中为57.5%,以此推断出非冗余基因(TUT)数目在整个EST数据集中的比例取决于测序规模的大小的结论。本文三个数据集中TUT比例和数据规模的关系不符合上述的推断,其中测序规模最小的茎文库子集TUT比例高达76.6%。原因之一是本文采用3'EST测序,具Poly(A+)尾的3'
EST一般被认为是能够代表每一个基因的比较特异的序列(Yazaki et al.,2000),相应的统计误差较小。对于5'EST测序,一般情况下构建完成的cDNA文库其每一个转录本都有长短不一的插入片段,平均只有40%的克隆(clone)能达到翻译起始位点或转录起始位点,这样有可能产生同一转录本派生出的不同EST,如果这些5'EST之间没有共同的重叠区,容易被统计为不同的基因。再者5'EST一般坐落于编码区,
由于同一家族的基因其开放阅读框(Open Reading Frame, ORF)内的序列差别可能较小,客观上极易误判来自同一基因,这些都导致在独立转录本(TUT)比例的统计存在的较大误差。原因之二是TUT比例在EST测序数量达到一定程度后,由于重复测序的克隆数增加,将呈下降趋势。原因之三是基因表达水平的组织特异性差异,这也是造成文库间TUT比例极不均一的主要原因。相比于胚乳文库子集,测序量最大的叶文库子集中TUT的比例高10个百分点,这意味着水稻叶片的生理功能复杂,涉及表达基因种类丰富,再者文库的背景是水稻叶片组织处于与病原微生物互作过程中,相关的基因表达活跃。水稻胚乳占种子重量90%-93%,是营养物质仓库,专供种子萌发及3叶期前的幼苗生长需要的营养物质,其生理功能集中在大量淀粉和一定数量的蛋白质合成上。从基因表达的角度而言,这一时期表达基因的类别专一性较强,并且一些基因的表达丰度异常地高,导致了能检测到的TUT数目相对较少。其后的冗余度和功能注释分析也支持这一结果。
水稻已知基因的数目较少,这一点从三个文库具有功能注释的TUT比例上可以反映出来, 从一个侧面说明全基因组序列完成后相当长的时间内,功能基因组研究仍是主要任务。基因组定位注释情况表明,定位的TUT在各个染色体上的分布极不均匀,可能由以下两个原因导致:一是精确的基因组图谱还没有完成,
如1号染色体的测序进展最快,定位在该染色体上的TUT数目相应较高。二是基因的染色体分布其不均一性客观存在。一些TUT定位在多个染色体上,说明基因多拷贝现象普遍存在。相当大一部分EST是第一次被检测得到,说明了公共数据库中水稻EST积累的数目远未到达几近覆盖全基因组水平。考虑到水稻拥有3-5万个基因,分离和鉴定足够数量的含3'UTR的EST有助于重要农艺性状基因的优选,将对应于3'UTR的EST进行RH
(Radiation Hybrid) 定位,即可构成由基因组成的序列标签位点(Sequence Tagged Site,
STS)图,可为水稻基因组草图详尽分析提供基因转录本信息。Sasaki 等将6591个独立3'EST定位于水稻染色体上(Wu
et al.,2002),完成了初步的转录图(transcript map),显示出3'EST的应用价值。
表1 序列处理的基本统计数据
Table 1. Basic statistical data of sequence processing
| |
叶文库子集 |
茎文库子集 |
胚乳文库子集 |
总数据集 |
| 随机克隆 |
15396 |
2683 |
10245 |
28324 |
| Poly(A+)序列 |
13316 |
2485 |
9369 |
25170 |
| Poly(A+)序列百分比 (%) |
86.5 |
92.6 |
90.6 |
88.9 |
| 最大有效长度 (nt) |
830 |
1040 |
1060 |
1060 |
| 平均有效长度 (nt) |
488 |
522 |
462 |
482 |
| Singleton |
3483 |
1591 |
2092 |
5818 |
| Contig |
2150 |
312 |
912 |
3503 |
| TUT |
5633 |
1903 |
3004 |
9321 |
| TUT的比例 (%) |
42.3 |
76.6 |
32.1 |
37.0 |
| A:功能注释TUT |
642 |
353 |
576 |
1388 |
| 功能注释百分比 (%) |
11.4 |
18.5 |
19.2 |
14.9 |
| B:基因组定位TUT |
1560 |
593 |
921 |
2702 |
| 基因组定位百分比 (%) |
27.7 |
31.2 |
30.7 |
29.0 |
| A∩B |
197 |
109 |
182 |
428 |
| 仅在该文库中发现的TUT |
916 |
259 |
653 |
1787 |
| 总碱基数(Mb) |
6.2 |
1.23 |
4.35 |
11.78 |
|
图1显示了各个文库中EST冗余度的分布,大部分基因为低水平表达,仅少部分基因高丰度表达。由于文库来自于不同的组织和生命过程,各个文库中表达基因的种类有很大的不同,各个共表达基因其冗余度也大相径庭,反映出不同背景文库的表达谱特征。有关三个文库冗余度的数据资源也可参阅NCBI网站(UniGene
Build #37 Oryza sativa)的统计结果,文库数据编号分别为Lib.9822、Lib.9823 和Lib.9824。网站www.estarray.org以另一种方式公开聚类结果,其中表达频率≤2的基因被视为低丰度表达基因;2<表达频率<10的基因被视为中丰度表达基因;表达频率≥10的基因被视为高丰度表达基因。目前对表达丰度划分高、中、低并无统一的规定,原因在于不同文库的序列数据规模差异较大,难以界定统一标准。
Goldberg等对源于玉米的9个cDNA文库73,000条EST进行统计(Goldberg RB,2001),结果发现在22
000条独立基因中单拷贝基因数占51.4%,二个和三个拷贝的基因数占27.0%;在各个文库中,代表细胞特异性的高丰度序列约占全部独立基因的5%。本文的统计结果与NCBI的UniGene统计结果基本一致,两者结果均支持Goldberg的研究结论
表2列举了三个文库最高冗余度的10类TUTs。胚乳文库含较高丰度的表达基因主要是与贮藏蛋白的编码、淀粉的合成、光呼吸等生化过程有关。其中25种不同的谷醇溶蛋白(glutelin)占总EST数量的13.01%,31种储存蛋白(prolamin)占10.05%,9种球蛋白(globulin)占4.17%,
6种过敏性蛋白(allergenic protein)占1.70%,仅这四类基因的EST数量占28.93%。如此大量的蛋白质合成也反映相关基因的EST数量的高丰度(29.5%),其中仅已知的7类延伸因子(elongation
factor)的相关EST数量就占0.37%。对于开花后第10~15天的第10~15天的未成熟种子,存在着大量的淀粉合成活动,30类直接参与淀粉合成的表达基因占3.07%并不令人意外,而3类油体蛋白(oleosin)占0.88%提示了在油含量较少的禾谷种子中其贮藏性脂质--油体(oil
body)普遍存在。大量的几丁质酶(glycine-rich protein)基因表达(占1.17%)说明了在胚乳在发育早期已经开始储备与细胞壁损伤修复有关的蛋白,这种为自身种属延续进行的物质准备,也体现在一些早期胚胎蛋白(early
embryogenesis protein)相关基因表达的活跃程度上。中高丰度表达基因中相当一部分(35%)为功能未知,推测这些基因的功能可能与胚乳发育的生理特征相关,鉴定这部分基因功能有助于稻米品质的改良,Cahoon等从苦瓜和凤仙花的产油组织EST数据库中分离出共轭双键脂肪酸合成途径的关键酶-脂肪酸共轭酶(Cahoon
et al.,1999),已经为利用这些未知EST的表达谱数据提供了范例。
表2. 三个文库中最高冗余度的10个TUT。
Table2. Most redundant TUTs in three respective libraries.
| |
GenBank ID |
ESTarray ID |
BLASTn功能注释 |
频率 |
比例% |
胚
乳
文
库 |
BI804772 |
H147D11 |
prolamin mRNA, complete cds, |
356 |
3.80 |
| BI803442 |
H110F01 |
Weakly similar to RP3 gene for
13kDa prolamin |
330 |
3.52 |
| BI802072 |
H069B11 |
GluB-1 gene for glutelin |
274 |
2.92 |
| BI803435 |
H110D03 |
18S small subunit ribosomal
RNA gene |
263 |
2.81 |
| BI798382 |
H106C01 |
RP6 gene for prolamin |
207 |
2.21 |
| BI802558 |
H083B10 |
glutelin subunit mRNA |
171 |
1.83 |
| BI800997 |
H034E06 |
mRNA for 19 kDa globulin |
166 |
1.77 |
| BI798418 |
H107C05 |
Similar to waxy locus for ADP(UDP)-glucose
starch glycosyl transferase |
165 |
1.76 |
| BI803359 |
H108B12 |
RA5 gene for allergenic protein |
154 |
1.64 |
| BI804776 |
H147H04 |
Low molecular weight globulin |
134 |
1.43 |
叶
文
库 |
BQ907176 |
N004E08 |
aldolase mRNA |
182 |
1.37 |
| BU666978 |
L011F06 |
Similar to glucanase (GLU) mRNA |
133 |
1.00 |
| BQ907617 |
P013A06 |
ZB8 gene |
112 |
0.84 |
| BI808579 |
D004A05 |
OsrcaA2 mRNA for RuBisCO activase
small isoform precursor |
106 |
0.80 |
| BQ909084 |
T021A05 |
mRNA for the small subunit of
ribulose-1,5-bisphosphate carboxylase |
98 |
0.74 |
| BQ907083 |
M024G10 |
polyubiquitin (RUBQ2) gene |
95 |
0.71 |
| BQ909120 |
T021F05 |
Unknown |
90 |
0.68 |
| BQ907985 |
Q002B04 |
Similar to type I chlorophyll
a/b binding protein of photosystem II |
84 |
0.63 |
| BM420898 |
U021A01 |
mRNA for EF-1 alpha |
60 |
0.45 |
| BQ907717 |
P016D04 |
mRNA for the small subunit of
ribulose-1,5-bisphosphate carboxylase |
58 |
0.44 |
茎
文
库 |
BI805542 |
S040G08 |
cab2R gene for light harvesting
chlorophyll a/b-binding protein |
21 |
0.85 |
| BI806072 |
S057B03 |
abscisic acid- and stress-inducible
protein (Asr1) mRNA |
14 |
0.56 |
| BI807252 |
S091H02 |
mRNA for EF-1 alpha |
14 |
0.56 |
| BM037865 |
S113B07 |
high mobility group protein
(HMG) mRNA |
12 |
0.48 |
| BI806274 |
S060D11 |
mRNA for alpha-tubulin |
11 |
0.44 |
| BI806590 |
S068G05 |
gene for phenylalanine ammonia-lyase
(EC 4.3.1.5) |
11 |
0.44 |
| BI806187 |
S058H07 |
mRNA for lipid transfer protein,
b1 |
9 |
0.36 |
| BM037830 |
S110F09 |
Similar to glycine-rich protein
(OSGRP1) mRNA |
9 |
0.36 |
| BM037848 |
S110H06 |
type I chlorophyll a/b binding
protein of photosystem II |
9 |
0.36 |
| BI805625 |
S042C10 |
Unknown |
8 |
0.32 |
 |
图1. 各个文库中EST冗余度分布图, x轴为冗余度,y轴为相应TUT的百分含量。
Fig.1. Assessment of EST redundancies in respective datasets,
x-coordinate represents the redundancy and y-coordinate
represents the percent of the according TUTs.
|
在叶文库中,两大类基因的表达丰度较高,一类是水稻叶片组织特异性相关基因,主要是参与植物光合作用相关的基因,其中参与光合作用暗反应的醛缩酶(aldolase)的表达丰度最高,这与叶片的生理作用特点相吻合。另一类是水稻受外界胁迫表达的抗逆相关基因,由于该cDNA文库是采用水稻叶片组织经接种稻瘟病菌诱导后所制备,所以此类基因的高丰度表达符合其生理意义。统计发现,数据集中涉及植物抗逆过程的已知功能蛋白达66类,包含171类TUT,共993条EST。主要分布在苯丙烷类代谢、氧代谢、氧化还原反应、病程互作过程及植物应激高温胁迫、光胁迫、水胁迫、创伤等生理过程,其中β-1,3-葡聚糖酶(β-1,3-glucanase)和苯丙氨酸解氨酶(Phenylalanine
Ammonia Lyase, PAL)的基因表达丰度仅次于醛缩酶基因。β-1,3-葡聚糖酶在高等植物中普遍存在,当寄主受感染时其活性与几丁质酶(chitinase)一起升高,作用是使病原真菌细胞释放出源于1,3-葡聚糖的诱导物,以诱导植物防卫反应相关基因的表达(Moore
et al.,1972; Beffa et al., 1996)。苯丙烷类代谢酶系,尤其是其关键酶PAL的活性可以作为植物抗病性的一个生化指标(Zhu
et al.,1995)。其他直接参与对植物防御反应的还有病程相关蛋白RH3(disease-resistant-related
protein RH3)、β-糖苷酶(β-glucosidase)、β-牛乳糖蛋白(beta-galactosidase-like
protein)和几丁质酶等。按经典的Bishop的理论(Bishop et al.,1974)判断,本文库中的低丰度表达基因多数是维持叶细胞正常生理活动所必需,而高丰度表达基因往往涉及叶细胞特异性生理活动。抗逆反应涉及多个基因的表达和协同作用(Dangl
J. et al.,2001; Dixon et al.,2001),联系到叶文库中20.1%的中、高丰度TUT占EST总量的58.5%,并且多达60%以上的EST是未知功能基因,对这部分EST深入研究可以发现与水稻抵御稻瘟病菌侵染的生理活动密切相关的新基因。这方面我们已经鉴定了一个与病程反应相关的转录因子,抗病品种中该基因在病源菌感染初期几小时内表达丰度急剧升高达到高峰,然后急剧下降进入消退期,而在感病品种中该基因不受病原菌诱导表达(未发表资料)。
茎主要生理作用为支持、输导和贮藏,茎特异基因相关报道数量极少(Maurer et al.,1996; Kwon et
al.,2001)。水稻的茎秆与抗倒伏和形成大穗有关,对灌浆结实也有极大关系,而分蘖是禾谷类作物最重要的农艺性状之一,在很大程度上决定了作物的产量。Li
Xueyong等通过鉴定单分蘖的突变体moc1(monoculm1) ,克隆完成分蘖主效基因--MOC1 转录因子(Li
et al., 2003)。这是近年来在植物形态建成特别是侧枝形成领域中最重要的发现之一,显示茎特异相关基因的研究正逐渐受到重视。在茎EST数据集中有两大类基因值得重点关注:一类是以信号传导相关的基因,仅有相应功能注释的相关EST就达8.3%,如此高的比例暗示茎组织细胞存在着一系列复杂的信号传导途径,这种网络机制有利于对内外环境的变化迅速做出应答。另一类是植物特有的转录因子如乙烯应答因子结合蛋白(ethylene
responsive element binding protein,EREBP)等,其种类和数量占相当大比例。Goff等根据水稻全基因组测序结果预测水稻转录因子基因的数量与拟南芥相似,约占基因总量的5%(Goff
et al., 2002),对植物新的转录因子功能研究有利于深入理解基因调控网络的结构组成和作物重要农艺性状的改良。
 |
图2. 三个文库TUT数据交叠图。交叠处的数字为相似TUT序列的数目。
Fig.1. Venn diagram showing overlap among three datasets.
The number of shared TUTs between datasets is shown where
each Venn circle intersects with another. |
三个文库基因的交叠情况以维恩图形式给出,见图5所示。可以看到只有143个TUT共交叠,占总数据集的1.5%,为中低丰度表达基因。将这143个TUT序列与NCBI水稻EST中数据集比对,142个能够在所公开的8个不同组织23个EST数据集中找到高度相似的EST,说明这部分基因是维持细胞最低生命活动所必须的看家基因(house-keeping
gene)。值得注意的是,这些看家基因大部分功能未知,这提示出水稻细胞基本生命活动的分子基础所知甚少。文库间两两交叠的情况与共交叠分析结果基本相符,各自仅少部分基因相互交叠,这种相互间的差异代表着不同组织的表达谱特征。这些结果体现出三个文库具备良好的应用价值,特别是那些仅仅在各个文库中发现的TUT,对这些候选的组织特异性基因进一步鉴定,有利于重要农艺性状基因的分离。
|
|