dedecms织梦内容管理系统
首页 | 生物前沿 | 生物考研 | 生物文档 | 实验操作 | 图片库 | 健康专栏 | 论文写作 | 生物电子书 | 专题 | 会员中心 | 支持论坛
当前位置:首页>生物数据库>文章内容
UniGene Resources
来源:互联网 作者:未知 发布时间:2006-08-26
UniGene是从属于GeneBank的一部分,专门收集非冗余性的基因来源的clusters数据。每一个UniGene Cluster包含代表单一基因的序列和相关的信息,例如基因表达的组织类型和图谱定位信息。
除了这些具有具有特征的序列以外,成千上万的EST也被收录在内。因此,相应的,这些收集的资源可以作为基因发现的来源。现在,许多实验室研究人员已经利用UniGene进行大规模的基因表达图谱分析,并且所有这些序列并没有被用来尝试产生Contigs或Consensus。这里存在一些原因解释为什麽同属于某一基因的序列不用来产生一个单一的Contig.
所有属于同一基因的剪切变异被放在同一聚类中。
来从同一cDNA克隆的EST序列,通常都有5’和3’端的序列,但这些序列并不都具有重叠部分。
当前,Unigene已收录了Human 、Rat、Mouse和Cow、Zebrafish的序列。选择这些物种是因为它们有大量的EST可用数据,其它物种的序列将在今后陆续被加入。
UniGene的数据可通过FTP下载
UniGene Build Procedure:
聚类是一个发现同属于一个大类中的小的亚序列的过程,可通过转换离散相似值为序列之间的布尔数学体系联系。也就是说,如果序列间的相似性超过某一阈值,则认为它们具有相关性。UniGene clustering 对于这种相关性分析提供更多的生物学意义上的考虑,聚类过程大致如下:
1.对序列中的载体、寡核苷酸、重复片段以及线粒体、核糖体等污染序列进行过滤。去除污染序列之后的序列至少要含有100bp的带有信息的序列才可作为候选序列。
2.Gene links
从属于同一基因的序列(包括 mRNA or genome sequences, 完整的 CDS)彼此之间要进行比较,足够相似的序列被放在一起,形成初始的clusters。
3.EST to Gene links and EST to EST
通过megablast,EST与属于同一基因的序列进行比较,足够相似的序列 被加入到这些clusters。如果某一个序列,表现为可同时放在2个不同clusters,但不能把2个clusters联成一个cluster,这样的序列必须被剔除。另外,如果在clusters有2个以上的带有 3’末端标记EST或在Cluster中没有带有poly(A)信号的序列,这样的Clusters必须被抛弃。
经过这些标准筛选得到的clusters,称为锚定clusters 。因为这些clusters具有3’ 末端序列,并被假定为已知的。
4 根据克隆信息设定Cluster的边界。
这样可以确保如果同属于一个Cluster的5’末端和3’末端ESTs即使中间没有重叠的片段将它们联系起来,也能认定它们属于同一个cluster。如果在一个Cluster中有两个3’末端ESTs,那么就可在相同的克隆中找到两个5’末端EST,并将其放到同一个Cluster中。并且可以提供Clusters之间合并的信息。
由于新的序列数据的加入和每星期的不断更新,因此在UniGene中的resulting Cluster每星期也随之重新整理,不断更新。Clusters之间会发生融合,因此使用Cluster的ID作为标识,是不明智之举,最好利用GB accession numbers比较安全。
目前,在UniGene中包括有48,000clustes,Clusters 大部分依据EST序列形成,每一个Cluster代表一个human gene 的转录子,当前估计人类基因组约有80,000到100,000基因。利用UniGene Clusters的一个重要的目的是识别新的,非冗余的候选b表达图谱,为产生一个转录子图谱-识别基因组所有的编码序列。
[收藏] [推荐] [评论(0条)] [返回顶部] [打印本页] [关闭窗口]
用户名: 新注册) 密码: 匿名评论
评论内容:(不能超过250字,需审核后才会公布,请自觉遵守互联网相关政策法规。
§最新评论:
热点文章
·最新CNKI免费帐号
·推荐你阅读的英文文章
·专业词典大全
·CNKI免费资源收集
·美国化学文摘数据库
·维普中文科技期刊数据库
·搜索研究院
·生物信息学简概及教程(经典)
·专业文献与数据库
·中国科技经济新闻数据库
·生物学文摘
·关于RefSeq:NCBI参考序列
相关文章
·NCBI-基因和疾病
·Cluster of Orthologous Groups
·Gene Expression Omnibus (GEO)
·NCBI-Coffee Break
·NCBI癌症基因组研究介绍
·LocusLink介绍
·NCBI(美国国立生物技术信息中心)
·关于RefSeq:NCBI参考序列
·NCBI(美国国立生物技术信息中心)
·生物信息学简概及教程(经典)
·发育生物学与遗传学网址
·CNKI免费资源收集
Power by DedeCms