生物信息学常用网站及其使用说明
分子生物信息数据库简介
生物信息学常用网站及其使用说明
数据库类型随着近年来生物学实验方法和检测手段的不断发展与提高,积累了大量生物学的实验数据,通过对这些数据按一定目标与功能分类收集整理,形成了目前数以百计的生物信息数据库。
核酸和蛋白一级数据库、基因组数据库生物大分子三维空间结构数据库以上一级数据库为基础而形成的二级数据库
生物信息学广西医学科学实验中心
xy
生物信息学常用网站及其使用说明
分子生物信息数据库概述1960年代,第一个分子生物学数据库——Fred Sanger的胰岛素序列测定(1955)——蛋白质数据库PSD(Protein Sequence Database)——Margaret Dayhoff: 1960年代,创立PSD,即PIR的前身 1978,scoring matrices——PAM
Fred Sanger at The Wellcome Trust xy生物信息学广西医学科学实验中心 Sanger Institute
Pioneer in Bioinformatics Dr. Margaret O. Dayhoff (1925-1983)3
生物信息学常用网站及其使用说明
1982年,第一个核酸序列数据库GenBank(Los Alamos)——1982年,606条序列,长度680,338bp——2008年,约98,868,465条序列,长度99,116,431,942bp
生物信息学广西医学科学实验中心
xy
生物信息学常用网站及其使用说明
生物信息数据库几个明显的特征:(1)数据库的更新速度不断加快数据量呈指数增长趋势 (2)数据库使用频率增长更快 (3)数据库的复杂程度不断增加 (4)数据库网络化 (5)面向应用 (6)先进的软硬件配置生物信息学广西医学科学实验中心 xy5
生物信息学常用网站及其使用说明
一级数据库直接来源于实验获得的原始数据,只经过简单的归类、整理和注释。一级核酸数据库:GenBank数据库、EMBL数据库、DDBJ数据库一级蛋白质序列数据库:SWISS-PROT库、PIR库一级蛋白质结构数据库:PDB数据库二级数据库在一级数据库、实验数据和理论分析的基础上,针对不同的研究内容和需要,对生物学知识和信息的进一步整理得到的数据库。人类基因组图谱库GDB、转录因子和结合位点库TRANSFAC、蛋白质序列功能位点数据库Prosite等。生物信息学广西医学科学实验中心 xy6
生物信息学常用网站及其使用说明
建立分子生物信息数据库的流程图
生物信息学广西医学科学实验中心
xy
生物信息学常用网站及其使用说明
一个数据库记录(entry)一般由两部分组成: 1.原始序列数据(sequence data) 2.描述这些数据生物学信息的注释(annotation)注释中包含的信息与相应的序列数据同样重要和有应用价值数据的完整性和注释工作量: 1.序列数据广,序列注释不够完整 2.库数据面窄,序列注释全面数据库的动态更新: 1.不断增加 2.不断修正生物信息学广西医学科学实验中心 xy8
生物信息学常用网站及其使用说明
一级数据库A)核酸(DNA)序列数据库世界三大核酸序列数据库(公共序列数据库,Public Sequence Database)
GenBank(美国) EMBL(欧洲) DDBJ(日本) GenBank DDBJ
EMBL生物信息学广西医学
科学实验中心 xy9
生物信息学常用网站及其使用说明
GenBank DataYear Base Pairs 680,338 2,274,029 3,368,765 5,204,420 9,615,371 15,514,776 23,800,000 34,762,585 49,179,285 71,947,426 101,008,486 157,152,442 217,102,462 384,939,485 651,972,984 1,160,300,687 2,008,761,784 3,841,163,011 11,101,066,288 15,849,921,438 28,507,990,166 36,553,368,485 44,575,745,176 56,037,734,462 69,019,290,705 83,874,179,730 99,116,431,942 Sequences 606 2,427 4,175 5,700 9,978 14,584 20,579 28,791 39,533 55,627 78,608 143,492 215,273 555,694 1,021,211 1,765,847 2,837,897 4,864,570 10,106,023 14,976,310 22,318,883 30,968,418 40,604,319 52,016,762 64,893,747 80,388,382 98,868,465 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008
GenBank(美国国家生物技术信息中心, NCBI)
1988 NIH(National Institute of Health) Los Alamos National Lab NCBI(National Center for Biotechnology Information) NLM(National Library of Medicine)
生物信息学广西医学科学实验中心
xy
生物信息学常用网站及其使用说明
生物信息学广西医学科学实验中心
GenBank网址 xy
http://www.ncbi.nih.gov/Genbank/
生物信息学常用网站及其使用说明
EMBL(欧洲分子生物学实验室,EMBL)1982 European Molecular Biology Laboratory EBI(European Bioinformatics Institute)
生物信息学广西医学科学实验中心
xy
生物信息学常用网站及其使用说明
生物信息学广西医学科学实验中心
EMBL网址 http://www.ebi.ac.uk/embl xy
生物信息学常用网站及其使用说明
DDBJ(日本国家遗传学研究所,NIG) 1986 Databank of Japan NIG(National Institute of Genetics)E-mail查询地址: ddbj@ddbj.nig.ac.jp递交数据 E-mail地址: ddbjsub@ddbj.nig.ac.jp查询引用文献E-mail地址: ddbjupdt@ddbj.nig.ac.jp电话:+81-559-81-6853 Fax:+81-559-81-6849
生物信息学广西医学科学实验中心
xy
生物信息学常用网站及其使用说明
生物信息学广西医学科学实验中心
DDBJ网址 xy
http://www.ddbj.nig.ac.jp
生物信息学常用网站及其使用说明
B)基因组数据库
来源于人类基因组计划及各种模式生物基因组计划 1977年,最早获得的生物基因组全序列是噬菌体(53kb) 1995年,第一个自由生物体流感嗜血菌(H. inf)被完全测序
生物信息学广西医学科学实验中心
xy
生物信息学常用网站及其使用说明
部分生物基因组计划网址老鼠(Mouse) /mgd.html小鼠(Rat) http://ratmap.gen.gu.se狗(Dog) http://mendel.berkeley.edu/dog.html牛(Cow) http://locus.jouy.inra.fr/cgi-bin/bovmap/intro2.pl猪(Pig) http://www.ri.bbsrc.ac.uk/pigmap/pigbase/pigbase.html羊(Sheep) http://dirk.invermay.cri.nz鸡(Chicken) http://www.ri.bbsrc.ac.uk/chickmap/chickbase/manager.html斑马鱼(Zebra fish) http://zfish.uoregon.edu线虫(C. elegans) http://www.ddbj.nig.ac.jp/htmls/celegans/html/CE_INDEX.html果蝇(Drosophila) http://morgan.harvard.edu蚊子(Mosquito) http://klab.agsci.colostate.edu拟南芥(Arabidopsis) http://genome-www.stanford.edu/Arabidopsis棉花(Cotton) http://algodon.tamu.edu玉米(Maize) http://www.agron.missouri.edu水稻(Rice) http://www.staff.or.jp大豆(Soya) http://mendel.
agron.iastate.edu:8000/main.html树(Trees) http://s27w007.pswfs.gov生物信息学广西医学科学实验中心 xy17
生物信息学常用网站及其使用说明
GDB(美国、加拿大) 1990年,John Hopkins大学建立,后由加拿大儿童医院生物信息中心管理,2003年起,GDB-related software and public data were transferred to RTI International .
数据内容:基因组结构数据、基因组图谱、基因多态性数据与其它分子生物信息网络资源(EMBL、GenBank…)的链接生物信息学广西医学科学实验中心 xy18
生物信息学常用网站及其使用说明
GDB网址
/wiki/GDB_Human_Genome_Databasexy19
生物信息学广西医学科学实验中心
生物信息学常用网站及其使用说明
AceDB线虫基因组数据库。既是一个数据库,又是一个数据库管理系统。提供很好的图形界面,用户能够从大到整个基因组小到序列的各个层次观察和分析基因组数据。
数据内容:限制性图谱,基因结构信息,质粒图谱,序列数据,参考文献…
生物信息学广西医学科学实验中心
xy
生物信息学常用网站及其使用说明
AceDB网址生物信息学广西医学科学实验中心 xy
21