第三章 生物信息学数据库
内容提要 主要的生物信息中心 生物信息数据库 常见序列格式 数据库信息检索系统 向数据库提交数据
主要的生物信息中心
主要生物信息中心 NCBI 美国国家生物技术信息中心,National Center for Biotechnology Information– NCBI管理着GenBank、UniGene、dbSNP等数据库,提供Entrez、 BLAST等数据库检索工具 – http://www.ncbi.nlm.nih.gov
EBI,欧洲生物信息学研究所,European Bioinformatics Institute– 1994年成立于英国剑桥,其前身为位于德国海德堡的欧洲分子生 物学实验室的信息部门。EBI 接受了原来EMBL数据库的管理和维 护,并且是欧洲分子生物学网(EMBnet)的一个特别节点。 – http://www.ebi.ac.uk/
EMBnet, 欧洲分子生物学信息网– 建立于1988年,在荷兰注册。中国在1996年加入其成员国, EMBnet的中国节点设在北京大学生物信息中心PKUCBI。 – /4
主要生物信息中心 EMBL,欧洲分子生物学实验室,European Molecular Biology Laboratory– 主要实验室设在德国海德堡 – http://www.embl-heidelberg.de
NIG 日本国立遗传学研究所,National Institute of Genetics– 维护和管理日本DNA数据库DDBJ。该数据库首先反映 日本产生的数据,同EMBL、GenBank有合作关系。 – http://www.ddbj.nig.ac.jp
生物信息数据库
生物分子数据 高速增长
分子生物学 及相关领域研究人员 迅速获得最新实验数据
建立生物分子 数据库
2015/12/20
生物信息数据库 生物信息数据库的特点– 数据库的更新速度不断加快,数据量呈指数增 长趋势 – 数据库种类的多样性。生物信息学各类数据库 几乎覆盖了生命科学的各个领域 核酸序列数据库 蛋白质序列数据库 蛋白质、核酸、多糖三维结构数据库 基因组数据库 ……..8
2015/12/20生物信息学 概论讲义
生物信息数据库 生物信息数据库的特点– 数据库的复杂性增加、层次加深 数据库之间相互引用,如PDB 与文献库、蛋白质二 级数据库、蛋白质结构分类数据库、蛋白折叠库等 十几种数据库直接关联
– 数据库使用高度计算机化和网络化 几乎所有的数据库都可以在国际互联网上访问 有的系统则将多个生物信息数据库整合在一起,形 成集成的生物信息数据库系统
生物信息数据库 生物信息数据库的特点– 面向应用 各个数据库服务器除了提供数据,还提供许多分析 工具 – 核酸数据库提供的序列搜索 – 基因识别程序 – 蛋白质结构数据库提供的结构比较程序 – 结构模拟程序 – ………2015/12/20生物信息学 概论讲义
生物信息数据库 生物信息数据库分类– 一
次数据库(primary database) 直接来源于实验获得的原始数据,只经过简单的归类整理和注 释 基本数据库或初始数据库
– 三类一次数据库 基因组数据库 核酸和蛋白质一级结构序列数据库 生物大分子(主要是蛋白质)三维空间结构数据库
2015/12/20生物信息学 概论讲义
生物信息数据库 生物信息数据库分类– 二次数据库(secondary database) 对原始生物信息数据进行分析、整理、归纳而形成 的数据库
– 二次数据库种类繁多 以核酸数据库为基础构建的二次数据库 以蛋白质序列数据库为基础构建的二次数据库 以具有特殊功能的蛋白质为基础构建的二次数据库 以三维结构原子坐标为基础构建的数据库 ……12
2015/12/20生物信息学 概论讲义
生物信息数据库
染色体基因组作图
基因组图谱
基因组 数据库
核酸 序列测定
DNA序列
核酸序列 数据库
生 物 信 息 学 数 据 库 工 具
二 级 数 据 库 复 合 数 据 库
蛋白质序列
蛋白质序列 数据库
蛋白质
结构测定 蛋白质结构 数据库
2015/12/20
蛋白质结构
从1994年开始,牛津大学出版的“核酸研 究 (Nucleic Acids Research)‖每年第一期是 生物数据库专辑,对每一个数据库的性质、 内容和更新状况进行综合描述。 http://www.oup.co.uk/nar/
NAR对数据库的分类(2006) DNA序列库/Nucleotide Sequence Databases RNA序列库/RNA sequence databases 蛋白质序列库/Protein sequence databases 结构数据库/Structure Databases 基因组数据库/Genomics Databases (non-vertebrate) 代谢与信号转导/Metabolic and Signaling Pathways 人类及其它脊椎动物基因组/Human and other Vertebrate Genomes 人类基因与疾病/Human Genes and Diseases 芯片数据及表达数据/Microarray Data and other Gene Expression Databases 蛋白质组资源/Proteomics Resources 其它分子生物学库/Other Molecular Biology Databases 细胞器数据/Organelle databases 植物数据库/Plant databases 免疫学数据库/Immunological databases
GenBank 美国国家生物技 术信息中心的数 据库 提供Entrez检索 工具、BLAST序 列搜索等服务
EMBL/EBI EMBL Database 欧洲分子生物学实验室 (European Molecular Biology Laboratory )核酸序 列数据库,为欧洲最主要的核酸序列数据库,世界 两大核酸数据库之一。目前此数据库由其分支机 构—EBI(the European Bioinformatics Institute, 欧洲生物情报研究所)维护。 北京大学已建立了EMBL中国镜像数据库,将该数 据库移植到中国本地,并提供部分的检索服务– /mirror/mirror.html –
EMBL/EBI
蛋白质序列数据库– UniProtKB/Swiss-Prot
蛋白序列数据库,由日内瓦大学医学生物化学系(the Department of Medical Biochemistry of the University of Geneva )与EMBL(European Molecular Biology Laboratory,欧洲分子生物学实验室)共同维护 UniProtKB/Swiss-Prot 是对数据人工审读很严格的数据库,只有实际存在的蛋 白质才被收入,每一条数据都有详细的注释,包括功能、结构域、翻译后的修 饰等,以及齐全的引文和相关链接。 http://www.expasy.ch/sprot (北京大学生物信息中心也有镜像)
蛋白质序列数据库– PIR (Protein Identification Resource) 维护者为美国华盛顿的全国生物医学研究基金 (NBRF)、德国马普学会的慕尼黑蛋白质序列信息中 心(MIPS)和日本国际蛋白质序列数据库(JIPID)。 包含所有序列已知的自然界中野生型蛋白质的信息, 该数据库的主要目的是提供按同源性和分类学组织 的综合的、非冗余的数据库。每周更新,每季度发 行新版。 内容分为四级,即:PIR1(完全分类清楚); PIR2(已 检查和分类); PIR3(未检查); PIR4(未解码翻译)。 http://pir.georgetown.edu/20
蛋白质序列数据库