GSEA是一个可下载后免费试用的全基因组表达谱芯片数据分析工具。
现代生物医学进展http://ProgressinModernBiomedicine2009Vol.9No.13·2553·
·专论与综述·
GSEA在全基因组表达谱芯片数据分析中的应用*
冯春琼1邹亚光2周其赵3李铁求3梁
爽1毛向明3△
2南方医科大学南方医院口腔科,3南方医院泌尿外科,(1南方医科大学基因工程研究所,广州广东510515)
GSEA是一个可下载后免费使用的全基因组表达谱芯片数据分析工具。它根据已有的对基因的定位、摘要:性质、功能、生物学意义等知识的基础上,首先构建了一个分子标签数据库,数据库中包含了多个功能基因集。通过分析一组处于两个生物学状态的基因表达谱杂交数据,它们在特定的功能基因集中的表达状况,以及这种表达状况是否存在某种统计学显著性。GSEA是从另一个角度来诠释生物信息,可进一步完善我们对相关生物学事件的认识。GSEA;关键词:基因表达谱;数据分析Q75,Q78中图分类号:
B文章编号:1673-627313-2553-05文献标识码:(2009)
TheApplicationofGSEAinDataAnalysisofGenomeMicroarray*
FENGChun-qiong1,ZOUYa-guang2,ZHOUQi-zhao3,LITie-qiu3,LIANGShuang1,MAOXiang-ming3△
(1InstituteofGeneticEngineering;2Departmentofstomatology;
3DepartmentofUrology,NanfangHospital;SouthernMedicalUniversity,Guangzhou510515,China)
ABSTRACT:GSEAisoneoffreetoolsforanalyzingthegenomemicroarraydata.Itcreatedamolecularsignaturesdatabasebasedontheknownknowledgeofthepositions,characteristics,functions,biologicalmeaningsofgenes,thedatabsecontainedmanydifferentfunctionalgenesets.Twogroupsofmicroarraydata,suchasexperimentalandcontrolgroups,wereanalyzedbyGSEA,sotheenrich-mentsituationsofthegenesinsomechosengenesetscouldbelearned,eventheenrichmenthadstatisticsignificantornot.GSEAex-plainedthebiologyinformationinadifferentway,andcouldimprovetheunderstandingofrelatedbiologyprocessesanddrivefurtherre-searchinsomeareas.
KeyWords:GSEA;geneprofiles;dataanalysis
ChineseLibraryClassification:Q75,Q78Documentcode:BArticleID:1673-627313-2553-05(2009)
1GSEA概述
GSEA基因集富集分析(GeneSetEnrichmentAnalysis,)是麻省理工学院和哈佛大学的broadinstitute研究团队开发的一个针对全基因组表达谱芯片数据进行分析的工具,免费注册后即可进行下载和更新。GSEA提供两个版本GSEA2-2.01和GSEA-P-R[1].1.0,分别采用JavaJar语言和R语言编写。GSEA工具具有如下特点:1.1分析方法独特
这是GSEA与其它芯片数据分析软件最大的不同,也是GSEA最显著的特点。具体而言,即是在综合了现有的对基因GSEA构建的定位、性质、功能、生物学意义等信息的基础上,了一个分子标签数据库(MolecularSignaturesDatabase,MSigDB),在此数据库中首先将已知基因按照C1:染色体位置C2:C3:C4:(position)、已建立的基因集(curate),模序(motif)、GO基因集肿瘤相关基因集(computationalgenesets)和C5:(geneontologygenesets)进行分组归类,每个组下再进行细分,从而设置了多个功能基因子集。在对全基因组表达谱芯片杂交
数据集进行分析时,首先确定欲分析的目的,即选择MSigDB中的一个或多个功能基因集进行分析,然后将经过标准化处理后的数据,进行表达值大小的排序,之后,比较这些基因与选择的功能基因集中基因的符合度,从而发现研究的基因表达谱数据是否在选定的功能基因集中有某种共同表达的趋势,进而根GSEA方法关注的不据一定的算法,给出富集分数。可以看出,是有限几个发生显著改变的差异基因,而是关注这些检测基因的表达在定义的功能分组中是否有共同的表达趋势,是从另一个角度来解读生物学信息,以阐述其中的生物学意义,因此,越来越受到广大科研工作者的青睐。详细分组归类信息见图1。1.2分析速度快
GSEA可免费下载后在本地使用,运行时无需联网。根据运行时选择的数据随机组合次数等参数和功能基因集,分析时间需要几分钟至几十分钟不等。建议使用时一次选择一个功能基因集进行分析,分析时间就可控制在每次十几分钟,相比其他的分析工具,有的需要在线分析,如GeneSifter,受限于网络速度,可能需要1个小时甚至更长时间,有的需要将数据提交到专门的分析机构,甚至需要2~3个月,速度大大加快了。
*基金项目:30772167];2008J1-C131]国家自然基金资助项目[No:广州市科技计划项目[No:
feng1215@http://作者简介:冯春琼(1972-),女,博士研究生,讲师,从事肿瘤的分子机制研究。E-mail:E-mail:mxm@http://,Tel:13802503635通讯作者:毛向明,2009-05-21接受日期:2009-06-18(收稿日期:)
GSEA是一个可下载后免费试用的全基因组表达谱芯片数据分析工具。
·2554·现代生物医学进展http://ProgressinModernBiomedicine2009Vol.9No.13
即可使用。同时,为了使用时更加便利,也可同时下载网站提供微阵列注释文件(ArrayAnnotations),分别提供功的MSigDB,
能基因集信息和芯片平台信息[1]。这样软件即可在本地运行,而无需联网。另外,为了更好地使用GSEA软件,网站同时提供详细的使用指南和一些使用GSEA软件分析数据后发表的文章供使用者参考[2]。
GSEA软件支持的是ASCII格式的文本文件,因此另外,
预在运行GSEA软件前,用户首先需要按照软件运行的要求,GSEA的文件名中不先准备好下述4个文件。需要注意 …… 此处隐藏:9550字,全部文档内容请下载后查看。喜欢就下载吧 ……