bioconductor系列教程之一分析基因芯片上
bioconductor系列教程之一分析基因芯片上
可以取代MAS5的主要还有两种算法,分别是dChip和RMA。RMA算法正逐
步成为microarray的主流算法。RMA全称为log scale robust multi-array analysis,
多阵列对数健壮算法。RMA算法并不直接从PM的信号中减去做为背景的MM
信号,而是基于20组探针的信号分布来判断是信号还是噪音。这种算法无疑对
于低噪号的实验有较大的适用性。
Figure 2 MAS5.0, dChip 和RMA算法结果比较(数据来源:Summaries of Affymetrix
GeneChip probe level data. Irizarry RA, Bolstad BM, Collin F, Cope LM, Hobbs B, Speed TP.
Nucleic Acids Res 2003: 31(4);)
所以这里,我就主要介绍一下如何在bioConductor使用RMA算法预处理基因芯
片原始数据。
首先,去/support/technical/sample_data/demo_data.affx
下载一些示例数据文件下来。这里,我使用Arabidopsis-AG AGCC数据示例。
我们先把下载下来的文件解压后拷贝ArabidopsisATH1-121502.CEL文件至R工
作文件夹下。
bioconductor系列教程之一分析基因芯片上
首先是一个快速上手教程:
> library(affy) ##加载库文件 1 2 Loading required package: Biobase 3 4 Welcome to Bioconductor 5 6 Vignettes contain introductory material. To view, type 7 8 'openVignette()'. To cite Bioconductor, see 9 10 'citation("Biobase")' and for packages 'citation(pkgname)'. 11 12 > Data <- ReadAffy() ##读取工作目录下的CEL文件 13 14 > eset <- rma(Data) ##用RMA算法预处理数据,这时它会自动下载CDF文件,所以需要联网。15 16 trying URL 17 '/packages/2.6/data/annotation/bin/windows/contrib/2.11/ath1121501cdf_2.6.0.18 19 Content type 'application/zip' length 1744505 bytes (1.7 Mb) 20 21 opened URL 22 23 downloaded 1.7 Mb 24 25 package 'ath1121501cdf' successfully unpacked and MD5 sums checked 26 27 The downloaded packages are in 28 29 C:\Documents and Settings\jianhong ou\Local Settings\Temp\RtmpHn3D5q\downloaded_packages 30 31 Background correcting 32 33 Normalizing 34 35 Calculating Expression 36 37 > write.exprs(eset,file="mydata.txt") ##将经过处理后的数据输出至mydata.txt文件。
我们从这简单的几步,就可以得到拟兰介基因芯片中每个对应的基因的表达状况
了。
bioconductor系列教程之一分析基因芯片上
bioconductor系列教程之一分析基因芯片中(质量控制)
上一节,我们了解了分析基因芯片的预处理的基本知识。其实那只是一个热身。这一节,我们来学习拿到基因芯片数据时更基本的操作:质量控制。只有通过质量检测合格的芯片数据才会真正地进入数据分析的步骤。本节将学习以下内容: 背景
教程数据下载 质量控制总览图及报告
使用FitPLM生成权重,残差及NUSE图像
总结
背景
通过上一节的介绍,我们了解到Affymetrix基因芯片中的探针都是由25个碱基组成的寡聚核苷酸序列。每个芯片上可能包含上百万的探针,它们被整齐有序的印刷在芯片上。而探针的排序以组为单位,随机排列。而每一组,都由20对探针组成。这一组探针被称为探针组(probeset)。每一对探针都由perfect match(PM)和mismatch(MM)组成,称为探针对(probe pair)(figure 1)。MM与PM维一的不同,就是正中央的那个碱基不同,其余的都一致。人们期待MM不会象PM那样与RNA或者DNA有特异性配对,有的只是非特异性配对。而事实上,我们都知道,这是不可能的。在后面的教程中,会可能提及一些这方面的分析。 而每一个探针组都均匀包含了目标基因3’至5’不同区段特异序列。这种设计一方面可以通过均衡它们结果的方式来获取目标基因的表达强度(这一过程被称为总结步骤(summarization step)),另一方面,它也可以提供mRNA降解的程度信息。我们知道一般mRNA都是按5’端至3’端的顺序来降解的,而这些探针组应该能体现这一趋势。
上一节我们谈到过标准化的问题。这一节并不会深入探讨这个问题,但是我们会简单地应用上一节提到过了两个标准化方法MAS5和RMA方法。使用它们只是作为一种示例来表达如何通过试用不同的标准化方法来获得最佳的结果。
bioconductor系列教程之一分析基因芯片上
Affymetrix公司在指导手册上就已经提出了用于判断基因芯片质量的多种标准。这些标准大多都是依照该公司的MAS5算法而提出的,所以我们还是得重新提及一下MAS5算法。
提取差异表达的基因
从基因芯片当中提取生物学的信息需要合理的统计学方法。人们已经为优化传统统计学方法在基因芯片方面的应用做出了多年的努力。但是直到现在,最主要的努力依然还是依据实验设计的差别,用统计学方法提取出差异表达的基因,然后再转回使用实验的方法去验证这个结果。
在提取差异表达的基因时,人们总是会有这两种考虑,一是不可漏过一个,二是不能错杀过多(在英语里称为false discovery rate(FDR)错误发现率)。常见的手段是使用多种统计学方法来分析同样一个结果,尽可能多的得到差异表达的基因,而排除那些假的信号。然而学习和使用多种统计分析手段并不一定对于每一个生物学工作者都是非常容易的,这需要付出时间和努力。在这里,我们尽量多介绍几种常用的统计分析手段,并给出实践中人们常常使用的组合,来帮助你更好的分析自己的数据。
现在常用的分析手段主要有:significance analysis of microarrays(SAM),CyberT和Rank products(RP)三种手段。其中CyberT是bioconductor当中最为常用的分析手段,因为它的算法完整地被limma库实现。但有研究指出,使用SAM和RP算法相结合可能是最佳的方案。其实任何一种算法都是有局限性的,我们需要从根本上对算法有所了解,然后才能有针对性地选择合适的算法。
SAM:Tusher VG, Tibshirani R, Chu G. Significance analysis of microarrays applied to the ionizing radiation response. Proc Natl Acad Sci USA 2001; 98:5116-21 CyberT: Baldi P, Long AD. A Bayesian framework for the analysis of microarray expression data: regularized t-test and statistical inferences of gene changes. Bioinformatics 2001; 17:509-19
RP: Breitling R, Armengaud P, Amtmann A, et al. Rank products: a simple, yet
powerful, new method to detect differentially regulated genes in replicated microarray experiments. FEBS lett 2004;573:83-92