基因芯片 差异表达
大规模的数据分析[3]。
4.3 监督性聚类(supervisedclustering) 在许多生物学问题
的研究中,常存在一些已知的信息,并可用于指导分类和研究
新的数据,此时监督性方法是一个很好的选择。监督性聚类通
常从一个示范集的现有信息中进行学习,并定义每一个类的特
征,然后用这些定义对新的数据进行分类。监督性聚类的一个
最主要的目的就是构建分类器。常用的监督性聚类如支持向
量器(supportvectormachines,SVM)、线性判别式、决策树、
和监督性神经网络。
SVM是在基因表达谱聚类中应用较广的机器学习方
法[18]。它利用表达数据,根据已知功能的基因来识别具有相
似表达谱的未知基因。SVM从一个具有某共同功能的基因集
开始,并确定另一个不具有该功能的基因集。将这2个基因集
合并为一个示范集,其中具有某功能的基因被标记为正,那些
不具该功能的基因被标记为负。利用这个示范集SVM可以
根据表达数据,学习区分该功能基因集的成员和非成员。之
后,SVM就可以根据新的基因的表达数据对其进行功能分类。
将SVM用于示范集,的基因,它们通常为离群值。
Fisher线性判别分析(Fisher’2
sis,LDA)分类的一种方法。LDA,将类内方差
最小化,由此定义Fisher[18]:
式2:J(w)=。2S21+S21891决定。网络各个节点的状态集合为整个系统的状态,系统的动态状态,由各节点的连接输入及函数决定。布尔网络虽然是对基因调控网络的粗糙模拟,但它仍反映了基因调控网络的复杂性,自组织性和冗余性等特点[21]。布尔网络模型简单,便于计算,但是它是一种离散的数学模型,不能很好地反映细胞的实际情况。如布尔网络不能反映各个基因表达的数值差异,不考虑基因作用大小的区别等。Chen等[22]提出的基因表达线性转录模型是一种微分方程模型。该模型用基因转录率来描述基因及其翻译产物的反馈机制,将基因表达描述为式3:=Mx M=dt-V CL -。其中x=(r,p)T,为mRNA和蛋白质的变量,M为2n×2n的跃迁矩阵,V,C,L,U分别为mRNA降解率、转录常数,翻译常数和蛋白质降解率,,M。Michiel,并。加权矩阵模型将一个基因的表达值作为其他基因表达值的函数[24]。含有n个基因的转录调控的基因表达状态用n维空间中的向量u(t)表示,u(t)的每一个元素代表一个基因在时刻t的表达水平。以一个加权矩阵W表示基因之间的调控相互作用,W的每一行代表一个基因的所有调控输入。在时刻t基因j对基因i的净调控输入为j的表达水平(即uj(t))乘以
j对i的调控影响程度Wij。基因i的总调控输入ri(t)为:
j2其中m1,m2分别表示2个类的均值;s21,s2分别表示2个类的方差。在信号系统中,Fisher判别标准又可被称为“信噪比”。将J(w)最大化,得到数据的分类。
决策树是数据挖掘的标准工具,由根部开始,通常由2部
分组成:位于节点内部的简单分类器以及位于“叶”的类。针对
每一个输入向量,节点上的分类器根据某一个价值函数进行判
断,决定这个向量的流向,最终对该向量产生一条唯一的路径
达到“叶”,即对其分类。这是一个递归的过程,在此过程中,决
策树自身进行修正去除那些多余的节点[18]。Brown等[18]将
几种监督性聚类方法应用于酵母基因的分类,发现SVM的分
类结果优于其他的几种方法。
聚类分析的挑战就是恰当地应用算法提高分类的合理性。
但遗憾的是,这里并没有一个单一的最好的标准,因为对“类”
本身而言,并没有一个严格的定义。不同的聚类方法要求不同
的数据分布特征,如果数据的分布特征正好服从某种聚类方法
的要求,那么就可能得到“真实的”分类。对聚类方法的评价只
能针对具体的应用进行,并没有哪一种聚类方法在所有的应用
中都是最好的[19]。
5 基因调控网络分析式4:ri(t)=∑Wijuj(t)。若Wij为正值,则基因j激发基因i的表达,而负值表示基因jj抑制基因i的表达,0表示基因j对基因i没有作用。6 结 语这里所讲述的方法并不是分析芯片表达数据所有方法的枚举,而是目前较为常用的几种方法。基因芯片所遇到的挑战并不在于表达芯片实验技术本身,而是发展实验设计方法及数据分析[25,26]。实验中数据标准化的方式,度量相似性的方式以及模型的选择都会对分析结果产生影响。对不同的数据集来说,采用不同的方法可能挖掘到不同的信息,有的方法可能更恰当,而有的则不合适。最终任何数据分析手段都应有生物学的知识为基础,如果一个分析所展示的数据内部信息与我们对该数据系统的理解是一致的,那么很可能其外延推论也是有效的。与已经发展了几十年的结构基因组学相比,基因表达谱的生物信息学仅处于起步阶段,尽管应用了诸如聚类分析、调控网络模型重建等方法,但仍有许多问题有待进一步研究。尤其
对基因调控网络的研究,尽管目前已发展了一些模型,但还不
完善,这些问题对理解复杂的生命现象非常重要。在后基因组
时代,人们面对的是海量的生物信息数据,并且这种数据的增
长速度极其迅速,如何发展有效的生物信息学工具,从这种包
含序列结构和功能信息的数据海洋中确定与某一特定生命现
象(如生长、发育,肿瘤发生等)相关的基因及其功能,将成为各
国科学家的重要研究任务。
参考文献:
[1]KerrK,ChurchillG.Statisticaldesignandtheanalysisof聚类分析可以对基因进行功能聚类,为研究者提供单个基因的功能信息,但是,要了解细胞的过程还应该从整体出发,观察基因之间的相互关系。一个基因的表达受其他基因的影响,而这个基因又会影响其他基因的表达,这种相互影响、相互制约的关系构成了复杂的基因表达调控网络。基因调控网络分析的目的就是要建立调控网络的数学模型,通过数学模型来分析基因之间的相互作用关系。布尔网络模型(booleannetworks)是转录调控网络最简单的一种模型[20]。在布尔网络中的每一个节点代表一个基因,每一个基因的状态用0/1来表示,即“关”或“开”,由一个函数