欢迎来到企业文库! | 帮助中心 分享价值,成长自我!
企业文库
首页 企业文库 > 资源分类 > PDF文档下载

生物信息学-03序列相似性搜索1.pdf

  • 资源大小:7.93MB        全文页数:123页
  • 资源格式: PDF        下载权限:游客/注册会员/VIP会员    下载费用:0
游客快捷下载 游客一键下载
会员登录下载
下载资源需要0

邮箱/手机号:
您支付成功后,系统会自动为您创建此邮箱/手机号的账号,密码跟您输入的邮箱/手机号一致,以方便您下次登录下载和查看订单。注:支付完成后需要自己下载文件,并不会自动发送文件哦!

支付方式: 微信支付    支付宝   
验证码:   换一换

友情提示
2、本站资源不支持迅雷下载,请使用浏览器直接下载(不支持QQ浏览器)
3、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰   

生物信息学-03序列相似性搜索1.pdf

第三章 序列相似性搜索一、序列相似性搜索的任务和目的1. 序列相似性搜索的任务2. 序列相似性搜索的目的二、同源和相似等相关慨念三、序列的 BLAST分析四、专门的 BLAST服务器五、序列的FASTA 分析1. 序列比较的任务发现序列之间的相似性辨别序列之间的差异2. 目的相似序列 → 相似的结构,相似的功能判别序列之间的同源性推测序列之间的进化关系一、序列相似性搜索的任务和目的相似性similarity是指一种很直接的 数量关系 ,比如部分相同或相似的百分比或其它一些合适的度量。比如说,A序列和B序列的相似性是80%,或者4/5。这是个量化的关系。当然可进行自身局部比较。二、同源和相似等相关慨念同源性homology指从一些数据中推断出的两个基因或蛋白质序列具而共同祖先的结论,属于质的判断 。就是说A和B的关系上,只有是同源序列,或者非同源序列两种关系。而说A和B的同源性为80%都是不科学的。相似性和同源性关系序列的相似性和序列的同源性有一定的关系,一般来说 序列间的相似性越高的话,它们是同源序列的可能性就更高 ,所以经常可以通过序列的相似性来推测序列是否同源。一般认为,蛋白质序列间至少有80个氨基酸左右的区域有25或更高的 相似 性;DNA序列具有75以上的 相似 性有潜在的生物学意义。正因为存在这样的关系,很多时候对序列的相似性和同源性就没有做很明显的区分,造成经常等价混用两个名词。所以有出现A序列和B序列的同源性为80%一说。序列相似性比较和序列相似性比较和序列同源性分析序列同源性分析序列相似性比较序列相似性比较就是将待研究序列与就是将待研究序列与DNA或蛋白质序列库进行比较,或蛋白质序列库进行比较,用于确定该序列的生物属性,也就是找出与此序列相似用于确定该序列的生物属性,也就是找出与此序列相似的已知序列是什么。完成这一工作只需要使用两两序列的已知序列是什么。完成这一工作只需要使用两两序列比较算法。常用的程序包有比较算法。常用的程序包有BLAST、、FASTA等;等;序列同源性分析序列同源性分析是将待研究序列加入到一组与之同源,但来自不同物是将待研究序列加入到一组与之同源,但来自不同物种的序列中进行多序列同时比较,以确定该序列与其它种的序列中进行多序列同时比较,以确定该序列与其它序列间的同源性。这是理论分析方法中最关键的一步。序列间的同源性。这是理论分析方法中最关键的一步。完成这一工作必须使用多序列比较算法。常用的程序包完成这一工作必须使用多序列比较算法。常用的程序包有有CLUSTAL等;等;三、序列的BLAST分析1. 相似序列搜索相似序列搜索的一般步骤的一般步骤BLAST Basic Local Alignment Search Tool allows rapid sequence comparison of a query sequence against a database.BLAST 是由美国国立生物技术信息中心(是由美国国立生物技术信息中心(NCBI))开发的一个基于开发的一个基于序列相似性序列相似性的数据库搜索程序。是的数据库搜索程序。是一种一种基本局域联配搜寻工具。The BLAST algorithm is fast, accurate, and web-accessible.2. BLASTWebsite of BLASThttp//www.ncbi.nlm.nih.gov/BLAST/ BLAST2.0http//www2.ebi.ac.uk/blast2/ WU-Blast2http//blast.wustl.edu/ WU-Blast22.1 Blast的算法基础的算法基础 BLAST算法本身很简单,它的基本要点是算法本身很简单,它的基本要点是 序列序列片段对(片段对(segment pair))的概念。所谓序列的概念。所谓序列片段对是指两个给定序列中的一对子序列,片段对是指两个给定序列中的一对子序列,它们的长度相等,且可以形成无空位的完全它们的长度相等,且可以形成无空位的完全匹配( blast2.0引入了允许插入 gap的算法)。法)。 BLAST算法首先找出代查序列和目标序列间所算法首先找出代查序列和目标序列间所有匹配程度超过一定阈值的序列片段对,然有匹配程度超过一定阈值的序列片段对,然后对具有一定长度的片段对根据给定的相似后对具有一定长度的片段对根据给定的相似性阈值延伸,得到一定长度的相似性片段,性阈值延伸,得到一定长度的相似性片段,称高分值片段对( high-scoring pairs, HSPs)。)。Blast的算法流程的算法流程要对两个序列进行排比,必须首先打出其相似性要对两个序列进行排比,必须首先打出其相似性的定量分值的定量分值,于是需要一个打分矩阵。于是需要一个打分矩阵。打分矩阵打分矩阵Scoring Matrices给不同的氨基酸配对定义的一系列相似性分值。而一给不同的氨基酸配对定义的一系列相似性分值。而一个突变打分方案个突变打分方案mutation data matrix则是根据排比则是根据排比时序列中点突变的情况设计出的打分方案。时序列中点突变的情况设计出的打分方案。对氨基对氨基酸配对相似性的尺度衡量,例如苯丙氨酸和异亮氨酸配对相似性的尺度衡量,例如苯丙氨酸和异亮氨酸相似性的定量标准,可以以多种方式来定义。因酸相似性的定量标准,可以以多种方式来定义。因此,设计一个打分矩阵,首先必须确定用什么算法此,设计一个打分矩阵,首先必须确定用什么算法模型。在序列排比分析中,打分矩阵只是某个算法模型。在序列排比分析中,打分矩阵只是某个算法模型的量化表现,排比的结果只在该算法模型所划模型的量化表现,排比的结果只在该算法模型所划定的范围内有意义。定的范围内有意义。2.2 Substitution Matrix简单打分矩阵简单打分矩阵单一打分矩阵和遗传密码单一打分矩阵和遗传密码打分矩阵。打分矩阵。目前使用最简单的打分矩阵就是目前使用最简单的打分矩阵就是匹配打分矩阵匹配打分矩阵identity metric。如果两个氨基。如果两个氨基酸相同,就打一个分值,不同就打另一个分酸相同,就打一个分值,不同就打另一个分值,不管替换的情况。例如,相同就打一值,不管替换的情况。例如,相同就打一分,不同就打分,不同就打0分,这就是最简单常用的分,这就是最简单常用的单一单一打分矩阵。打分矩阵。当然,也可以相同打当然,也可以相同打6分,不同分,不同打打-1分。分。A substitution matrix contains values proportional to the probability that amino acid i mutates into amino acid j for all pairs of amino acids. Substitution matrices are constructed by assembling a large and diverse sample of verified pairwise alignmentsor multiple sequence alignments of amino acids.Substitution matrices should reflect the true probabilities of mutations occurring through a period of evolution. The two major types of substitution matrices arePAM and BLOSUM.2.2 Substitution Matrix2.2.1 PAMDayhoff及其同事引入了一个概念及其同事引入了一个概念“被接受的被接受的点突变点突变”accepted point mutation来表示来表示进化过程中被稳定到基因库进化过程中被稳定到基因库gene pool中中的突变。据此可以定义两个序列进化距离的的突变。据此可以定义两个序列进化距离的尺度尺度PAM Percent accepted mutation突变接受率。一个突变接受率。一个PAM就是在比较的序列里就是在比较的序列里每一百个氨基酸残基中有一个被接受的点突每一百个氨基酸残基中有一个被接受的点突变。变。Other PAM matrices are extrapolated from PAM1. For PAM250, 250 changes have occurred for two proteins over a length of 100 amino acids.为了找出序列中被接受的点突变,一个包括所为了找出序列中被接受的点突变,一个包括所有祖先序列的进化树必须先勾画出来。为了避有祖先序列的进化树必须先勾画出来。为了避免有太大的不确定值,免有太大的不确定值,Dayhoff及同事将他们的及同事将他们的分析限制在有分析限制在有85同一性的序列。因为在这些高同一性的序列。因为在这些高度同源的蛋白质序列之间进化距离比较小,因度同源的蛋白质序列之间进化距离比较小,因此勾画进化树时就不会有太多复杂的假设。此勾画进化树时就不会有太多复杂的假设。Comparing two proteins with a PAM1 matrixgives completely different results than PAM250Consider two distantly related proteins. A PAM40 matrixis not forgiving of mismatches, and penalizes themseverely. Using this matrix you can find almost no match.A PAM250 matrix is very tolerant of mismatches.hsrbp, 136 CRLLNLDGTC btlact, 3 CLLLALALTC * ** * ** 24.7 identity in 81 residues overlap; Score 77.0; Gap frequency 3.7 rbp4 26 RVKENFDKARFSGTWYAMAKKDPEGLFLQDNIVAEFSVDETGQMSATAKGRVRLLNNWDV btlact 21 QTMKGLDIQKVAGTWYSLAMAASD-ISLLDAQSAPLRVYVEELKPTPEGDLEILLQKWEN * **** * * * * ** * rbp4 86 --CADMVGTFTDTEDPAKFKM btlact 80 GECAQKKIIAEKTKIPAVFKI** * ** ** Which PAM matrix should one use for a protein database search如果只打算用一种矩阵,如果只打算用一种矩阵,PAM120矩阵是最常用的。如想结果矩阵是最常用的。如想结果更全面更有效则应该使用多个矩阵。用三个矩阵更全面更有效则应该使用多个矩阵。用三个矩阵PAM40、、PAM120、、PAM250,可得出全面覆盖的结果。只用,可得出全面覆盖的结果。只用PAM80和和PAM200两个矩阵也可达到较好的覆盖面。两个矩阵也可达到较好的覆盖面。如果兴趣不在数据库查找而想做两个已知是相关的序列的比如果兴趣不在数据库查找而想做两个已知是相关的序列的比较,多用几个不同的较,多用几个不同的PAM矩阵会得到较好的结果。如果只做单矩阵会得到较好的结果。如果只做单一个分析,那就用一个分析,那就用PAM200矩阵。如果是要做两次分析,那用矩阵。如果是要做两次分析,那用PAM80和和PAM250,或者,或者PAM120和和PAM320可以得到最好的结可以得到最好的结果。果。作比对最好是根据序列对实际差异程度来选用相应的作比对最好是根据序列对实际差异程度来选用相应的PAM矩矩阵。阵。Difference PAM 1 1 5 510 1115 1720 23 25 3030 3835 47Difference PAM40 56 45 6750 80 55 9460 11265 13370 159 75 19580 246 85 328注意注意PAM250矩阵相当于约矩阵相当于约20匹配率。匹配率。而而50匹配率约为匹配率约为PAM100。。Dayhoff模型假设,蛋白质序列各部位进化模型假设,蛋白质序列各部位进化的速率是均等的。但事实很可能并非如的速率是均等的。但事实很可能并非如此,因为保守区的进化速率显然低于非此,因为保守区的进化速率显然低于非保守区。保守区。2.2.2 Blosum矩阵矩阵The Blosum matrices blocks substitution matrixHenikoff Henikoff用以下方法解决这一用以下方法解决这一问题。他们采用不同种类蛋白质序列片问题。他们采用不同种类蛋白质序列片段的区间段的区间blocks 作排比研究,排比时作排比研究,排比时不加入不加入gaps。这些序列区间对应于高度。这些序列区间对应于高度保守的区域。氨基酸匹配率可通过简单保守的区域。氨基酸匹配率可通过简单将各区间可能的匹配率加权。再将这些将各区间可能的匹配率加权。再将这些匹配率写入匹配率表。其进化相关机率匹配率写入匹配率表。其进化相关机率的计算方法与的计算方法与Dayhoff matrix相似。相似。Blosum矩阵矩阵blocks substitution matrix再以簇群方式将不同进化距离整合进方案内当两个再以簇群方式将不同进化距离整合进方案内当两个序列排比的匹配率高于某个阈值时便归为一个簇序列排比的匹配率高于某个阈值时便归为一个簇群。不断将匹配率高于阈值的序列加入簇群内。然群。不断将匹配率高于阈值的序列加入簇群内。然后将簇群内所有序列平均。通过簇群方式使得关系后将簇群内所有序列平均。通过簇群方式使得关系紧密的序列在匹配率表中的权重减少,而且随着阈紧密的序列在匹配率表中的权重减少,而且随着阈值的减小而减小,从而也象值的减小而减小,从而也象PAM矩阵系列一样产生一矩阵系列一样产生一系列的矩阵。系列的矩阵。这个矩阵称为这个矩阵称为Blosum矩阵。用一个指数来指示簇群的矩阵。用一个指数来指示簇群的阈值水平,即阈值水平,即Blosum80指将序列区间归为簇群时以指将序列区间归为簇群时以80匹配率为阈值。匹配率为阈值。Blosum62最接近于最接近于PAM120。。Blosum矩阵矩阵blocks substitution matrix矩阵的使用效果矩阵的使用效果Matrix Performance通过一些测试显示,通过一些测试显示,Blosum矩阵用于在数据库矩阵用于在数据库中查找同源性序列时,效果比中查找同源性序列时,效果比PAM矩阵好。矩阵好。如上述,矩阵从如上述,矩阵从1到到250PAM两极距离太远,可能两极距离太远,可能引起不准确;而引起不准确;而Blosum直接从最同源的序列直接从最同源的序列的区间排比获取匹配率,不考虑进化距离。的区间排比获取匹配率,不考虑进化距离。Blosum矩阵的突变数据来源于未加矩阵的突变数据来源于未加gaps的序列的序列区间排比,相当于蛋白序列的保守区区间排比,相当于蛋白序列的保守区。。Blosum矩阵矩阵blocks substitution matrixRat versus mouse RBPRat versus bacteriallipocalinMore conserved Less conserved还应注意计分矩阵scoring matrix的重要性。选用不同的计分矩阵有不少重要原因首先,选用的矩阵必须与匹配水平相一致,例如,PAM250应用于远距离匹配25相同比率,PAM40应用于不很相近的蛋白质序列,而BLOSUM62是一个通用矩阵;第二,使用不同矩阵,可以发现始终出现的匹配序列,这是一条减少误差的办法。除了选用不同的计分矩阵,同样可以考虑选用不同的数据库。通常可以使用的数据库是无冗余蛋白序列数据库SWISS-PROT和PDB。其它一些数据库也可以试试,如可用BLASTP搜索复合蛋白质序列库OWL www.biochem.ucl.ac.uk/bsm/dbbrowser/OWL/owl_blast.html你可以为BLASTP、TBLASTN或TBLASTX选择不同的矩阵,例如PAM30、PAM70、BLOSUM80、BLOSUM62等等,但是BLASTN不需要这些矩阵,搜索时,不必选定。Why use BLASTBLAST searching is fundamental to understanding the relatedness of any favorite query sequence to other known proteins or DNA sequences.Applications include identifying orthologs and paralogs discovering new genes or proteins discovering variants of genes or proteins investigating expressed sequence tags ESTs exploring protein structure and function2.4 Four components to a BLAST search1 Choose the sequence query2 Select the BLAST program3 Choose the database to search4 Choose optional parametersThen click “BLAST”Step 1 Choose your sequenceSequence can be input in FASTA format, plain text format or as accession number

注意事项

本文(生物信息学-03序列相似性搜索1.pdf)为本站会员(admin)主动上传,企业文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知企业文库(发送邮件至studylead2014@163.com或直接QQ联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。

copyright@ 2008-2013 mywenku网站版权所有
经营许可证编号:京ICP备12026657号-3 

1
收起
展开