本书紧紧围绕基因组与后基因组研究,阐述生物信息学的方法、技术、资源及其核心算法,介绍各种信息学方法和技术在生物信息学中的应用。可以作为高年级大学生或研究生的生物信息学课程教材,也可以作为生命科学工作者、计算机席用人员的参考书。
网站首页 软件下载 游戏下载 翻译软件 电子书下载 电影下载 电视剧下载 教程攻略
书名 | 生物信息学基础 |
分类 | 科学技术-自然科学-生物科学 |
作者 | 孙啸//陆祖宏//谢建明 |
出版社 | 清华大学出版社 |
下载 | |
简介 | 编辑推荐 本书紧紧围绕基因组与后基因组研究,阐述生物信息学的方法、技术、资源及其核心算法,介绍各种信息学方法和技术在生物信息学中的应用。可以作为高年级大学生或研究生的生物信息学课程教材,也可以作为生命科学工作者、计算机席用人员的参考书。 内容推荐 生物信息学是一门新兴的交叉学科。在该领域中,由生物学家和计算机科学家共同研究生物分子信息的获取、管理、分析和利用。生物信息学以计算机、网络为工具,用数学和信息科学的理论、方法和技术去研究生物大分子,研究生物分子信息组织的规律。本书紧紧围绕基因组与后基因组研究,阐述生物信息学的方法、技术、资源及其核心算法,介绍各种信息学方法和技术在生物信息学中的应用。本书首先简要说明生物信息学的研究对象及主要研究内容;然后介绍基本的序列比较算法,介绍各种生物信息学数据资源及主要数据库;接下来以专题形式介绍基因组信息分析、分子系统发生分析及蛋白质结构预测;最后,介绍基因表达数据分析。为了便于计算机和数学研究人员进入生物信息学研究领域,本书还特别介绍了与生物信息学有关的基本分子生物学知识。 本书可以作为高年级大学生或研究生的生物信息学课程教材,也可以作为生命科学工作者、计算机席用人员的参考书。 目录 第1章生物信息学引论……………………………………………………………………1 1.1 引言………………………………………………………………………………1 1.1.1生物信息学概念………………………………………………………1 1.1.2生物分子信息……………………………………………………………2 1.1.3生物信息学的研究目标和任务…………………………………………4 1.1.4生物信息学的研究意义…………………………………………………6 1.2生物信息学的发展历史…………………………………………………………7 1.3人类基因组计划和基因组信息学………………………………………………9 1.3.1人类基因组计划简介……………………………………………………9 1.3.2人类基因组计划对生物信息学的挑战………………………………13 1.4蛋白质结构与功能关系的研究…………………………………………………16 1.5生物信息学的主要研究内容……………………………………………………18 1.5.1 生物分子数据的收集与管理………………………………………18 1.5.2数据库搜索及序列比较………………………………………………19 1.5.3基因组序列分析………………………………………………………20 1.5.4基因表达数据的分析与处理……………………………………21 1.5.5蛋白质结构预测………………………………………………………21 1.6生物信息学所用的方法和技术………………………………………………23 1.6.1数学统计方法…………………………………………………………23 1.6.2动态规划方法…………………………………………………………23 1.6.3机器学习与模式识别技术……………………………………………24 1.6.4数据库技术及数据挖掘………………………………………………25 1.6.5人工神经网络技术……………………………………………………26 1.6.6专家系统……………………………………………………………27 1.6.7分子模型化技术……………………………………………………28 1.6.8量子力学和分子力学计算…………………………………………29 1.6.9生物分子的计算机模拟…………………………………………29 1.6.10 特网(Internet)技术………………………………………………31 1.7生物信息学目前的发展概况……………………………………………………31 问题与练习……………………………………………………………………………35 参考文献……………………………………………………………………………35 第2章生物信息学的生物学基础………………………………………………………40 2.1细胞………………………………………………………………………………40 2.2蛋白质的结构和功能……………………………………………………………42 2.2.1蛋白质的功能…………………………………………………………42 2.2.2蛋白质的分子组成……………………………………………………43 2.2.3蛋白质的结构层次………………………………………………44 2.2.4蛋白质结构与功能的关系……………………………………………50 2.3 遗传信息载体一DNA………………………………………………………51 2.3.1核苷酸………………………………………………………………52 2.3.2 DNA的结构………………………………………………………53 2.4分子生物学中心法则……………………………………………………………55 2.4.1 DNA的复制……………………………………………………………55 2.4.2转录……………………………………………………………………56 2.4.3翻译…………………………………………………………………57 2.4.4 mRNA的反转录与cDNA……………………………………………59 2.4.5对遗传信息流的再认识…………………………………………60 2.5基因组结构………………………………………………………………………60 2.5.1染色体结构…………………………………………………………60 2.5.2基因…………………………………………………………………62 2.5.3原核生物基因组…………………………………………………63 2.5.4真核生物基因组………………………………………………………64 2.6基因表达调控…………………………………………………………………69 2.6.1基因表达调控的层次……………………………69 2.6.2原核基因调控…………………………………………………………70 2.6.3真核基因调控…………………………………………………………70 2.7新生肽链的折叠…………………………………………………………………71 2.7.1新生肽链的加工……………………………………………………72 2.7.2新生肽链的折叠………………………………………………………72 2.7.3蛋白质折叠的一般规律……………………………………………72 2.7.4帮助新生肽链折叠的生物大分子……………………………………73 2.7.5蛋白质构象病问题……………………………………………………74 2.8生物大分子结构的测定……………………………………………74 2.8.1 X射线衍射结构分析……………………….…………………………74 2.8.2核磁共振结构分析…………………………………………………76 2.9分子生物学工具……………………………77 问题与练习…………………………………………………79 参考文献………………………………………………………………………………79 第3章序列比较…………………………………………………………………………81 3.1序列的相似性……………………………………………………………………81 3.1.1字母表和序列…………………………………………………………82 3.1.2 编辑距离……………………………………………………………83 3.1.3通过点矩阵分析两条序列的相似之处………………………………84 3.1.4 序列的两两比对…………………………………………………86 3.1.5用于序列相似性的打分矩阵…………………………………………87 3.2两两比对算法……………………………………………………………………92 3.2.1序列两两比对基本算法………………………………………………93 3.2.2子序列与完整序列的比对……………………………………………96 3.2.3寻找最大的相似子序列………………………………………………97 3.2.4准全局序列比对………………………………………………………98 3.2.5关于连续空位的问题…………………………………………………99 3.2.6比较相似序列…………………………………………………………102 3.2.7 比对的统计学显著性…………………………………………………103 3.3序列多重比对…………………………………………104 3.3.1 SP模型………………………………………………………………105 3.3.2多重比对的动态规划算法……………………………………………107 3.3.3优化计算方法……………………………110 3.3.4星形比对………………………………………………………………112 3.3.5树形比对……………………………………………………………114 3.3.6其他多重序列比对算法………………………………………………115 3.3.7统计特征分析……………………………………………………115 3.4 DNA片段组装………………………………………………………………116 3.4.1片段组装问题………………………………………………………117 3.4.2序列片段组装模型……………………………………………………119 3.4.3序列片段覆盖图………………………………………………………121 3.4.4贪婪算法………………………………………………………………123 3.4.5非循环图拓扑排序法…………………………………………………124 问题与练习……………………………………………………………………125 参考文献…………………………………………………126 第4章生物分子数据库…………………………………………………………………130 4.1 引言……………………………………………………………………………130 4.2核酸序列数据库………………………………………………………………131 4.2.1 GenBank/EMBL-Bank/DDBJ …………………………………131 4.2.2基因组数据库…………………………………………………………136 4.2.3表达序列标记数据库dbEST………………………………………137 4.2.4序列标记位点数据库dbSTS………………………………………138 4.2.5面向基因聚类数据库UniGene……………………………………138 4.3蛋白质序列数据库…………………………………………………………138 4.3.1 PIR……………………………………………………………………138 4.3.2 SWISS—PROT………………………………………………………140 4.3.3 TrEMBL…………………………………………………………141 4.4生物大分子结构数据库………………………………………………………142 4.4.1 PDB …………………………………………………………………142 4.4.2 MMDB………………………………………………………………142 4.5其他生物分子数据库…………………………………………………………143 4.5.1单碱基多态性数据库dbSNP………………………………………144 4.5.2蛋白质结构分类数据库SCOP……………………………………144 4.5.3蛋白质二级结构数据库DSSP………………………………………145 4.5.4蛋白质同源序列比对数据库HSSP ………………………………146 4.5.5 序列模式数据库PROSITE……………………………………147 4.5.6 蛋白质指纹数据库PRINTS ………………………………………147 4.5.7人类遗传数据库OMIM……………………………………………147 4.5.8 基因启动子数据库EPD……………………………………………148 4.5.9转录调控区域数据库TRRD………………………………………148 4.5.10 转录因子数据库TRANSFAC……………………………………149 4.5.11基因本体数据库GO………………………………………………149 4.5.12 生物、医学文献数据库PubMed ………………………………149 4.5.13 目录数据库DBCat………………………………………………149 4.6数据库搜索……………………………………………………………………150 4.6.1 FastA…………………………………………………………………151 4.6.2 BLAST………………………………………………………………154 4.6.3 VAST ………………………………………………………………158 4.7数据库集成……………………………………………………………………159 4.7.1 Entrez ………………………………………………………………160 4.7.2 SRS…………………………………………………………………161 4.7.3 ExPASy………………………………………………………………162 问题与练习……………………………………………………………………………162 参考文献………………………………………………………………………………163 第5章基因组信息分析…………………………………………………………………168 5.1关于遗传语言……………………………………………………………168 5.1.1 基因组DNA的奥秘…………………………………………………168 5.1.2探索遗传语言…………………………………………………………171 5.1.3关于生物复杂性………………………………………………………172 5.1.4基因组学研究带来的希望…………………………………………172 5.2原核基因组特点………………………………………………………………173 5.2.1长开放阅读框…………………………………………………………173 5.2.2高基因密度……………………………………………………………173 5.2.3简单的基因结构………………………………………………………173 5.2.4原核基因组中的GC含量……………………………………………174 5.3真核基因组特点………………………………………………………………174 5.3.1基因组规模……………………………………………………………174 5.3.2 巨大的非编码序列……………………………………………………174 5.3.3复杂的基因结构………………………………………………………174 5.3.4复杂的基因转录调控方式……………………………………………175 5.3.5可变剪接………………………………………………………………175 5.3.6 CpG岛………………………………………………………………176 5.3.7等值区……………………………………………………………176 5.3.8密码子使用偏性………………………………………………………177 5.4基因组序列分析………………………………………………………………177 5.4.1基因组序列分析步骤和分析结果评价………………………………177 5.4.2核苷酸关联分析……………………………………………………179 5.5基因识别方法…………………………………………………………………181 5.5.1 最长ORFs法……………………………………………………181 5.5.2基于密码子出现频率的预测方法……………………………………182 5.5.3同源性方法……………………………………………………………184 5.5.4神经网络方法…………………………………………………………185 5.5.5隐马尔可夫模型法……………………………………………………186 5.5.6模式判别分析法………………………………………………….…..198 5.5.7基于动态规划的基因结构预测方法…………………………………199 5.5.8基于剪切比对的基因识别……………………………………………202 5.5.9其他基因识别方法……………………………………………………202 5.6非编码区域分析和调控元件识别……………………………………………203 5.6.1调控元件的建模………………………………………………………204 5.6.2调控元件模式的得分函数……………………………………………206 5.6.3模式驱动的调控元件识别……………………………………………207 5.6.4序列驱动的调控元件识别……………………………………………208 问题与练习…………………………………………215 参考文献…………………………………………………215 第6章系统发生分析……………………………………………………………………219 6.1分子系统发生与系统发生树……………………………………………219 6.1.1 分子系统发生分析………………………219 6.1.2系统发生树…………………………………221 6.1.3距离和特征………………………………………222 6.1.4分子系统发生分析过程……………………………………223 6.2基于距离的系统发生树构建方法…………………………………………225 6.2.1最小二乘法………………………………………………………225 6.2.2连锁聚类方法及非加权分组平均法……………………………226 6.2.3 距离变换法…………………………………一…………….………229 6.2.4邻近归并法…………………………………….230 6.3基于特征的系统发生树构建方法……………………….………………232 6.3.1最大简约法………………………………….232 6.3.2快速搜索策略…………………………………235 6.4最大似然法…………………………………………236 6。5系统发生树的可靠性…………………………………………………………238 6.5.1 自举检验……………………………….238 6.5.2参数检验………………………………………………………………239 6.6全基因组系统发生分析…………………….239 6.6.1基于多棵系统发生树的方法…………………………………………239 6.6.2基于基因内容的方法……………………………240 6.6。3基于蛋白质折叠结构的方法……………………………..………….240 6.6.4基于基因次序的方法……………………………240 6.6.5基于连接的直向同源蛋白的方法……………….…………………240 6.6.6基于代谢途径的方法…………………241 问题与练习…………242 参考文献……………………………………243 第7章蛋白质结构预测…………………………………………………………………245 7.1 引言………………………………………………………………………245 7.2蛋白质二级结构预测………………………………………………………249 7.2.1利用的信息及预测准确性…………………………………………249 7.2.2 Chou—Fasman方法 ……………………………………………250 7.2.3 GOR方法………………………………252 7.2.4基于氨基酸疏水性的预测方法………………………………………255 7.2.5最邻近方法……………………………………………………………257 7.2.6人工神经网络方法…………………………………………………258 7.2.7综合方法………………………………………………………………261 7.2.8氨基酸残基之间的距离…………………………………………261 7.3 RNA二级结构的预测…………………………………………………………262 7.4蛋白质空间结构预测………………………………………………………263 7.4.1同源模型化方法………………………………………………………264 7.4.2线索化方法(折叠识别方法)…………………………………………266 7.4.3从头预测方法…………………………………………………………267 7.4.4预测方法评价…………………………………………………………272 7.5蛋白质空间结构比较…………………………………………………………273 问题与练习……………………………………………………………………………275 参考文献………………………………………………………………………………276 第8章基因表达数据分析………………………………………………………………282 8.1基因表达数据的获取…………………………………………………………283 8.1.1 cDNA微阵列…………………………………………………………283 8.1.2寡核苷酸芯片…………………………………………………………284 8.1.3基因表达数据的网络资源……………………………………………285 8.2基因表达数据预处理…………………………………………………………286 8.3基因表达差异的显著性分析…………………………………………………289 8.3.1倍数分析………………………………………………………………289 8.3.2 t检验…………………………………………………………………29C 8.3.3贝叶斯分析……………………………………………………………291 8.4基因表达谱聚类分析…………………………………………………………292 8.4.1相似性度量函数………………………………………………………292 8.4.2聚类方法………………………………………………………………294 8.4.3基于模型的聚类方法…………………………………………………298 8.4.4支持向量机……………………………………………………………299 8.4.5聚类结果的可视化……………………………………………………301 8.4.6聚类结果的定量评价…………………………………………………303 8.5基因表达数据的分类分析……………………………………………………305 8.5.1朴素贝叶斯分类法……………………………………………………305 8.5.2忌一近邻法………………………………………………………………306 8.5.3其他分类法……………………………………………………………306 8.6 主成分分析PCA ……………………………………………………………307 8.7基于基因表达谱的基因调控网络研究………………………………………309 8.7.1布尔网络模型…………………………………………………………310 8.7.2线性组合模型…………………………………………………………312 8.7.3加权矩阵模型…………………………………………………………312 8.7.4数据整合分析…………………………………………………………313 问题与练习……………………………………………………………………………314 参考文献………………………………………………………………………………314 附录1 常用基本词汇表…………………………………………………………………320 附录2生物信息分析工具808………………………………………………………333 序言 生物信息学是一门新兴的交叉学科。该领域的工作需要生物学和计算机科学这两门学科高级研究人员的通力合作。这两门学科差别很大,缺乏共同的语言,研究的方法也不一样,因此具有生物学背景的研究人员需要补充信息分析理论和计算机技术,掌握常用的分析工具;而来自计算机科学的研究人员则需要补充生物学知识,了解生物学特别是分子生物学中需要解决的信息分析问题。 随着分子生物学技术的不断进步和基因组研究的不断深入,生物分子数据迅速增长,数据量巨大,其中既有生物分子序列的信息,又有结构和功能的信息;既有生命本质信息,又有生命表象信息,并且数据之间存在着密切的联系。这些生物分子数据具有丰富的内涵,其背后隐藏着人类目前尚不知道的生物学知识。充分利用这些数据,通过数据分析、处理,揭示这些数据的内涵,得到对人类有用的信息,是生物信息学所面临的严峻挑战。生物信息学以计算机、网络为工具,用数学和信息科学的理论、方法和技术去研究生物大分子,发现生物分子信息组织的规律。其研究重点主要落实在DNA分子和蛋白质分子两个方面,包括它们的序列、结构和功能。 人才培养和专业技术人员培训是生物信息学目前的一个重要任务,国内迫切需要一本生物信息学专业教材。本书的主要作者早在1999年就开设了生物信息学研究生课程,在其他教师的支持下,根据自己的工作积累和国内外生物信息学的发展状况,在参阅了大量国内外资料的情况下,撰写了本书的初稿,形成生物信息学的课程讲义,并在随后几年钓教学实践中不断修改,最终形成本书。 编著本书的目的就是为那些对生物信息学感兴趣的高年级大学生或研究生提供一本数科书。当然,对于那些刚刚进入生物信息学领域的研究人员,本书也可以作为基本的参考书。本书主要面向计算机专业的人员,重点介绍生物信息学的核心算法。首先简要介绍生物信息学研究对象及主要研究内容,介绍分子生物学基础,然后介绍基本的序列比较萍法,介绍各种生物信息学数据资源,接下来以专题形式介绍基因组信息分析、分子系统发生分析及蛋白质结构预测,最后介绍目前生物信息学研究中的一个热点——基因表达故据分析。 陆祖宏教授是编著本书的倡议者,在本书的编写过程中提出了许多宝贵意见,并进行了全面审核。孙啸教授负责组织本书的编著工作,并编写了本书的大部分章节。谢建明尊士编写了第8章,并承担了本书的大部分编辑工作。谢雪英博士编写了第5章,傅静编写了第6章的部分内容,陶怡、汤丽华、韦芬霞和顾珉参加了本书的校对工作。当作者在彖南大学将本书作为研究生生物信息学课程教材试用时,许多学生对本书最初的文字、图表及实例提出了好的建议,在此对他们表示衷心的感谢。 由于生物信息学是一门新兴的交叉学科,对生物学、数学及计算机科学的基础要求非常高,写好这样一本教材非常困难。书中的错误之处在所难免,恳切希望得到广大读者的批评和指正。 编 著 2004年5月于东南大学 |
随便看 |
|
霍普软件下载网电子书栏目提供海量电子书在线免费阅读及下载。