搜索引擎——原理、技术与系统(第2版)李晓明,闫宏飞,王继民科学出版社豆瓣PDF电子书bt网盘迅雷下载教育考试-大中专教材-大学教材-霍普软件下载网

第二版前言
版前言
章引论 1
节搜索引擎的概念 2
第二节搜索引擎的发展历史 3
第三节一些著名的搜索引擎 6
第四节小结 11
上篇 Web搜索引擎基本原理和技术
第二章 Web搜索引擎工作原理和体系结构 15
节基本要求 15
第二节网页搜集 16
第三节预处理 18
第四节查询服务 20
第五节体系结构 23
第六节小结 25
第三章 Web信息的搜集 26
节概述 26
一、超文本传输协议 26
二、一个小型搜索引擎系统 27
第二节网页搜集 30
一、定义URL类和Page类 31
二、与服务器建立连接 35
三、发送请求和接收数据 37
四、网页信息存储的天网格式 38
第三节多道搜集程序并行工作 40
一、多线程并发工作 41
二、控制对一个站点并发搜集线程的数目 42
第四节如何避免网页的重复搜集 43
一、记录未访问、已访问URL和网页内容摘要信息 43
二、域名与IP的对应问题 43
第五节搜集信息的类型 45
第六节小结 46
第四章对搜集信息的预处理 47
节索引网页库 47
第二节网页编码识别 50
一、基本而重要的概念 50
二、常用字符编码 52
三、常用字符编码算法 55
四、字符的输入和显示 57
五、编码识别 58
第三节中文自动分词 60
第四节分析网页和建立倒排文件 64
第五节小结 67
第五章信息查询服务 68
节检索的定义 68
第二节查询服务的实现 69
一、结果集合的形成 69
二、查询结果显示 70
第三节小结 71
中篇对质量和性能的追求
第六章可扩展搜集子系统 75
节天网系统概述和集中式搜集系统结构 75
一、天网系统结构 75
二、集中式搜集系统 76
第二节利用并行处理技术高效搜集网页的一种方案 82
一、节点间URL的划分策略 82
二、关于性能的讨论 85
三、性能测试和评价 87
四、系统的动态可配置性设计 90
第三节天网分布式搜集系统 92
第四节对Deep Web的认识 93
一、Deep Web的成因 93
二、搜索Deep Web的方法 96
第五节小结 98
第七章网页净化与消重 100
节网页净化与元数据提取 100
一、DocView模型 102
二、网页的表示 103
三、提取DocView模型要素的方法 108
四、模型应用及实验研究 112
第二节网页消重算法 115
一、消重算法 116
二、算法评测 118
第三节小结 121
第八章高性能检索子系统 122
节检索系统基本技术 122
一、系统设计与结构 122
二、索引创建 125
三、检索过程 127
第二节适于查询的网页索引结构 129
一、倒排索引结构 129
二、平面位置索引 131
第三节倒排索引压缩 135
一、倒排索引压缩技术 136
二、词典与倒排表的压缩 142
第四节索引剪枝 150
一、静态索引剪枝方法 151
二、动态索引剪枝方法 153
第五节混合索引技术 168
一、混合索引的原理 169
二、混合索引的实现 171
第六节倒排文件缓存机制 173
一、倒排文件缓存 174
二、负载特性 176
三、缓存策略的选择 178
第七节小结 178
第九章相关排序与系统质量评估 180
节传统IR的相关排序技木 180
第二节链接分析与相关排序 182
一、链接分析 182
二、Web查询模式下的新信息 184
第三节相关排序的一种实现方案 188
一、形成网页中词项的基本权重 189
二、利用链接的结构 190
三、收集用户反馈信息 192
四、计算最终的权重 194
第四节信息检索技术评估 195
一、信息检索技术评估指标 197
二、TREC和CWIRF信息检索评估 206
三、搜索引擎技术评估 213
第五节小结 217
下篇 Web信息资源的组织与应用服务
第十章大规模Web历史网页仓储系统的构建 221
节国外Web历史网页保存现状 221
一、Internet Archive 222
二、PANDORA 222
三、其他相关Web保存项目 223
第二节中国Web信息博物馆的系统设计 224
一、Web InfoMall的设计目标 225
二、Web InfoMall的体系结构 225
第三节历史网页的存储 227
一、数据的组织 228
二、存储结构 229
三、数据管理与压缩 230
四、存储性能 232
第四节数据访问 232
一、PageID的索引 233
二、URI的索引 233
三、数据服务 234
四、性能与优化 235
第五节网页的格式保存 236
第六节小结 236
第十一章大规模Web非网页信息仓储系统的构建 238
节网络资源库藏相关工作 238
一、Ibiblio 239
二、Internet Archive 240
三、Wikimedia 240
四、中国互联网数字资源财富库藏 241
第二节 CDAL系统概况 242
第三节 CDAL系统设计 244
一、系统体系结构 244
二、可扩展的存储组织方案 244
第四节网络资源描述信息获取 246
一、Ontology概述 247
二、描述信息获取机制 247
三、改进查询的方法 248
四、改进排序的方法 249
第五节基于局部聚类思想的共现词汇算法 250
一、基本定义 251
二、FDC共现词汇算法 251
第六节小结 252
第十二章中文网页自动分类与聚类 253
节文档自动分类算法的类型 253
第二节实现中文网页自动分类的一般过程 254
第三节影响分类器性能的关键因素分析 256
一、实验设置 256
二、训练样本 258
三、特征选取 262
四、分类算法 265
五、截尾算法 270
六、中文网页分类器的设计方案 272
第四节天网目录导航服务 272
一、问题的提出 272
二、天网目录导航服务的体系结构 273
三、天网目录的运行实例 274
第五节文本聚类方法 275
一、文本聚类的一般过程 275
二、文本间相似性的度量 276
三、常用聚类算法 276
四、聚类结果的评估 279
五、搜索引擎返回结果的聚类 280
第六节小结 281
第十三章开放域问答系统 283
节概述 283
一、问答系统的历史 283
二、著名开放域问答系统介绍 284
三、开放域问答系统的通用体系结构 285
第二节问句的分析 287
一、问句中的指代消解 287
二、问句分类 288
三、问句主题提取 290
第三节文档和段落检索 290
一、检索模型的选用 291
二、查询生成 291
三、查询结果排序 293
四、增强索引的功能 295
第四节答案提取和验证模块 295
一、生成候选答案集合 295
二、答案提取 296
第五节问答系统的改进方法 299
一、问答系统中外部资源的利用 299
二、寻找特殊类问题的解决方案 301
三、通过系综方法构建问答系统 302
第六节问答系统的评测 303
一、TREC问答系统评测 303
二、问答系统评测指标 304
第七节实例：天网开放域问答系统 306
第八节小结 308
参考文献 309
附录术语 322

书名	搜索引擎——原理、技术与系统(第2版)
分类	教育考试-大中专教材-大学教材
作者	李晓明,闫宏飞,王继民
出版社	科学出版社
下载
简介	内容推荐《搜索引擎——原理技术与系统（第二版）》系统介绍了互联网搜索引擎的工作原理、实现技术及系统构建方案。《搜索引擎——原理技术与系统（第二版）》分三篇共13章。上篇介绍搜索引擎的基本原理和技术，讲述一个小型简单搜索引擎实现的具体细节；中篇详细讨论了大规模分布式搜索引擎系统的设计要点及其关键技术；下篇结合“中国Web信息博物馆”和“中国互联网数字资源财富库藏”的实践经验，介绍了构建大规模Web历史网页和非网页仓储系统的技术和方法，以及中文网页的自动分类与聚类、开放域问题系统的构建等。《搜索引擎——原理技术与系统（第二版）》层次分明，由浅入深，上篇和中篇涉及内容提供了源代码下载地址；既有深入的理论分析，也有大量的实验数据和程序，具有学习和实用双重意义。目录第二版前言版前言章引论 1 节搜索引擎的概念 2 第二节搜索引擎的发展历史 3 第三节一些著名的搜索引擎 6 第四节小结 11 上篇 Web搜索引擎基本原理和技术第二章 Web搜索引擎工作原理和体系结构 15 节基本要求 15 第二节网页搜集 16 第三节预处理 18 第四节查询服务 20 第五节体系结构 23 第六节小结 25 第三章 Web信息的搜集 26 节概述 26 一、超文本传输协议 26 二、一个小型搜索引擎系统 27 第二节网页搜集 30 一、定义URL类和Page类 31 二、与服务器建立连接 35 三、发送请求和接收数据 37 四、网页信息存储的天网格式 38 第三节多道搜集程序并行工作 40 一、多线程并发工作 41 二、控制对一个站点并发搜集线程的数目 42 第四节如何避免网页的重复搜集 43 一、记录未访问、已访问URL和网页内容摘要信息 43 二、域名与IP的对应问题 43 第五节搜集信息的类型 45 第六节小结 46 第四章对搜集信息的预处理 47 节索引网页库 47 第二节网页编码识别 50 一、基本而重要的概念 50 二、常用字符编码 52 三、常用字符编码算法 55 四、字符的输入和显示 57 五、编码识别 58 第三节中文自动分词 60 第四节分析网页和建立倒排文件 64 第五节小结 67 第五章信息查询服务 68 节检索的定义 68 第二节查询服务的实现 69 一、结果集合的形成 69 二、查询结果显示 70 第三节小结 71 中篇对质量和性能的追求第六章可扩展搜集子系统 75 节天网系统概述和集中式搜集系统结构 75 一、天网系统结构 75 二、集中式搜集系统 76 第二节利用并行处理技术高效搜集网页的一种方案 82 一、节点间URL的划分策略 82 二、关于性能的讨论 85 三、性能测试和评价 87 四、系统的动态可配置性设计 90 第三节天网分布式搜集系统 92 第四节对Deep Web的认识 93 一、Deep Web的成因 93 二、搜索Deep Web的方法 96 第五节小结 98 第七章网页净化与消重 100 节网页净化与元数据提取 100 一、DocView模型 102 二、网页的表示 103 三、提取DocView模型要素的方法 108 四、模型应用及实验研究 112 第二节网页消重算法 115 一、消重算法 116 二、算法评测 118 第三节小结 121 第八章高性能检索子系统 122 节检索系统基本技术 122 一、系统设计与结构 122 二、索引创建 125 三、检索过程 127 第二节适于查询的网页索引结构 129 一、倒排索引结构 129 二、平面位置索引 131 第三节倒排索引压缩 135 一、倒排索引压缩技术 136 二、词典与倒排表的压缩 142 第四节索引剪枝 150 一、静态索引剪枝方法 151 二、动态索引剪枝方法 153 第五节混合索引技术 168 一、混合索引的原理 169 二、混合索引的实现 171 第六节倒排文件缓存机制 173 一、倒排文件缓存 174 二、负载特性 176 三、缓存策略的选择 178 第七节小结 178 第九章相关排序与系统质量评估 180 节传统IR的相关排序技木 180 第二节链接分析与相关排序 182 一、链接分析 182 二、Web查询模式下的新信息 184 第三节相关排序的一种实现方案 188 一、形成网页中词项的基本权重 189 二、利用链接的结构 190 三、收集用户反馈信息 192 四、计算最终的权重 194 第四节信息检索技术评估 195 一、信息检索技术评估指标 197 二、TREC和CWIRF信息检索评估 206 三、搜索引擎技术评估 213 第五节小结 217 下篇 Web信息资源的组织与应用服务第十章大规模Web历史网页仓储系统的构建 221 节国外Web历史网页保存现状 221 一、Internet Archive 222 二、PANDORA 222 三、其他相关Web保存项目 223 第二节中国Web信息博物馆的系统设计 224 一、Web InfoMall的设计目标 225 二、Web InfoMall的体系结构 225 第三节历史网页的存储 227 一、数据的组织 228 二、存储结构 229 三、数据管理与压缩 230 四、存储性能 232 第四节数据访问 232 一、PageID的索引 233 二、URI的索引 233 三、数据服务 234 四、性能与优化 235 第五节网页的格式保存 236 第六节小结 236 第十一章大规模Web非网页信息仓储系统的构建 238 节网络资源库藏相关工作 238 一、Ibiblio 239 二、Internet Archive 240 三、Wikimedia 240 四、中国互联网数字资源财富库藏 241 第二节 CDAL系统概况 242 第三节 CDAL系统设计 244 一、系统体系结构 244 二、可扩展的存储组织方案 244 第四节网络资源描述信息获取 246 一、Ontology概述 247 二、描述信息获取机制 247 三、改进查询的方法 248 四、改进排序的方法 249 第五节基于局部聚类思想的共现词汇算法 250 一、基本定义 251 二、FDC共现词汇算法 251 第六节小结 252 第十二章中文网页自动分类与聚类 253 节文档自动分类算法的类型 253 第二节实现中文网页自动分类的一般过程 254 第三节影响分类器性能的关键因素分析 256 一、实验设置 256 二、训练样本 258 三、特征选取 262 四、分类算法 265 五、截尾算法 270 六、中文网页分类器的设计方案 272 第四节天网目录导航服务 272 一、问题的提出 272 二、天网目录导航服务的体系结构 273 三、天网目录的运行实例 274 第五节文本聚类方法 275 一、文本聚类的一般过程 275 二、文本间相似性的度量 276 三、常用聚类算法 276 四、聚类结果的评估 279 五、搜索引擎返回结果的聚类 280 第六节小结 281 第十三章开放域问答系统 283 节概述 283 一、问答系统的历史 283 二、著名开放域问答系统介绍 284 三、开放域问答系统的通用体系结构 285 第二节问句的分析 287 一、问句中的指代消解 287 二、问句分类 288 三、问句主题提取 290 第三节文档和段落检索 290 一、检索模型的选用 291 二、查询生成 291 三、查询结果排序 293 四、增强索引的功能 295 第四节答案提取和验证模块 295 一、生成候选答案集合 295 二、答案提取 296 第五节问答系统的改进方法 299 一、问答系统中外部资源的利用 299 二、寻找特殊类问题的解决方案 301 三、通过系综方法构建问答系统 302 第六节问答系统的评测 303 一、TREC问答系统评测 303 二、问答系统评测指标 304 第七节实例：天网开放域问答系统 306 第八节小结 308 参考文献 309 附录术语 322
随便看	中央美术学院孙韬人体素描(中国高等艺术院校教学范本)/范本传真北总布胡同32号(人民美术出版社的老艺术家们) 杜高杰(精)/中国近现代名家画集雪人雪人你在哪儿(精) 我们的世界(精) 老人与海(精) 汽车专业英语(附光盘第2版技能型紧缺人才培养培训系列教材中等职业学校汽车运用与维修专业教学用书) 翰墨新象(全国中国画名家邀请展作品集) 单柏钦(卷2)(精)/中国当代名家画集明德和融(第三届全国中国画作品展作品集) 崔景哲作品/大家气象吉祥草原丹青鹿城(全国中国画作品展作品集)(精) 单柏钦(精)/中国当代名家书法集牡丹说事焦广盛人物画集蔡超(精)/中国当代名家画集夏荆山中国佛像画集甲骨文字典(修订版)(精) 蔡起宝(精)/中国当代名家画集刘建新(精)/中国当代名家油画集康书增(精)/中国当代名家画集中国美术家大系(第14辑陈志才卷) 赵占东作品/大家气象王道中画工笔牡丹(中国名家技法经典) 王道中工笔花卉白描(中国名家技法经典) IP网卡修改&IP端口重定向 v1.0.0 IP网卡修改&IP端口重定向 v1.0.0 IP网卡修改&IP端口重定向 v1.0.0 IP网卡修改&IP端口重定向 v1.0.0 IP网卡修改&IP端口重定向 v1.0.0 MusicFree电脑版 v2.77 IP网卡修改&IP端口重定向 v1.0.0 IP网卡修改&IP端口重定向 v1.0.0 IP网卡修改&IP端口重定向 v1.0.0 Bigo Live Connector v2.0.0.39 上古卷轴5恐惧长刃斧武器MOD v2.3 无人深空低空飞行MOD v2.3 生化危机0高清重制版瑞贝卡皮革去纹身版主线MOD v2.3 怪物猎人世界冰原摇晃白狐泳装MOD v1.48 腐烂国度2主宰版强化型豪华红爪长官驻地MOD v2.91 十字军之王3用户界面美化MOD v1.81 怪物猎人世界冰原FGO斯卡哈精美礼服MOD v1.59 十字军之王3减轻压力MOD v2.71 巫师3狂猎排序增强MOD v2.3 实况足球2018解锁所有球场补丁 v2.3 horror film horror story horror-struck hors d'oeuvre horse horseback horsebox horse chestnut horse-drawn horsefly [BT下载][风城大佬第一季][全8集][BD-MKV/8.34G][中文字幕][1080P][H265][蓝光压制][BitsTV] 剧集 2011 美国剧情打包 [BT下载][风城大佬第二季][全10集][BD-MKV/9.17G][中文字幕][1080P][H265][蓝光压制][BitsTV] 剧集 2012 美国剧情打包 [BT下载][高堡奇人第四季][全10集][WEB-MKV/11.37G][中文字幕][1080P][H265][BitsTV]架空历史,科幻,二战,美国,小剧集 2019 美国剧情打包 [BT下载][鬣狗式生存][全16集][WEB-MKV/12.03G][中文字幕][1080P][H265][BitsTV] 剧集 2020 韩国剧情打包 [BT下载][魔幻都市第一季][全8集][BD-MKV/7.55G][中文字幕][1080P][H265][蓝光压制][BitsTV]美剧,犯罪,美国,剧情, 剧集 2012 美国剧情打包 [BT下载][魔幻都市第二季][全8集][BD-MKV/12.41G][中文字幕][1080P][H265][蓝光压制][BitsTV]美剧,黑帮,犯罪,剧情剧集 2013 美国剧情打包 [BT下载][鳕鱼角第一季][全8集][WEB-MKV/12.15G][中文字幕][1080P][H265][BitsTV] 剧集 2020 美国剧情打包 [BT下载][鸿运赛马][全9集][BD-MKV/12.74G][中文字幕][1080P][H265][蓝光压制][BitsTV] 剧集 2011 美国剧情打包 [BT下载][麻辣教师][全12集][WEB-MKV/14.38G][中文字幕][1080P][H265][BitsTV] 剧集更早日本剧情打包 [BT下载][格莫拉第一季][全12集][BD-MKV/24.28G][简英字幕][1080P][H265][蓝光压制][BitsTV] 剧集 2014 意大利犯罪打包显卡n卡和a卡区别在哪里？电脑无法读源文件或是磁盘怎么办？ Win10系统exe文件打不开怎么办？Win10系统打开exe文件的方法电脑Excel文件损坏该怎么办？电脑Excel文件损坏修复详细步骤笔记本电池容量在哪里看？系统怎么修复LSP？系统LSP的修复的方法笔记本电池0%充不进电怎么激活？如何打开Cookies网页？打开Cookies网页的方法笔记本电池怎么保养？笔记本电池正确保养方法怎么把U盘转换成NTFS格式？把U盘转换成NTFS格式的方法