本书是国内第一本讲解搜索引擎开发的畅销书。
本书内容新颖、实用,提供了价值上百万元的大型数码产品搜索引擎开发案例,可直接应用于项目。
本书用案例的方式讲解,便于读者实践。
本书是一本介绍搜索引擎开发的书籍,通过本书,读者可以独立构建一个企业级的搜索引擎网站。本书讲解了搜索引擎与信息检索基础,Lucene入门实例,索引的建立,使用Lucene来搜索,排序,分析器,对Word、Excel和PDF格式文档的解析,Compass搜索引擎框架,Lucene分布式,爬虫Heritrix,HTMLParser,DWR等内容。最后综合这些技术,构建了一个典型的垂直搜索系统,具有很强的商业实用价值。
本书是一本使用Lucene和Heritrix来讲解搜索引擎构建的书,通过对API和源代码的分析,力求使读者在应用的基础上,能够深入其核心,自行扩展和开发相应组件,发挥想象力,开发出更具有创意的搜索引擎产品。
本书适合Java程序员和从事计算机软件开发的编程人员阅读,同时也可以作为搜索引擎爱好者的入门书籍。
第1章 搜索引擎与信息检索
第2章 Lucene入门实例
第3章 索引的建立
第4章 Lucene搜索
第5章 排序、过滤和分页
第6章 Lucene的分析器
第7章 Word、Excel和PDF的处理
第8章 Compass:封装了Lucene的框架
第9章 Lucene分布式
第10章 无比强大的网络爬虫Heritrix
第11章 搜索引擎综合实例:准备篇
第12章 搜索引擎综合实例:下载篇
第13章 使用正则表达式与HTML Parser分析网页
第14章 网页内容存储与索引
第15章 搜索引擎综合实例:交互篇
第16章 搜索引擎综合实例:Web篇
附录 Lucene 2.4更新内容