网络爬虫全解析(技术原理与实践)罗刚电子工业出版社豆瓣PDF电子书bt网盘迅雷下载-霍普软件下载网

本书介绍了如何开发网络爬虫。内容主要包括开发网络爬虫所需要的Java语法基础和网络爬虫的工作原理，如何使用开源组件HttpClient和爬虫框架Crawler4j抓取网页信息，以及针对抓取到的文本进行有效信息的提取。为了扩展抓取能力，本书介绍了实现分布式网络爬虫的关键技术。另外，本书介绍了从图像和语音等多媒体格式文件中提取文本信息，以及如何使用大数据技术存储抓取到的信息。很后，以实战为例，介绍了如何抓取微信和微博，以及在电商、医药、金融等领域的案例应用。其中，电商领域的应用介绍了使用网络爬虫抓取商品信息入库到网上商店的数据库表。医药领域的案例介绍了抓取PubMed医药论文库。金融领域的案例介绍了抓取股票信息，以及从年报PDF文档中提取表格等。本书适用于对开发信息采集软件感兴趣的自学者。也可以供有Java或程序设计基础的开发人员参考。

第1章技术基础1
1.1第一个程序1
1.2准备开发环境2
1.2.1JDK2
1.2.2Eclipse3
1.3类和对象4
1.4常量5
1.5命名规范6
1.6基本语法6
1.7条件判断7
1.8循环8
1.9数组9
1.10位运算11
1.11枚举类型13
1.12比较器14
1.13方法14
1.14集合类15
1.14.1动态数组15
1.14.2散列表15
1.15文件19
1.15.1文本文件19
1.15.2二进制文件23
1.16多线程27
1.16.1基本的多线程28
1.16.2线程池30
1.17折半查找31
1.18处理图片34
1.19本章小结35
第2章网络爬虫入门36
2.1获取信息36
2.1.1提取链接37
2.1.2采集新闻37
2.2各种网络爬虫38
2.2.1信息采集器40
2.2.2广度优先遍历41
2.2.3分布式爬虫42
2.3爬虫相关协议43
2.3.1网站地图44
2.3.2Robots协议45
2.4爬虫架构48
2.4.1基本架构48
2.4.2分布式爬虫架构51
2.4.3垂直爬虫架构54
2.5自己写网络爬虫55
2.6URL地址查新57
2.6.1嵌入式数据库58
2.6.2布隆过滤器60
2.6.3实现布隆过滤器61
2.7部署爬虫63
2.7.1部署到Windows64
2.7.2部署到Linux64
2.8本章小结65
第3章定向采集69
3.1下载网页的基本方法69
3.1.1网卡70
3.1.2下载网页70
3.2HTTP基础75
3.2.1协议75
3.2.2URI77
3.2.3DNS84
3.3使用HttpClient下载网页84
3.3.1HttpCore94
3.3.2状态码98
3.3.3创建99
3.3.4模拟浏览器99
3.3.5重试100
3.3.6抓取压缩的网页102
3.3.7HttpContext104
3.3.8下载中文网站105
3.3.9抓取需要登录的网页106
3.3.10代理111
3.3.11DNS缓存112
3.3.12并行下载113
3.4下载网络资源115
3.4.1重定向115
3.4.2解决套接字连接限制118
3.4.3下载图片119
3.4.4抓取视频122
3.4.5抓取FTP122
3.4.6网页更新122
3.4.7抓取限制应对方法126
3.4.8URL地址提取131
3.4.9解析URL地址134
3.4.10归一化135
3.4.11增量采集135
3.4.12iframe136
3.4.13抓取JavaScript动态页面137
3.4.14抓取即时信息141
3.4.15抓取暗网141
3.5PhantomJS144
3.6Selenium145
3.7信息过滤146
3.7.1匹配算法147
3.7.2分布式过滤153
3.8采集新闻153
3.8.1网页过滤器154
3.8.2列表页159
3.8.3用机器学习的方法抓取新闻160
3.8.4自动查找目录页161
3.8.5详细页162
3.8.6增量采集164
3.8.7处理图片164
3.9遍历信息164
3.10并行抓取165
3.10.1多线程爬虫165
3.10.2垂直搜索的多线程爬虫168
3.10.3异步IO172
3.11分布式爬虫176
3.11.1JGroups176
3.11.2监控179
3.12增量抓取180
3.13管理界面180
3.14本章小结181
第4章数据存储182
4.1存储提取内容182
4.1.1SQLite183
4.1.2Access数据库185
4.1.3MySQL186
4.1.4写入维基187
4.2HBase187
4.3Web图189
4.4本章小结193
第5章信息提取194
5.1从文本提取信息194
5.2从HTML文件中提取文本195
5.2.1字符集编码195
5.2.2识别网页的编码198
5.2.3网页编码转换为字符串编码201
5.2.4使用正则表达式提取数据202
5.2.5结构化信息提取206
5.2.6表格209
5.2.7网页的DOM结构210
5.2.8使用Jsoup提取信息211
5.2.9使用XPath提取信息217
5.2.10HTMLUnit提取数据219
5.2.11网页结构相似度计算220
5.2.12提取标题222
5.2.13提取日期224
5.2.14提取模板225
5.2.15提取RDF信息227
5.2.16网页解析器原理227
5.3RSS229
5.3.1Jsoup解析RSS230
5.3.2ROME231
5.3.3抓取流程231
5.4网页去噪233
5.4.1NekoHTML234
5.4.2Jsoup238
5.4.3提取正文240
5.5从非HTML文件中提取文本241
5.5.1PDF文件242
5.5.2Word文件245
5.5.3Rtf文件247
5.5.4Excel文件253
5.5.5PowerPoint文件254
5.6提取标题254
5.6.1提取标题的一般方法255
5.6.2从PDF文件中提取标题259
5.6.3从Word文件中提取标题261
5.6.4从Rtf文件中提取标题261
5.6.5从Excel文件中提取标题267
5.6.6从PowerPoint文件中提取标题270
5.7图像的OCR识别270
5.7.1读入图像271
5.7.2准备训练集272
5.7.3图像二值化274
5.7.4切分图像279
5.7.5SVM分类283
5.7.6识别汉字287
5.7.7训练OCR289
5.7.8检测行290
5.7.9识别验证码291
5.7.10JavaOCR292
5.8提取地域信息292
5.8.1IP地址293
5.8.2手机315
5.9提取新闻316
5.10流媒体内容提取317
5.10.1音频流内容提取317
5.10.2视频流内容提取321
5.11内容纠错322
5.11.1模糊匹配问题325
5.11.2英文拼写检查331
5.11.3中文拼写检查333
5.12术语336
5.13本章小结336
第6章Crawler4j338
6.1使用Crawler4j338
6.1.1大众点评339
6.1.2日志342
6.2crawler4j原理342
6.2.1代码分析343
6.2.2使用BerkeleyDB344
6.2.3缩短URL地址347
6.2.4网页编码349
6.2.5并发349
6.3本章小结352
第7章网页排重353
7.1语义指纹354
7.2SimHash357
7.3分布式文档排重367
7.4本章小结369
第8章网页分类370
8.1关键词加权法371
8.2机器学习的分类方法378
8.2.1特征提取380
8.2.2朴素贝叶斯384
8.2.3支持向量机393
8.2.4多级分类401
8.2.5网页分类403
8.3本章小结403
第9章案例分析404
9.1金融爬虫404
9.1.1中国能源政策数据404
9.1.2世界原油现货交易和期货交易数据405
9.1.3股票数据405
9.1.4从PDF文件中提取表格408
9.2商品搜索408
9.2.1遍历商品410
9.2.2使用HttpClient415
9.2.3提取价格416
9.2.4水印419
9.2.5数据导入ECShop420
9.2.6采集淘宝423
9.3自动化行业采集424
9.4社会化信息采集424
9.5微博爬虫424
9.6微信爬虫426
9.7海关数据426
9.8医药数据427
9.9本章小结429
后记430

书名	网络爬虫全解析(技术原理与实践)
分类
作者	罗刚
出版社	电子工业出版社
下载
简介	内容推荐本书介绍了如何开发网络爬虫。内容主要包括开发网络爬虫所需要的Java语法基础和网络爬虫的工作原理，如何使用开源组件HttpClient和爬虫框架Crawler4j抓取网页信息，以及针对抓取到的文本进行有效信息的提取。为了扩展抓取能力，本书介绍了实现分布式网络爬虫的关键技术。另外，本书介绍了从图像和语音等多媒体格式文件中提取文本信息，以及如何使用大数据技术存储抓取到的信息。很后，以实战为例，介绍了如何抓取微信和微博，以及在电商、医药、金融等领域的案例应用。其中，电商领域的应用介绍了使用网络爬虫抓取商品信息入库到网上商店的数据库表。医药领域的案例介绍了抓取PubMed医药论文库。金融领域的案例介绍了抓取股票信息，以及从年报PDF文档中提取表格等。本书适用于对开发信息采集软件感兴趣的自学者。也可以供有Java或程序设计基础的开发人员参考。作者简介罗刚，猎兔搜索创始人，带领猎兔搜索技术开发团队先后开发出猎兔中文分词系统、猎兔信息提取系统、猎兔智能垂直搜索系统以及网络信息监测系统等，实现互联网信息的采集、过滤、搜索和实时监测。曾编写出版《自己动手写搜索引擎》、《自己动手写网络爬虫》、《使用C#开发搜索引擎》，获得广泛好评。在北京和上海等地均有猎兔培训的学员。目录第1章技术基础1 1.1第一个程序1 1.2准备开发环境2 1.2.1JDK2 1.2.2Eclipse3 1.3类和对象4 1.4常量5 1.5命名规范6 1.6基本语法6 1.7条件判断7 1.8循环8 1.9数组9 1.10位运算11 1.11枚举类型13 1.12比较器14 1.13方法14 1.14集合类15 1.14.1动态数组15 1.14.2散列表15 1.15文件19 1.15.1文本文件19 1.15.2二进制文件23 1.16多线程27 1.16.1基本的多线程28 1.16.2线程池30 1.17折半查找31 1.18处理图片34 1.19本章小结35 第2章网络爬虫入门36 2.1获取信息36 2.1.1提取链接37 2.1.2采集新闻37 2.2各种网络爬虫38 2.2.1信息采集器40 2.2.2广度优先遍历41 2.2.3分布式爬虫42 2.3爬虫相关协议43 2.3.1网站地图44 2.3.2Robots协议45 2.4爬虫架构48 2.4.1基本架构48 2.4.2分布式爬虫架构51 2.4.3垂直爬虫架构54 2.5自己写网络爬虫55 2.6URL地址查新57 2.6.1嵌入式数据库58 2.6.2布隆过滤器60 2.6.3实现布隆过滤器61 2.7部署爬虫63 2.7.1部署到Windows64 2.7.2部署到Linux64 2.8本章小结65 第3章定向采集69 3.1下载网页的基本方法69 3.1.1网卡70 3.1.2下载网页70 3.2HTTP基础75 3.2.1协议75 3.2.2URI77 3.2.3DNS84 3.3使用HttpClient下载网页84 3.3.1HttpCore94 3.3.2状态码98 3.3.3创建99 3.3.4模拟浏览器99 3.3.5重试100 3.3.6抓取压缩的网页102 3.3.7HttpContext104 3.3.8下载中文网站105 3.3.9抓取需要登录的网页106 3.3.10代理111 3.3.11DNS缓存112 3.3.12并行下载113 3.4下载网络资源115 3.4.1重定向115 3.4.2解决套接字连接限制118 3.4.3下载图片119 3.4.4抓取视频122 3.4.5抓取FTP122 3.4.6网页更新122 3.4.7抓取限制应对方法126 3.4.8URL地址提取131 3.4.9解析URL地址134 3.4.10归一化135 3.4.11增量采集135 3.4.12iframe136 3.4.13抓取JavaScript动态页面137 3.4.14抓取即时信息141 3.4.15抓取暗网141 3.5PhantomJS144 3.6Selenium145 3.7信息过滤146 3.7.1匹配算法147 3.7.2分布式过滤153 3.8采集新闻153 3.8.1网页过滤器154 3.8.2列表页159 3.8.3用机器学习的方法抓取新闻160 3.8.4自动查找目录页161 3.8.5详细页162 3.8.6增量采集164 3.8.7处理图片164 3.9遍历信息164 3.10并行抓取165 3.10.1多线程爬虫165 3.10.2垂直搜索的多线程爬虫168 3.10.3异步IO172 3.11分布式爬虫176 3.11.1JGroups176 3.11.2监控179 3.12增量抓取180 3.13管理界面180 3.14本章小结181 第4章数据存储182 4.1存储提取内容182 4.1.1SQLite183 4.1.2Access数据库185 4.1.3MySQL186 4.1.4写入维基187 4.2HBase187 4.3Web图189 4.4本章小结193 第5章信息提取194 5.1从文本提取信息194 5.2从HTML文件中提取文本195 5.2.1字符集编码195 5.2.2识别网页的编码198 5.2.3网页编码转换为字符串编码201 5.2.4使用正则表达式提取数据202 5.2.5结构化信息提取206 5.2.6表格209 5.2.7网页的DOM结构210 5.2.8使用Jsoup提取信息211 5.2.9使用XPath提取信息217 5.2.10HTMLUnit提取数据219 5.2.11网页结构相似度计算220 5.2.12提取标题222 5.2.13提取日期224 5.2.14提取模板225 5.2.15提取RDF信息227 5.2.16网页解析器原理227 5.3RSS229 5.3.1Jsoup解析RSS230 5.3.2ROME231 5.3.3抓取流程231 5.4网页去噪233 5.4.1NekoHTML234 5.4.2Jsoup238 5.4.3提取正文240 5.5从非HTML文件中提取文本241 5.5.1PDF文件242 5.5.2Word文件245 5.5.3Rtf文件247 5.5.4Excel文件253 5.5.5PowerPoint文件254 5.6提取标题254 5.6.1提取标题的一般方法255 5.6.2从PDF文件中提取标题259 5.6.3从Word文件中提取标题261 5.6.4从Rtf文件中提取标题261 5.6.5从Excel文件中提取标题267 5.6.6从PowerPoint文件中提取标题270 5.7图像的OCR识别270 5.7.1读入图像271 5.7.2准备训练集272 5.7.3图像二值化274 5.7.4切分图像279 5.7.5SVM分类283 5.7.6识别汉字287 5.7.7训练OCR289 5.7.8检测行290 5.7.9识别验证码291 5.7.10JavaOCR292 5.8提取地域信息292 5.8.1IP地址293 5.8.2手机315 5.9提取新闻316 5.10流媒体内容提取317 5.10.1音频流内容提取317 5.10.2视频流内容提取321 5.11内容纠错322 5.11.1模糊匹配问题325 5.11.2英文拼写检查331 5.11.3中文拼写检查333 5.12术语336 5.13本章小结336 第6章Crawler4j338 6.1使用Crawler4j338 6.1.1大众点评339 6.1.2日志342 6.2crawler4j原理342 6.2.1代码分析343 6.2.2使用BerkeleyDB344 6.2.3缩短URL地址347 6.2.4网页编码349 6.2.5并发349 6.3本章小结352 第7章网页排重353 7.1语义指纹354 7.2SimHash357 7.3分布式文档排重367 7.4本章小结369 第8章网页分类370 8.1关键词加权法371 8.2机器学习的分类方法378 8.2.1特征提取380 8.2.2朴素贝叶斯384 8.2.3支持向量机393 8.2.4多级分类401 8.2.5网页分类403 8.3本章小结403 第9章案例分析404 9.1金融爬虫404 9.1.1中国能源政策数据404 9.1.2世界原油现货交易和期货交易数据405 9.1.3股票数据405 9.1.4从PDF文件中提取表格408 9.2商品搜索408 9.2.1遍历商品410 9.2.2使用HttpClient415 9.2.3提取价格416 9.2.4水印419 9.2.5数据导入ECShop420 9.2.6采集淘宝423 9.3自动化行业采集424 9.4社会化信息采集424 9.5微博爬虫424 9.6微信爬虫426 9.7海关数据426 9.8医药数据427 9.9本章小结429 后记430
随便看	[火影]这个杀手爱吐槽异世之中二病执拗停留网王之涧漓 [赫海]贺新郎风山陵溯源之何淇雨季末日的小尾巴半生浮沉白衣揽芳华虞姬快到碗里来周言我的人间四月天时间都去哪了陌上花开、可缓缓归兮穿越成夜幽皇后重生之庶女人生擒獵央 [******阳陛下的猎者游戏警察，你的心被我拘捕了泡沫的透澈我只想正常地生活而已终极同人再世为凤 Contacts CSV Converter(CSV转换工具) v4.2 PrimalXML 2021 v2021 Dropbox V135.4.4221 稳定版优优查字插件 V1.2.0 官方版狂龙AI批量找图工具 V1.0 免费版 Win11 中文(简体)本地体验包 V22000.11.29.0 官方版 Microsoft .NET Framework V6.0.0 官方版分区助手(AOMEI Partition Assistant) V9.5 绿色专业版 Image Watermark Master(图片水印大师) V7.0.0 官方版 EV录屏 V4.1.9 官方正式版模拟人生4彩色的木门MOD v1.9 欧洲卡车模拟2中国真实公司5合1MOD v1.18 模拟人生4彩色爱心可爱长裙MOD v3.85 龙珠斗士Z西部胶囊世界地图MOD v1.85 赛博朋克2077俄罗斯方块街机MOD v2.26 求生之路2原神甘雨角色MOD v3.39 赛博朋克2077亚当重锤捏脸预设MOD v3.12 求生之路2过山车生存地图MOD v1.9 纪元1800增加建筑卡槽MOD v3.18 小骨英雄杀手开发者模式(内部修改器) v2021 atheist atheroma athlete athlete's foot athletic athleticism athletics athletic supporter atishoo Atkins diet [BT下载][骄阳伴我][第26-27集][WEB-MP4/2.17G][国语音轨/简繁英字幕][4K-2160P][H265][SeeWEB] 剧集 2023 大陆剧情连载 [BT下载][18/40~两个人的梦想与恋爱~][第10集][WEB-MKV/1.05G][中文字幕][1080P][KKTV] 剧集 2023 日本剧情连载 [BT下载][执行!!～狗和我和执行官～][第09集][WEB-MKV/1.00G][中文字幕][1080P][KKTV] 剧集 2023 日本剧情连载 [BT下载][盛夏的灰姑娘][第10集][WEB-MKV/1.26G][中文字幕][1080P][BlackTV] 剧集 2023 日本剧情连载 [BT下载][入侵第二季][第04集][WEB-MKV/3.82G][简繁英字幕][1080P][Apple][BlackTV] 剧集 2023 美国剧情连载 [BT下载][入侵第二季][第04集][WEB-MKV/8.88G][简繁英字幕][4K-2160P][杜比视界版本][H265][Apple][BlackT 剧集 2023 美国剧情连载 [BT下载][入侵第二季][第04集][WEB-MKV/7.55G][简繁英字幕][4K-2160P][H265][Apple][BlackTV] 剧集 2023 美国剧情连载 [BT下载][我们假结婚吧][第10集][WEB-MKV/0.51G][中文字幕][1080P][KKTV] 剧集 2023 日本剧情连载 [BT下载][女儿大人加个赖][第31集][WEB-MKV/1.05G][中文字幕][1080P][KKTV] 剧集 2023 台湾喜剧连载 [BT下载][异人之下][第16集][WEB-MP4/0.95G][国语配音/中文字幕][4K-2160P][H265][SeeWEB] 剧集 2023 大陆剧情连载 WeGame如何赠送游戏？WeGame赠送游戏的操作步骤逗拍怎么充值金币？逗拍充值金币的方法滴滴车主如何进行提现？滴滴车主提现方法爱彼迎怎么注销账号？爱彼迎账号注销方法爱彼迎如何使用支付宝付款？爱彼迎绑定支付宝的方法 wifi共享大师如何设置定时关闭电脑？wifi共享大师设置定时关闭电脑的方法步骤 Foxmail如何添加账号？Foxmail添加账号的方法步骤 360驱动大师如何安装打印驱动？360驱动大师安装打印驱动的方法步骤黄瓜生活社区app有哪些功能？黄瓜生活社区app功能介绍音遇怎么进行实名认证？音遇进行实名认证的方法