数据科学实战之网络爬取(Python实践和示例)/数据科学与工程技术丛书豆瓣PDF电子书bt网盘迅雷下载电子书下载-霍普软件下载网

希普·万登·布鲁克、巴特·巴森斯著的《数据科学实战之网络爬取(Python实践和示例)/数据科学与工程技术丛书》提供了一个完整且符合当前实际的网络爬取指南，其中使用Python作为编程语言，同时含有重要的技术细节，并配有实践案例。本书以数据科学工作者为中心，探讨了网络爬取及网络的相关技术，以确保读者能够充分理解相关内容。对于数据科学工作者来讲，建议使用网络爬取这一强大工具，以便在众多数据科学项目中获得适当的数据集。
在本书中，首先简要介绍了网络爬取及若干实例，进一步讨论了HTTP、HTML和CSS的核心概念，为下一步的学习提供了坚实的基础。在提供快速Python入门知识的基础上，本书涵盖了Python库requests、Beautifiul Soup、用于JavaScript重型站点的Selenium以及网络爬虫的相关技术细节。在本书的最后，给出了最佳实践内容和众多实例，展示了所学知识如何应用，并详细解释7多个数据科学的实例。

译者序
作者简介
技术审校者简介
前言
第一部分网络爬取基础
第1章简介
1.1 什么是网络爬取
1.1.1 网络爬取为什么用于数据科学
1.1.2 谁在使用网络爬取
1.2 准备工作
1.2.1 设置
1.2.2 Python快速入门
第2章网络传输协议HTTP
2.1 网络的魔力
2.2 超文本传输协议
2.3 Python中的HTTP—Requests库
2.4 带参数的URL查询字符串
第3章 HTML和CSS
3.1 超文本标记语言HTML
3.2 将浏览器用作开发工具
3.3 层叠样式表CSS
3.4 Beautiful Soup库
3.5 有关Beautiful Soup的更多内容
第二部分高级网络爬取
第4章深入挖掘HTTP
4.1 使用表单和POST请求
4.2 其他HTTP请求方法
4.3 关于头的更多信息
4.4 使用Cookie
4.5 requests库的session对象
4.6 二进制、JSON和其他形式的内容
第5章处理JavaScript
5.1 什么是JavaScript
5.2 爬取JavaScript
5.3 使用Selenium爬取网页
5.4 Selenium的更多信息
第6章从网络爬取到网络爬虫
6.1 什么是网络爬虫
6.2 使用Python实现网络爬虫
6.3 数据库存储
第三部分相关管理问题及最佳实践
第7章网络爬取涉及的管理和法律问题
7.1 数据科学过程
7.2 网络爬取适合用于哪里
7.3 法律问题
第8章结语
8.1 其他工具
8.1.1 其他Python库
8.1.2 Scrapy库
8.1.3 缓存
8.1.4 代理服务器
8.1.5 基于其他编程语言的爬取
8.1.6 命令行工具
8.1.7 图形化的爬取工具
8.2 最佳实践和技巧
第9章示例
9.1 爬取Hacker News网页
9.2 使用Hacker News API
9.3 爬取引用信息
9.4 爬取书籍信息
9.5 爬取GitHub上项目被收藏的次数
9.6 爬取抵押贷款利率
9.7 爬取和可视化IMDB评级
9.8 爬取IATA航空公司信息
9.9 爬取和分析网络论坛的互动
9.10 收集和聚类时尚数据集
9.11 Amazon评论的情感分析
9.12 爬取和分析维基百科关联图
9.13 爬取和可视化董事会成员图
9.14 使用深度学习破解验证码图片

书名	数据科学实战之网络爬取(Python实践和示例)/数据科学与工程技术丛书
分类
作者	(比)希普·万登·布鲁克//巴特·巴森斯
出版社	机械工业出版社
下载
介绍	内容推荐希普·万登·布鲁克、巴特·巴森斯著的《数据科学实战之网络爬取(Python实践和示例)/数据科学与工程技术丛书》提供了一个完整且符合当前实际的网络爬取指南，其中使用Python作为编程语言，同时含有重要的技术细节，并配有实践案例。本书以数据科学工作者为中心，探讨了网络爬取及网络的相关技术，以确保读者能够充分理解相关内容。对于数据科学工作者来讲，建议使用网络爬取这一强大工具，以便在众多数据科学项目中获得适当的数据集。在本书中，首先简要介绍了网络爬取及若干实例，进一步讨论了HTTP、HTML和CSS的核心概念，为下一步的学习提供了坚实的基础。在提供快速Python入门知识的基础上，本书涵盖了Python库requests、Beautifiul Soup、用于JavaScript重型站点的Selenium以及网络爬虫的相关技术细节。在本书的最后，给出了最佳实践内容和众多实例，展示了所学知识如何应用，并详细解释7多个数据科学的实例。目录译者序作者简介技术审校者简介前言第一部分网络爬取基础第1章简介 1.1 什么是网络爬取 1.1.1 网络爬取为什么用于数据科学 1.1.2 谁在使用网络爬取 1.2 准备工作 1.2.1 设置 1.2.2 Python快速入门第2章网络传输协议HTTP 2.1 网络的魔力 2.2 超文本传输协议 2.3 Python中的HTTP—Requests库 2.4 带参数的URL查询字符串第3章 HTML和CSS 3.1 超文本标记语言HTML 3.2 将浏览器用作开发工具 3.3 层叠样式表CSS 3.4 Beautiful Soup库 3.5 有关Beautiful Soup的更多内容第二部分高级网络爬取第4章深入挖掘HTTP 4.1 使用表单和POST请求 4.2 其他HTTP请求方法 4.3 关于头的更多信息 4.4 使用Cookie 4.5 requests库的session对象 4.6 二进制、JSON和其他形式的内容第5章处理JavaScript 5.1 什么是JavaScript 5.2 爬取JavaScript 5.3 使用Selenium爬取网页 5.4 Selenium的更多信息第6章从网络爬取到网络爬虫 6.1 什么是网络爬虫 6.2 使用Python实现网络爬虫 6.3 数据库存储第三部分相关管理问题及最佳实践第7章网络爬取涉及的管理和法律问题 7.1 数据科学过程 7.2 网络爬取适合用于哪里 7.3 法律问题第8章结语 8.1 其他工具 8.1.1 其他Python库 8.1.2 Scrapy库 8.1.3 缓存 8.1.4 代理服务器 8.1.5 基于其他编程语言的爬取 8.1.6 命令行工具 8.1.7 图形化的爬取工具 8.2 最佳实践和技巧第9章示例 9.1 爬取Hacker News网页 9.2 使用Hacker News API 9.3 爬取引用信息 9.4 爬取书籍信息 9.5 爬取GitHub上项目被收藏的次数 9.6 爬取抵押贷款利率 9.7 爬取和可视化IMDB评级 9.8 爬取IATA航空公司信息 9.9 爬取和分析网络论坛的互动 9.10 收集和聚类时尚数据集 9.11 Amazon评论的情感分析 9.12 爬取和分析维基百科关联图 9.13 爬取和可视化董事会成员图 9.14 使用深度学习破解验证码图片
随便看	诸子斠证(精)/王叔岷著作集诸子时代与诸子文学诸子时代的秩序追寻诸子曰(精) 诸子概论(外一种陈柱集)/中国传统经典与解释诸子概论/北斗丛书诸子概论/原典书坊诸子概论/国学初阶诸子概论/国学名家选粹诸子源流/北京大学国子监大讲堂诸子百喵(共6册) 诸子百家诸子百家诸子百家诸子百家诸子百家诸子百家(中国文化经典珍藏本)/传统文化系列诸子百家(全彩精华版)/国学四库诸子百家(典藏版)/百部国学传世经典诸子百家(插图本)/品读国学经典家藏四库丛书诸子百家(精)/中华国学经典诸子百家(精)/林语堂英译诗文选诸子百家(附光盘共7册)(精)/文化动漫讲堂诸子百家/中华传统文学宝库诸子百家/中国古典名著百部藏书诸子百家/中国红诸子百家/了不起的中国诸子百家/再现世界历史诸子百家/印象中国诸子百家/国学书院系列/图说天下