网站首页  软件下载  游戏下载  翻译软件  电子书下载  电影下载  电视剧下载  教程攻略

请输入您要查询的图书:

 

书名 数据科学实战之网络爬取(Python实践和示例)/数据科学与工程技术丛书
分类
作者 (比)希普·万登·布鲁克//巴特·巴森斯
出版社 机械工业出版社
下载
简介
内容推荐
希普·万登·布鲁克、巴特·巴森斯著的《数据科学实战之网络爬取(Python实践和示例)/数据科学与工程技术丛书》提供了一个完整且符合当前实际的网络爬取指南,其中使用Python作为编程语言,同时含有重要的技术细节,并配有实践案例。本书以数据科学工作者为中心,探讨了网络爬取及网络的相关技术,以确保读者能够充分理解相关内容。对于数据科学工作者来讲,建议使用网络爬取这一强大工具,以便在众多数据科学项目中获得适当的数据集。
在本书中,首先简要介绍了网络爬取及若干实例,进一步讨论了HTTP、HTML和CSS的核心概念,为下一步的学习提供了坚实的基础。在提供快速Python入门知识的基础上,本书涵盖了Python库requests、Beautifiul Soup、用于JavaScript重型站点的Selenium以及网络爬虫的相关技术细节。在本书的最后,给出了最佳实践内容和众多实例,展示了所学知识如何应用,并详细解释7多个数据科学的实例。
目录
译者序
作者简介
技术审校者简介
前言
第一部分 网络爬取基础
第1章 简介
1.1 什么是网络爬取
1.1.1 网络爬取为什么用于数据科学
1.1.2 谁在使用网络爬取
1.2 准备工作
1.2.1 设置
1.2.2 Python快速入门
第2章 网络传输协议HTTP
2.1 网络的魔力
2.2 超文本传输协议
2.3 Python中的HTTP—Requests库
2.4 带参数的URL查询字符串
第3章 HTML和CSS
3.1 超文本标记语言HTML
3.2 将浏览器用作开发工具
3.3 层叠样式表CSS
3.4 Beautiful Soup库
3.5 有关Beautiful Soup的更多内容
第二部分 高级网络爬取
第4章 深入挖掘HTTP
4.1 使用表单和POST请求
4.2 其他HTTP请求方法
4.3 关于头的更多信息
4.4 使用Cookie
4.5 requests库的session对象
4.6 二进制、JSON和其他形式的内容
第5章 处理JavaScript
5.1 什么是JavaScript
5.2 爬取JavaScript
5.3 使用Selenium爬取网页
5.4 Selenium的更多信息
第6章 从网络爬取到网络爬虫
6.1 什么是网络爬虫
6.2 使用Python实现网络爬虫
6.3 数据库存储
第三部分 相关管理问题及最佳实践
第7章 网络爬取涉及的管理和法律问题
7.1 数据科学过程
7.2 网络爬取适合用于哪里
7.3 法律问题
第8章 结语
8.1 其他工具
8.1.1 其他Python库
8.1.2 Scrapy库
8.1.3 缓存
8.1.4 代理服务器
8.1.5 基于其他编程语言的爬取
8.1.6 命令行工具
8.1.7 图形化的爬取工具
8.2 最佳实践和技巧
第9章 示例
9.1 爬取Hacker News网页
9.2 使用Hacker News API
9.3 爬取引用信息
9.4 爬取书籍信息
9.5 爬取GitHub上项目被收藏的次数
9.6 爬取抵押贷款利率
9.7 爬取和可视化IMDB评级
9.8 爬取IATA航空公司信息
9.9 爬取和分析网络论坛的互动
9.10 收集和聚类时尚数据集
9.11 Amazon评论的情感分析
9.12 爬取和分析维基百科关联图
9.13 爬取和可视化董事会成员图
9.14 使用深度学习破解验证码图片
随便看

 

霍普软件下载网电子书栏目提供海量电子书在线免费阅读及下载。

 

Copyright © 2002-2024 101bt.net All Rights Reserved
更新时间:2025/4/2 12:47:40