网站首页  软件下载  游戏下载  翻译软件  电子书下载  电影下载  电视剧下载  教程攻略

请输入您要查询的图书:

 

书名 干净的数据(数据清洗入门与实践)/图灵程序设计丛书
分类
作者 (美)斯夸尔
出版社 人民邮电出版社
下载
简介
目录

第1章 为什么需要清洗数据

 1.1 新视角

 1.2 数据科学过程

 1.3 传达数据清洗工作的内容

 1.4 数据清洗环境

 1.5 入门示例

 1.6 小结

第2章 基础知识——格式、 类型与编码

 2.1 文件格式

 2.1.1 文本文件与二进制文件

 2.1.2 常见的文本文件格式

 2.1.3 分隔格式

 2.2 归档与压缩

 2.2.1 归档文件

 2.2.2 压缩文件

 2.3 数据类型、空值与编码

 2.3.1 数据类型

 2.3.2 数据类型间的相互转换

 2.3.3 转换策略

 2.3.4 隐藏在数据森林中的空值

 2.3.5 字符编码

 2.4 小结

第3章 数据清洗的老黄牛——电子表格和文本编辑器

 3.1 电子表格中的数据清洗

 3.1.1 Excel 的文本分列功能

 3.1.2 字符串拆分

 3.1.3 字符串拼接

 3.2 文本编辑器里的数据清洗

 3.2.1 文本调整

 3.2.2 列选模式

 3.2.3 加强版的查找与替换功能

 3.2.4 文本排序与去重处理

 3.2.5 Process Lines Containing

 3.3 示例项目

 3.3.1第一步:问题陈述

 3.3.2第二步:数据收集

 3.3.3第三步:数据清洗

 3.3.4第四步:数据分析

 3.4 小结

第4章 讲通用语言——数据转换

 4.1 基于工具的快速转换

 4.1.1 从电子表格到CSV

 4.1.2 从电子表格到JSON

 4.1.3 使用phpMyAdmin 从SQL语句中生成CSV 或JSON

 4.2 使用PHP 实现数据转换

 4.2.1 使用PHP 实现SQL 到JSON的数据转换

 4.2.2 使用PHP 实现SQL 到CSV的数据转换

 4.2.3 使用PHP 实现JSON 到CSV的数据转换

 4.2.4 使用PHP 实现CSV 到JSON的数据转换

 4.3 使用Python 实现数据转换

第8章  数据分享的最佳实践

第9章  Stack Overflow项目

第10章  Twitter项目

第5章  收集并清洗来自网络的数据.

第6章  清洗PDF文件中的数据

第7章  RDBMS清洗技术

内容推荐

由斯夸尔著的《干净的数据(数据清洗入门与实践)/图灵程序设计丛书》主要内容包括:数据清洗在数据科学领域中的重要作用,文件格式、数据类型、字符编码的基本概念,组织和处理数据的电子表格与文本编辑器,各种格式数据的转换方法,解析和清洗网页上的HTML文件的三种策略,提取和清洗PDF文件中数据的方法,检测和清除RDBMS中的坏数据的解决方案,以及使用书中介绍的方法清洗来自Twirer和Stack Overflow的数据.

本书适合任何水平的数据科学家以及对数据清理感兴趣的读者阅读。

编辑推荐

数据清洗是数据挖掘与分析过程中不可缺少的一个环节,但因为数据类型极其复杂,传统的清洗脏数据工作单调乏味且异常辛苦。如果能利用正确的工具和方法,就可以让数据清洗工作事半功倍。

由斯夸尔著的《干净的数据(数据清洗入门与实践)/图灵程序设计丛书》从文件格式、数据类型、字符编码等基本概念讲起,通过真实的示例,探讨如何提取和清洗关系型数据库、网页文件和PDF文档中的数据。最后提供了两个真实的项目.让读者将所有数据清洗技术付诸实践,完成整个数据科学过程。

如果你是一位数据科学家,或者从事数据科学工作,哪怕是位新手.只要对数据清洗有兴趣,那么本书就适合你阅读!

随便看

 

霍普软件下载网电子书栏目提供海量电子书在线免费阅读及下载。

 

Copyright © 2002-2024 101bt.net All Rights Reserved
更新时间:2025/4/8 13:31:49