![]()
内容推荐 本书的编写目的是向读者介绍大数据治理与安全的基本概念和相应的技术应用。本书共9章,内容分别为数据治理概述、数据采集与数据道德、数据质量与数据管理、数据交换与数据集成、数据库设计与治理、架构设计与治理、数据仓库设计与治理、大数据安全与治理及综合实训。本书将理论与实践操作相结合,通过大量的案例帮助读者快速了解和应用大数据治理的相关技术,并对书中重要的、核心的知识点加大练习的比例,以达到帮助读者熟练应用的目的。 本书可作为高等院校大数据专业、人工智能专业、软件技术专业、云计算专业、计算机网络专业的专业课教材,也可作为大数据爱好者的参考书。 目录 目录 源码下载 第1章数据治理概述 1.1数据治理简介 1.1.1认识数据治理 1.1.2人工智能下的数据治理 1.2数据治理领域 1.3数据治理项目的实施 1.4本章小结 1.5实训 习题1 第2章数据采集与数据道德 2.1数据采集基础 2.1.1数据采集介绍 2.1.2数据采集的类型 2.1.3数据采集的方式 2.2数据采集平台 2.2.1数据采集平台概述 2.2.2数据采集平台实例 2.3网络爬虫 2.3.1爬虫概述 2.3.2Python爬虫的相关技术 2.3.3Python爬虫的实现流程 2.4人工智能时代的法律问题与伦理道德 2.4.1数据带来的法律问题 2.4.2使用网络爬虫爬取数据的法律风险与合规建议 2.4.3数据伦理与道德 2.5本章小结 2.6实训 习题2 第3章数据质量与数据管理 3.1数据质量与数据质量管理概述 3.1.1数据质量 3.1.2数据质量管理 3.2数据标准 3.2.1数据标准介绍 3.2.2数据标准的建设 3.3主数据与元数据 3.3.1主数据介绍 3.3.2元数据概述 3.3.3元数据管理 3.4本章小结 3.5实训 习题3 第4章数据交换与数据集成 4.1数据交换 4.1.1数据交换概述 4.1.2数据交换中的常见格式 4.1.3API与数据交换 4.2数据交换平台及应用 4.2.1数据交换平台 4.2.2数据交换平台的应用 4.3数据集成 4.3.1数据集成介绍 4.3.2数据集成模式 4.3.3数据集成方法 4.4本章小结 4.5实训 习题4 第5章数据库设计与治理 5.1数据库概述 5.1.1数据库介绍 5.1.2数据库管理系统 5.1.3数据库系统的结构 5.1.4数据模型 5.1.5关系数据库的设计流程 5.2数据库治理 5.2.1数据库治理概述 5.2.2数据字典设计 5.2.3数据库设计 5.3图谱数据库 5.3.1知识图谱概述 5.3.2知识图谱与图谱数据库 5.4本章小结 5.5实训 习题5 第6章架构设计与治理 6.1认识数据架构 6.1.1数据架构介绍 6.1.2企业架构的核心概念 6.1.3企业架构 6.1.4主流的企业架构 6.1.5ArchiMate语言 6.2架构治理概述 6.2.1治理的分类 6.2.2架构治理的内容 6.3数据治理框架与规划 6.3.1数据治理框架概述 6.3.2数据治理架构规划 6.3.3数据治理顶层架构设计 6.4大数据架构 6.4.1大数据架构简介 6.4.2大数据架构的分类 6.4.3Hadoop架构 6.5本章小结 6.6实训 习题6 第7章数据仓库设计与治理 7.1数据仓库 7.1.1数据仓库概述 7.1.2数据仓库建模 7.1.3数据仓库与ETL 7.2数据仓库规范 7.2.1数据仓库规范概述 7.2.2数据仓库设计规范 7.3Hive数据仓库 7.3.1Hive数据仓库简介 7.3.2Hive的安装与配置 7.3.3Hive常用操作 7.3.4Hive支持的数据类型 7.3.5Hive中的数据库操作 7.3.6Hive中的数据操作 7.4数据湖与数据中台 7.4.1数据湖 7.4.2数据中台 7.5本章小结 7.6实训 习题7 第8章大数据安全与治理 8.1大数据安全 8.1.1大数据安全概述 8.1.2大数据安全中的关键技术 8.2大数据安全体系 8.2.1大数据安全体系概述 8.2.2大数据安全体系的加固措施 8.3大数据安全治理 8.3.1大数据安全治理概述 8.3.2大数据安全治理的关键技术 8.3.3大数据安全治理的开源软件 8.4本章小结 8.5实训 习题8 第9章综合实训 9.1大数据平台的搭建 9.2大数据平台的组件安装 9.3大数据平台的监控 9.4安全算法的研究与应用 序言 前言党的二十大报告中指出: 教育、科技、人才是 全面建设社会主义现代化国家的基础性、战略性支撑。必须 坚持科技是第一生产力、人才是第一资源、创新是第一动力 ,深入实施科教兴国战略、人才强国战略、创新驱动发展战 略,这三大战略共同服务于创新型国家的建设。高等教育与 经济社会发展紧密相连,对促进就业创业、助力经济社会发 展、增进人民福祉具有重要意义。 信息技术的快速发展引发了数据规模的爆炸式增长, 大数据引起了国内外学术界、工业界和政府部门的高度重视 ,被认为是一种新的非物质生产要素,蕴含巨大的经济和社 会价值,并将导致科学研究的深刻变革,对国家的经济发展 、社会发展、科学进展具有战略性、全局性和长远性的意义 。 数据为人类社会带来机遇的同时也带来了风险,围绕 数据产权、数据安全和隐私保护的问题也日益突出,并催生 了一个全新的命题——数据治理。综合来看,数据治理是指 从使用零散数据变为使用统一数据、从具有很少或没有组织 流程到企业范围内的综合数据管控、从数据混乱状况到数据 井井有条的一个过程。随着大数据在各个行业领域应用的不 断深入,数据作为基础性战略资源的地位日益凸显,数据标 准化、数据确权、数据质量、数据安全、隐私保护、数据流 通管控、数据共享开放等问题越来越受到国家、行业、企业 各个层面的高度关注,这些内容都属于数据治理的范畴。因 此,数据治理的概念越来越多地受到人们关注,成为目前大 数据产业生态系统中的新热点。 本书以理论与实践操作相结合的方式深入讲解了大数 据治理与安全的基本知识和实现的基本技术,在内容设计上 既有上课时老师的讲述部分,包括详细的理论与典型的案例 ,又有大量的实训环节,双管齐下,极大地激发了学生在课 堂上的学习积极性与主动创造性,让学生在课堂上跟上老师 的思维,从而学到更多有用的知识和技能。 本书共9章,主要包括数据治理概述、数据采集与数据 道德、数据质量与数据管理、数据交换与数据集成、数据库 设计与治理、架构设计与治理、数据仓库设计与治理、大数 据安全与治理及综合实训。 本书的特色如下: (1) 采用“理实一体化”教学方式,课堂上既有老 师的讲述,又有学生独立思考、上机操作的内容。 (2) 紧跟时代潮流,注重技术变化,书中包含最新 的大数据治理知识及一些开源库的使用。建议读者在阅读本 书前具备一定程度的大数据基础知识,了解Hadoop框架, 并熟悉一门编程语言。此外,读者在阅读本书时还需安装 MySQL及Kettle等相关软件。 (3) 编写本书的老师都具有多年的教学经验,能够 激发学生的学习热情。 (4) 为便于教学,本书提供丰富的配套资源,包括 教学大纲、教学课件、习题答案、程序源码、教学进度表和 在线作业。 资源下载提示 课件等资源: 扫描封底的“课件下载”二维码,在公 众号“书圈”下载。 素材(源码)等资源: 扫描目录上方的二维码下载。 在线作业: 扫描封底的作业系统二维码,登录网站在 线做题及查看答案。 本书可作为高等院校大数据专业、人工智能专业、软 件技术专业、云计算专业、计算机网络专业的专业课教材, 也可作为大数据爱好者的参考书。 本书的建议学时为54学时,具体分布如下表所示。 章建议学时 数据治理概述2 数据采集与数据道德8 数据质量与数据管理8 数据交换与数据集成6 数据库设计与治理8 架构设计与治理6 数据仓库设计与治理6 大数据安全与治理6 综合实训4 本书由黄源任主编,龙颖、吴文灵、杨瑞峰任副主编 。其中,黄源编写了第1~7章; 龙颖编写了第9章; 吴文 灵和杨瑞峰共同编写了第8章。全书由黄源负责统稿工作。 本书在编写过程中得到了中国电信金融行业信息化应 用重庆基地总经理助理杨琛的大力支持,在此表示感谢。另 外,在本书编写过程中编者参阅了大量的资料,在此对相关 作者表示感谢。 由于编者水平有限,书中难免出现疏漏之处,希望广 大读者批评、指正。 编者2023年7月于重庆 导语 本书特色:(1) 采用“理实一体化”教学方式,课堂上既有老师的讲述又有学生独立思考、上机操作的内容;(2) 紧跟时代潮流,注重技术变化,书中包含了最新的大数据治理知识及一些开源库的使用;(3)配套资源丰富,包括教学大纲、教学课件、习题答案、程序源码、教学进度表和在线作业。 精彩页 第3章〓数据质量与数据管理 本章学习目标 了解数据质量的概念 了解数据质量管理的概念 了解数据标准的概念 掌握主数据的定义 掌握元数据的定义与特征 了解电子文件元数据 了解元数据管理的定义与实施 本章先向读者介绍数据质量与数据质量管理,再介绍数据标准,接着介绍主数据与元数据,最后介绍元数据管理的定义与实施。 3.1数据质量与数据质量管理概述 3.1.1数据质量 1. 数据质量介绍 数据无处不在,它贯穿整个数据生命周期,为企业决策提供了可靠的基础支撑,是企业成功的关键。在大数据时代,随着企业数据规模的不断扩大、数据数量的不断增加及数据来源的复杂性不断变化,为了能够充分地利用数据价值,企业需要对数据进行管理。 然而,大数据应用必须建立在质量可靠的数据之上才有意义,建立在低质量甚至错误数据之上的应用有可能与其初心背道而驰。数据质量就是确保组织拥有的数据完整且准确,只有完整、准确的数据才可以供企业分析、共享使用。因此,组织只有拥有强大的数据质量流程才可以确保数据的干净和清洁。 2. 数据质量术语 (1) 质量。一组固有特性满足要求的程度。 (2) 准确度。在一定观测条件下,观测值及其函数的估值与其真值的偏离程度。 (3) 一致性。满足规定的要求。 (4) 一致性质量级别。数据质量结果的一个或一组阈值,用于确定数据集符合产品规范规定或用户要求的程度。 (5) 数据质量结果。数据质量测量得到的一个值或一组值,或者将获取的一个值或一组值与规定的一致性质量级别相比较得到的评价结果。 (6) 数据质量范围。记录其质量信息的数据的覆盖范围或特征。 (7) 数据质量值类型。记录数据质量结果的值的类型。 (8) 数据质量值单位。记录数据质量结果的值的单位。 (9) 完全检查。检查质量范围内的所有个体。 (10) 检验单元。可被单独描述或考察的事物。 (11) 要素。现实世界现象的抽象。 3. 造成数据质量的常见问题 造成数据质量的常见问题大致可以分为3种,即技术原因、业务原因和管理原因。 1) 技术原因 (1) 数据模型设计的质量问题。例如,数据库表结构、数据库约束条件、数据校验规则的设计开发不合理,造成数据录入无法校验或校验不当,引起数据重复、不完整、不准确。 (2) 数据源存在数据质量问题。例如,有些数据是从生产系统采集过来的,在生产系统中这些数据就存在重复、不完整、不准确等问题,而采集过程中没有对这些问题做清洗处理,这种情况也比较常见。 (3) 数据采集过程的质量问题。例如,采集点、采集频率、采集内容、映射关系等采集参数和流程设置不正确,数据采集接口效率低,导致数据采集失败、数据丢失、数据映射和转换失败。 (4) 数据传输过程的问题。例如,数据接口本身存在问题、数据接口参数配置错误、网络不可靠等都会造成数据传输过程中发生数据质量问题。 (5) 数据装载过程的问题。例如,数据清洗规则、数据转换规则、数据装载规则配置有问题。 (6) 数据存储的质量问题。例如,数据存储设计不合理、数据的存储能力有限、人为后台调整数据,引起数据丢失、数据无效、数据失真、记录重复。 (7) 系统原因。业务系统各自为政,烟囱式建设,系统之间的数据不一致问题严重。 2) 业务原因 (1) 业务需求不清晰。例如,数据的业务描述、业务规则不清晰,导致技术无法构建出合理、正确的数据模型。 (2) 业务需求的变更。这个问题其实对数据质量的影响非常大,需求一变,数据模型设计、数据录入、数据采集、数据传输、数据装载、数据存储等环节都会受到影响,稍有不慎就会导致数据质量问题的发生。 (3) 业务端数据输入不规范。常见的数据录入问题有大小写、全半角、特殊字符等一不小心录错。人工录入的数据质量与录入数据的人员密切相关,录入数据的人员工作严谨、认真,数据质量就相对较好,反之就较差。 (4) 数据造假。某些操作人员为了提高或降低考核指标,对一些数据进行处理,使得数据的真实性无法保证。 3) 管理原因 (1) 认知问题。企业管理缺乏数据思维,没有认识到数据质量的重要性,重系统而轻数据,认为系统是万能的,数据质量差一些也没关系。 (2) 没有明确的数据归口管理部门或岗位。企业缺乏数据认责机制,出现数据质量问题找不到负责人。 (3) 缺乏数据规划。企业没有明确的数据质量目标,没有制定与数据质量相关的政策和制度。 (4) 数据输入规范不统一。不同的业务部门、不同的时间甚至在处理相同业务时,由于数据输入规范不同,造成数据冲突或矛盾。 (5) 缺乏有效的数据质量问题处理机制。数据质量问题从发现、指派、处理到优化没有一个统一的流程和制度支撑,数据质量问题无法闭环。 (6) 缺乏有效的数据 |