内容推荐 在大数据时代,个人隐私安全与大数据应用是当下亟须解决的一个矛盾问题。本书试图在二者的冲突中寻求汇通和融合的平衡点,为化解科技异化和隐私保护的对立进行了有益的尝试。 本书将隐私保护技术与用户的应用场景相结合,围绕不同场景、不同生命阶段采取对应的隐私保护技术进行相关研究。主要内容包括隐私内涵的构成要素、隐私安全的表现形式、隐私泄露风险评估与度量方法、基于位置服务场景下隐私保护技术、深度学习训练数据集隐私保护技术、区块链数据隐私保护技术以及数据隐私治理机制与法律监管。本书紧跟上述内容的国内外发展现状和最新成果,阐述了作者对隐私保护的理解和认识,尤其针对不同应用场景下的隐私保护技术进行了深入的探讨、分析和实例验证。 本书可以作为从事大数据应用、隐私保护、信息安全等相关专业研究人员的参考书,对于计算机科学与技术、信息与通信工程、电子科学与技术等专业的研究生和高年级本科生也有一定的参考价值。 作者简介 毛典辉(1979-),北京工商大学计算机与信息学院副教授,硕士生导师,华中科技大学系统分析与集成专业博士,全国工商联智库委员会委员,江苏省“企业双创领军人才计划——科技副总”,中国移动通信联合会全球区块链产业研究院特聘专家。研究方向为隐私保护、区块链&AI融合应用研究。已主持国家社会科学基金项目、教育部人文社科基金项目、北京市“青年英才计划”项目多项,发表SSCI、SCI、EI论文20余篇。 目录 第1章 绪论 1.1 大数据与隐私的关系 1.2 隐私内涵的发展变迁 1.2.1 隐私的内涵及构成要素 1.2.2 大数据环境下隐私的新内涵 1.2.3 人工智能时代隐私内涵的新变化 1.3 大数据时代隐私安全问题的表现形式 1.3.1 技术层面的表现形式 1.3.2 社会层面的表现形式 1.3.3 个人层面的表现形式 1.4 大数据时代个人隐私侵害类型 1.5 大数据时代个人隐私侵犯特征 1.5.1 隐私侵犯主体多样化 1.5.2 隐私侵犯手段智能化 1.5.3 隐私侵犯方式隐蔽化 1.5.4 隐私侵犯后果严重化 1.6 研究内容与结构安排 1.6.1 本书的研究内容 1.6.2 本书的结构安排 参考文献 第2章 隐私泄露风险评估与度量方法 2.1 隐私泄露风险评估 2.1.1 隐私泄露风险评估的主体和过程 2.1.2 隐私泄露风险评估方法 2.2 隐私保护技术 2.2.1 基于密码学的隐私保护方法 2.2.2 基于失真的数据隐私保护方法 2.2.3 基于限制发布的数据隐私保护方法 2.2.4 数据隐私保护技术比较 2.3 隐私保护量化模型与标准 2.3.1 隐私量化模型 2.3.2 隐私保护效果度量标准 2.4 隐私度量方法 2.4.1 基于匿名的隐私度量方法 2.4.2 基于信息熵的隐私度量方法 2.4.3 基于集对分析理论的隐私度量方法 2.4.4 基于差分隐私的隐私度量方法 2.5 隐私保护技术与隐私度量方法评价 2.5.1 隐私保护技术的性能评价指标 2.5.2 隐私度量方法的评价比较 参考文献 第3章 位置服务中隐私保护技术 3.1 位置隐私保护系统 3.1.1 查询类型及隐私保护分类 3.1.2 位置隐私保护系统组成实体 3.1.3 位置隐私保护系统结构 3.2 实际路网中位置隐私查询技术 3.2.1 位置隐私查询类型 3.2.2 道路网络中位置隐私范围查询技术 3.3 P2P架构下基于转发代理的位置隐私保护 3.3.1 算法思想与系统架构 3.3.2 基于希尔伯特的位置匿名算法 3.3.3 基于转发代理查询的系统实现 3.3.4 安全性分析 3.3.5 PeerSim仿真平台 3.3.6 实验结果与分析 3.4 独立架构下增量近邻查询的位置隐私保护技术 3.4.1 算法思想 3.4.2 位置隐私保护算法实现 3.4.3 安全性分析 3.4.4 路网模拟器 3.4.5 实验结果与分析 参考文献 第4章 深度学习训练数据集隐私保护技术 4.1 深度学习模型 4.1.1 常用的深度学习模型 4.1.2 深度学习模型存在的问题 4.1.3 深度学习模型的弱点 4.1.4 深度学习模型攻击与隐私窃取方式 4.2 差分隐私与深度学习模型结合 4.2.1 差分隐私基础 4.2.2 基于差分隐私的深度学习模型隐私保护研究进展 4.2.3 典型应用——PATE系统 4.2.4 基于差分隐私的深度学习模型隐私保护框架 4.3 基于DCGAN反馈的深度差分隐私保护方法 4.3.1 深度差分隐私算法实现 4.3.2 基于epoch的隐私损失递归算法实现 4.3.3 基于DCGAN隐私反馈算法实现 4.3.4 实验及分析 4.4 具有隐私上界的多分组深度差分隐私保护方法 4.4.1 相关基础知识 4.4.2 隐私预算上界以及分组数目的选取 4.4.3 损失函数的改进 4.4.4 多分组模型的聚合 4.4.5 实验与评估 参考文献 第5章 区块链数据隐私保护技术 5.1 区块链技术概述 5.1.1 区块链技术发展历史与趋势 5.1.2 区块链技术平台 5.1.3 区块链技术体系架构 5.1.4 区块链技术研究热点 5.2 区块链数据安全与隐私威胁 5.2.1 区块链隐私安全事件 5.2.2 区块链隐私定义 5.2.3 区块链隐私威胁 5.3 区块链隐私保护机制与方法 5.3.1 区块链隐私保护机制 5.3.2 区块链隐私保护技术 5.3.3 现存区块链隐私保护技术分析 5.4 面向电子健康记录的区块链数据隐私保护方法 5.4.1 EHR数据隐私保护研究进展 5.4.2 同态加密与安全多方计算技术 5.4.3 系统技术方案 5.4.4 系统安全分析 参考文献 第6章 数据隐私治理机制与法律监管 6.1 数据隐私监管困境 6.1.1 数据隐私保护的困局 6.1.2 利益相关者分析 6.1.3 数据隐私监管的难度与挑战 6.2 数据隐私治理模式 6.2.1 数据隐私伦理的治理手段 6.2.2 立法保护模式 6.2.3 行业自律主导模式 6.2.4 ICO模式 6.2.5 双向监管模式 6.3 我国数据隐私保护法律监管 6.3.1 我国数据隐私保护现状 6.3.2 我国数据隐私监管保护存在的问题 6.3.3 我国数据隐私监管保护遵循的基本原则 参考文献 致谢 序言 前言信息和网络技术的高速发展使得大数据成为当前 学术界和工业界的研究热点,数据爆炸式的增长给人类社 会带来了前所未有的机遇与挑战。一方面,基于大数据的 处理、分析和共享等技术可以提高企业经济和社会效益。 另一方面,隐私已经成为大数据应用领域亟待解决的重要 问题。在大数据时代,如何做到获取和利用数据与个人隐 私安全的平衡,已然成为当下亟须解决的一个时代命题。 公众希望在大数据技术和隐私的矛盾冲突中于哲学里找到 一种统一和指导的力量,尤其盼望在科技进步和隐私保护 之间寻求汇通和融合,化解科技异化和隐私保护的对立, 重塑人的尊严,增进民众幸福和自由。在大数据时代,个 人信息隐私保护技术面临着几个方面的挑战: (1)大数据 的海量规模以及飞速的实时性变化使得传统的被动式隐私 保护技术很难适应。与此同时,在数据收集阶段,数据生 成者无法主动地参与隐私保护,使得传统的被动式隐私保 护技术束手无策。(2)大数据多样性带来的多源数据融合 使得隐私泄露风险大大增加。由于用户数据的广泛分布, 使得多个数据集都有可能存在某个个体或者与之关联的信 息,这使得融合之后的数据集的隐私风险相比于单个数据 集的隐私风险加大。(3)在大数据的环境下,大数据存储 者和拥有者完全分离,如何确保合适的数据及属性能够在 合适的时间和地点,给合适的用户访问和利用,是大数据 访问和使用阶段面临的主要风险。由于云存储服务提供商 并不能保证完全可信,用户的数据面临着被不可信的第三 方偷窥或者篡改的风险,同时大数据的查询、统计、分析 和计算等操作也需要在云端进行,这为传统加密技术带来 了新的挑战。(4)当前的大数据隐私保护领域相关研究在 隐私泄露风险的度量方法以及造成损失而进行的妥善事后 补救措施等方面稍显不足。尽管数据生产者和收集者使用 各种方法来保护隐私,但隐私泄露事件仍频频发生。因此 需要一种方法来度量隐私泄露带来的潜在风险,并针对隐 私泄露造成的危害采取相应的法律治理手段来规范。本书 针对上述问题,将隐私保护技术与用户的应用场景相结合 ,考虑整个数据生命周期存在的隐私泄露风险,围绕着不 同场景、不同生命阶段采取对应的隐私保护技术进行相关 研究。全书共分为6章: 第1章为绪论,介绍了大数据时代 隐私内涵的构成要素以及发展变迁历史,并从技术层面、 社会层面、个人层面列举了大数据环境下隐私安全的表现 形式,总结了当前个人隐私被侵害的类型以及呈现的特征 ; 第2章为隐私泄露风险评估与度量方法,针对常用的隐 私保护方法,详细介绍了当前隐私量化模型与度量标准的 相关研究,并分析了主流的隐私度量方法的性能优劣以及 评价指标; 第3章为位置服务中隐私保护技术,针对问题 挑战一,选取了基于位置服务这一应用场景,在实际路网 条件限制下,对当前的位置隐私保护技术研究现状进行了 回顾与分析,并介绍了P2P结构与独立架构两种模式下位置 隐私保护技术方案。第4章为深度学习训练数据集隐私保护 技术,针对问题挑战二,选取了深度学习训练数据集隐私 保护作为应用场景,以差分隐私保护作为技术基础,提出 了两种差分隐私技术与深度学习模型结合的隐私保护技术 方案; 第5章为区块链数据隐私保护技术,针对问题挑战 三,选取了区块链平台中的数据隐私保护作为研究对象, 详细介绍了当前的区块链隐私保护机制以及研究进展。并 以电子健康记录数据为例,讨论了该场景下的区块链数据 隐私保护方法。第6章为数据隐私治理机制与法律监管,针 对问题挑战四,详细介绍了当前数据隐私监管过程中存在 的现实困境和监管挑战,阐述了各国对数据隐私监管采取 的治理模式以及经验,并结合我国的实际现状,介绍了我 国对数据隐私保护治理相关的法律规则。本书内容主要是 基于本人近五年的研究成果汇集而成,写作过程一波三折 ,几经提笔,几经放下,断断续续若干年,此次出版算是 对多年积压任务的一个交代。本书在写作过程中参考了大 量隐私保护研究相关的资料文献,详细书目参见每章最后 的参考文献。可以说,没有它们的贡献,也就没有本书的 出版,在此向有关作者表示由衷的感谢。同时,由于时间 仓促,很多参考文献没有一一列出,在此向相关作者表示 歉意。由于信息技术的快速发展和处于不断更迭的状态, 加之作者水平有限,书中难免存在一些不足之处,敬请读 者批评指正。 毛典辉2019年2月春节于北京工商大学耕耘楼 精彩页 第3章位置服务中隐私保护技术 “从互联网获取信息就好比从消防龙头喝饮料。” ——[美国]迈克尔·卡珀 移动通信和可穿戴传感设备等智能位置感知终端的普及,极大地推进了基于位置服务(location based service,LBS)的快速发展,尤其是在社交网络、军事、交通、医疗等领域的广泛应用并积累形成价值巨大的位置大数据。这些位置服务与位置大数据不仅为用户提供了便捷的服务,同时改变了传统的商业运作方式,如移动用户通过手机查询“离我最近的医院”同时驾车导航实时的交通信息,这些包含用户位置的业务数据对于第三方保险公司而言,可以通过对个体记录的分析,挖掘出用户的健康状况、驾驶习惯以及风险偏好,进而为用户提供个性化的车险定价,从而改变传统群体平均风险定价策略。尽管 LBS 为各类用户提供了诸多便捷服务,但其对位置数据的挖掘和利用也引发了隐私安全方面的争论,攻击者通过对用户具体位置或者运动轨迹的分析,进而联系用户的生活习惯、工作背景可推断出用户真实身份等诸多个人隐私信息,这使得用户对位置隐私泄露感到担忧。据中国互联网络信息中心发布的《2018年中国网民信息安全状况研究报告》调查显示超过七成用户担心位置服务可能导致自身隐私泄露。因此,如何在不侵犯位置隐私情况下为移动用户提供位置服务已成为信息安全领域的新兴研究热点。 从法律层面上看,隐私是一种权利,一种个人信息不为别人所知的权利。隐私的内涵和外延,由于其本身的动态发展以及人格权固有的开放性,而难以用简单、统一的方式进行概括。隐私的核心价值在于保护私人的生活领域免受他人侵扰。位置隐私作为一种信息隐私,是传统隐私权在网络环境下的延伸,其强调的是用户对自己位置信息的掌控能力以及位置隐私权益的保护。值得注意的是,在隐私敏感的位置服务消费中,用户位置隐私的保护并不意味着服务提供商不能搜集用户位置信息,而是处理用户位置信息时避免个体的可识别性,尤其是当前大数据时代,具有极高商业价值的用户位置信息挖掘与发布,容易造成用户个体敏感信息的泄露。 图31隐私敏感的位置服务权责示意图 从位置隐私侵权责任认定与抗辩事由来看(见图31),用户作为位置隐私的权益主体,在隐私侵犯与权益保障上处于天然的弱势地位。在位置服务消费中,用户通过“知情与同意”等格式合同形式获取服务提供商的隐私保护承诺,并一次性让渡其位置信息所有权益获得相应的信息服务。但是内容空泛、约束无力的隐私保护声明无法满足用户“主观化”与“个性化”的隐私保护需求,用户容易因身份、环境、应用甚至心情的不同而改变隐私保护意识,而当前已有的位置隐私保护研究主要侧重于设计高强度的位置隐私保护机制,忽略了隐私保护中用户偏好和个性化需求问题。另外,LBS服务提供商在搜集、处理用户的位置信息时,通常因为业务或者利益关系,与第三方机构进行数据交易或者共享,通过多方多次的用户位置信息挖掘衍生出用户无法预知与控制的未知创新应用,这种二次或多次利用蕴含巨大商业价值的位置信息挖掘与交易行为,违背了数据采集者的原始意愿,服务提供商对数据采集利用主体无法告知或故意隐瞒数据的用途,导致用户知情权难以获得有效保障。因此,在当前第三方监管机构缺失、法律滞后的现实情形下,用户的位置隐私保护依赖于LBS服务提供商在行业自律约束下提供支持个性隐私偏好的高强度隐私保护技术,为了实现此目的,服务提供商需要考虑以下两个具有挑战性的问题: (1) 如何在用户隐私偏好约束下的查询服务中兼顾位置隐私安全和服务可用性的平衡。 (2) 如何在用户隐私偏好约束下的轨迹数据发布中兼顾个体隐私偏好隐藏与群体行为模式挖掘可用性的平衡。 本章将针对上述问题,介绍位置服务相关概念以及个性隐私偏好约束下的位置隐私保护相关技术,以期推进个性化、简单化、安全化LBS应用的深入发展。 3.1位置隐私保护系统 在讨论不同的位置隐私保护方法之前,必须定义不同保护方法的保护目标。用户的保护目标指哪些属性信息必须受到保护,哪些可以泄露。被保护的属性包括用户的身份、空间信息和时态信息。在考虑保护具体的属性信息之前,介绍一些保护目标和应用场景的例子。 当匿名运动对象的位置对 LBS 客户端可见时,隐私的目标可能就是隐藏用户的身份。用户的身份可以是他的名字,一个独特的标识符或任何唯一标识用户的属性集。即使用户发布位置信息时未透漏个人信息,攻击者通过分析位置信息和额外的上下文数据如曾经访问的对象等,仍然可以尝试推断用户的身份,一般来说,准标识符可以用来识别用户。 空间信息另一种保护目标是只提供给客户端设定精度的用户位置信息。例如,用户可能向他的朋友提供精确的位置信息,而向新闻订阅服务只提供城市级别粗粒度位置信息。一般来说,这一目标保护方法被称为位置模糊或隐匿。此外,还必须考虑到用户的位置通常携带比单纯的几何信息如 |