暂无商品咨询信息 [发表商品咨询]
如今,许多组织分析和共享有关个人的大型敏感数据集。无论这些数据集涵盖医疗保健详细信息、财务记录还是考试成绩,组织都越来越难以通过去识别化、匿名化和其他传统的统计披露限制技术来保护个人信息。这本书介绍了差分隐私(DP)如何提供帮助。
书中解释了这些技术如何使数据科学家、研究人员和程序员能够运行统计分析,隐藏任何单个人的贡献。你将深入了解基本的DP概念,并了解如何使用开源工具创建差异私有统计信息,探索如何评估效用/隐私权衡,并学习如何将差分隐私集成到工作流中。
差分隐私可以在不泄露数据集中具体个人信息的前提下,准确发布数据集的统计信息。本书详细阐述了差分隐私的理论基础、实际应用以及面临的挑战,覆盖具体算法和数学模型。全书分为三部分:第一部分介绍差分隐私的理论,详细解释了准备数据和执行差分隐私数据发布所需的各个概念;第二部分探讨差分隐私的应用,包括如何查询不同的数据格式(如搜索日志)以及在机器学习算法中添加差分隐私;第三部分则关注从业者需要了解的重要主题,例如理解隐私攻击、设置隐私参数以及部署首次差分隐私数据发布。本书适合数据管理人员、数据技术相关人员、安全领域技术人员等阅读。
目录<br />前言1<br />第一部分 差分隐私的概念<br />第1章 欢迎来到差分隐私的世界11<br />1.1 历史11<br />1.2 差分隐私之前的数据私有化14<br />1.3 案例研究:课堂场景中应用差分隐私技术16<br />1.3.1 隐私保护与均值计算16<br />1.3.2 隐私泄露的防范机制17<br />1.4 相邻数据集:个体退出场景分析19<br />1.5 敏感度:统计量的变化范围21<br />1.6 噪声注入机制23<br />1.7 可用工具概览25<br />1.8 总结27<br />1.9 练习28<br />第2章 差分隐私的基本原理29<br />2.1 隐私保护的直观理解30<br />2.1.1 隐私单元30<br />2.1.2 隐私损失31<br />2.2 差分隐私的正式化定义32<br />2.2.1 随机响应33<br />2.2.2 隐私侵犯34<br />2.3 差分隐私模型分类36<br />2.4 敏感度深度解析37<br />2.5 差分隐私机制总览38<br />2.5.1 拉普拉斯机制39<br />2.5.2 拉普拉斯机制的ε-DP证明40<br />2.5.3 机制准确性分析41<br />2.5.4 学生家庭类型统计案例41<br />2.5.5 指数机制43<br />2.6 差分隐私查询的组合性44<br />2.7 差分隐私后处理不变性45<br />2.8 使用SmartNoise实现差分隐私查询47<br />2.8.1 示例1:差分隐私计数47<br />2.8.2 示例2:差分隐私求和49<br />2.8.3 示例3:单数据库多查询处理49<br />2.9 总结50<br />2.10 练习51<br />第3章 稳定变换52<br />3.1 距离度量53<br />3.1.1 数据集相邻性55<br />3.1.2 有界差分隐私与无界差分隐私56<br />3.2 c-稳定变换的定义56<br />3.2.1 变换案例:双重变换57<br />3.2.2 变换案例:逐行变换58<br />3.3 稳定性是敏感度的充要条件59<br />3.3.1 变换案例:计数60<br />3.3.2 变换案例:未知大小求和62<br />3.4 域描述符63<br />3.5 链式变换65<br />3.6 度量空间65<br />3.7 稳定性的定义66<br />3.7.1 变换案例:已知大小求和67<br />3.7.2 变换案例:已知大小的均值68<br />3.7.3 变换案例:未知大小的均值69<br />3.7.4 变换案例:调整大小70<br />3.7.5 标量聚合器回顾71<br />3.8 向量值聚合器71<br />3.8.1 向量范数、距离和敏感度72<br />3.8.2 有界范数数据聚合73<br />3.8.3 分组数据75<br />3.9 实践76<br />3.10 总结77<br />3.11 练习77<br />第4章 隐私机制79<br />4.1 隐私度量80<br />4.1.1 隐私度量:最大散度80<br />4.1.2 度量、散度与隐私度量81<br />4.2 关于隐私机制82<br />4.2.1 随机响应机制83<br />4.2.2 向量拉普拉斯机制84<br />4.2.3 指数机制86<br />4.2.4 分位数评分变换87<br />4.2.5 噪声最大值报告机制93<br />4.3 交互式查询处理95<br />4.4 高于阈值96<br />4.4.1 数据流处理96<br />4.4.2 在线隐私选择96<br />4.4.3 流数据稳定性变换98<br />4.5 总结99<br />4.6 练习99<br />第5章 隐私的定义101<br />5.1 隐私损失随机变量102<br />5.2 近似差分隐私103<br />5.2.1 截断噪声机制105<br />5.2.2 建议-测试-发布107<br />5.2.3 高级组合定理109<br />5.3 高斯机制112<br />5.4 Rényi 差分隐私114<br />5.4.1 零集中差分隐私117<br />5.4.2 基于矩的隐私度量强度分析117<br />5.5 有界范围机制118<br />5.6 隐私损失分布119<br />5.6.1 数值组合121<br />5.6.2 特征函数122<br />5.7 假设检验解释123<br />5.8 总结125<br />5.9 练习125<br />第6章 组合范式精要127<br />6.1 链式处理128<br />6.1.1 示例:边界估计129<br />6.1.2 示例:B树结构131<br />6.2 隐私度量转换134<br />6.3 组合136<br />6.3.1 自适应组合136<br />6.3.2 里程表和过滤器138<br />6.4 分区数据处理140<br />6.4.1 示例:对寻求庇护者的数据进行分组141<br />6.4.2 并行组合143<br />6.4.3 示例:多分位数计算144<br />6.5 隐私增强145<br />6.5.1 通过简单随机抽样实现隐私增强146<br />6.5.2 通过泊松抽样实现隐私增强147<br />6.5.3 通过混洗实现隐私增强147<br />6.6 抽样与聚合147<br />6.7 隐私候选集选择148<br />6.8 总结150<br />6.9 练习150<br />第二部分 差分隐私在实践中的应用<br />第7章 隐私单元深度解析155<br />7.1 隐私层级体系156<br />7.2 浏览器日志示例:朴素事件级保证158<br />7.3具有无界贡献的数据集160<br />7.4 数据集截断161<br />7.4.1 蓄水池抽样162<br />7.4.2 分区数据截断164<br />7.4.3 医院就诊示例:偏差-方差权衡165<br />7.5 截断阈值的隐私估计171<br />7.6 未知域名问题174<br />7.7 截断操作的适用场景175<br />7.7.1 稳定性分组变换176<br />7.7.2 稳定性并集变换176<br />7.7.3 稳定性连接变换176<br />7.8 总结177<br />7.9 练习177<br />第8章 差分隐私统计建模180<br />8.1 隐私推理180<br />8.2 差分隐私的线性回归181<br />8.2.1 充分统计量扰动181<br />8.2.2 隐私Theil-Sen估计器184<br />8.2.3 目标函数扰动186<br />8.3 算法选择策略188<br />8.4 差分隐私朴素贝叶斯189<br />8.4.1 分类朴素贝叶斯190<br />8.4.2 连续朴素贝叶斯191<br />8.4.3 机制设计方案191<br />8.4.4 示例:朴素贝叶斯实现192<br />8.5 隐私决策树193<br />8.6 总结195<br />8.7 练习195<br />第9章 差分隐私机器学习197<br />9.1 机器学习模型隐私保护必要性197<br />9.2 机器学习术语回顾198<br />9.3 差分隐私梯度下降199<br />9.4 随机批处理202<br />9.4.1 并行组合应用202<br />9.4.2 通过子抽样实现隐私增强203<br />9.4.3 超参数调优205<br />9.5 隐私聚合教师模型207<br />9.6 使用PyTorch训练差分隐私模型209<br />9.7 总结213<br />9.8 练习213<br />第10章 差分隐私合成数据214<br />10.1 合成数据的定义214<br />10.2 合成数据应用场景216<br />10.3 基于边缘分布的合成器216<br />10.4 图模型方法220<br />10.5 GAN合成器222<br />10.6 总结225<br />10.7 练习225<br />第三部分 差分隐私的部署<br />第11章 隐私攻击防护229<br />11.1 隐私侵犯的定义230<br />11.2 针对表格数据集的攻击231<br />11.2.1 记录链接攻击231<br />11.2.2 单独识别攻击233<br />11.2.3 差分攻击234<br />11.2.4 方程系统重构攻击235<br />11.2.5 追踪攻击238<br />11.2.6 k匿名漏洞239<br />11.3 机器学习模型攻击241<br />11.4 总结242<br />11.5 练习243<br />第12章 数据发布的隐私损失参数244<br />12.1 抽样策略245<br />12.2 元数据参数246<br />12.3 隐私损失预算分配246<br />12.4 决策辅助实践247<br />12.4.1 代码手册与数据标注247<br />12.4.2 上下文规范参数化248<br />12.5 在探索性数据分析的背景下进行决策252<br />12.6 自适应隐私参数选择254<br />12.7 透明参数选择的潜在风险254<br />12.8 总结255<br />12.9 练习256<br />第13章 规划你的第一个差分隐私项目257<br />13.1 进行差分隐私部署须考虑的事项258<br />13.1.1 部署差分隐私的频率258<br />13.1.2 组合与预算管理258<br />13.2 差分隐私部署清单259<br />13.3 示例项目:课堂场景回归261<br />13.4 真实数据发布规范263<br />13.4.1 领英经济图谱案例264<br />13.4.2 微软宽带数据案例264<br />13.5 差分隐私发布表:发布详情标准264<br />13.6 结束语265<br />扩展阅读267<br />附录269
基本信息 | |
---|---|
出版社 | 机械工业出版社 |
ISBN | 9787111789673 |
条码 | 9787111789673 |
编者 | [美]伊桑·科恩(Ethan Cowan) [美]迈克尔·舒马特(Michael Shoemate) [美]玛雅娜·佩雷拉(Mayana Pereira) 著 |
译者 | |
出版年月 | 2025-09-01 00:00:00.0 |
开本 | 16开 |
装帧 | 平装 |
页数 | 292 |
字数 | 385 |
版次 | 1 |
印次 | 1 |
纸张 |
暂无商品评论信息 [发表商品评论]
暂无商品咨询信息 [发表商品咨询]