热门搜索: 中考 高考 考试 开卷17
服务电话 024-23945002/96192
 

线性代数与优化 机器学习视角

编号:
wx1203678253
销售价:
¥131.12
(市场价: ¥149.00)
赠送积分:
131
数量:
   
商品介绍

在机器学习算法日益复杂的今天,数学基础薄弱已成为制约学习者进阶的核心瓶颈。本书由国际数据挖掘领域权威、IBM“创新大师”查鲁·C. 阿加沃尔撰写,精准聚焦线性代数与最优化理论两大支柱,颠覆传统教材重理论轻实践的弊端,开创性地以“机器学习问题”为切入点重构知识体系。从矩阵分解到谱聚类,从梯度下降到神经网络反向传播,每一章节均以真实算法场景驱动概念讲解,辅以即时巩固习题,实现“学-练-用”闭环。无论是计算机科学专业学生、数据科学从业者,还是希望系统化提升数学能力的工程师,本书均为不可多得的进阶指南。

在机器学习领域飞速发展的当下,线性代数与最优化理论的重要性愈发凸显。然而,初学者常面临基础知识缺失和课程针对性不足的困境,需耗费大量精力学习额外的基础课程。本书为破解这一难题应运而生,以独特的机器学习视角,系统介绍线性代数和最优化理论,为计算机科学、数学和数据科学等相关专业的学生和从业者提供了一条高效的学习路径。本书重点聚焦线性代数及其应用和最优化理论及其应用两个核心主题,并提供丰富的示例和练习题,以帮助读者及时理解相关概念和巩固所学内容。·线性代数及其应用:详细介绍线性代数基础知识,并深入探讨其在奇异值分解、矩阵分解、相似矩阵(核方法)和图分析等方面的常见应用。书中提供了大量机器学习应用示例,如谱聚类、基于核的分类和异常值检测等,将线性代数方法与机器学习示例紧密结合,强调机器学习中与线性代数最相关的概念,并详细讲解应用方法,让读者清晰看到线性代数在实际机器学习场景中的应用。·最优化理论及其应用:从最优化理论视角出发,揭示许多机器学习模型本质上是优化问题,并且深入剖析机器学习的基础性问题——最小二乘回归。最小二乘回归不仅是联系线性代数和最优化理论的关键,也是支持向量机、Logistic回归和推荐系统等多种模型的基础。此外,降维和矩阵分解等方法以及计算图在神经网络反向传播中的应用,也都体现了最优化方法的重要性。

译者序

前言

致谢

第1章 线性代数与优化:导论 1

1.1 引言1

1.2 标量、向量与矩阵 2

1.2.1 标量与向量间的基本运算3

1.2.2 向量与矩阵间的基本运算7

1.2.3 特殊的矩阵类12

1.2.4 矩阵幂、多项式与逆 14

1.2.5 矩阵逆引理:求矩阵和的逆 17

1.2.6 Frobenius 范数、迹与能量 20

1.3 作为可分解算子的矩阵乘法 21

1.3.1 作为可分解行和列算子的矩阵乘法 22

1.3.2 作为可分解几何算子的矩阵乘法 26

1.4 机器学习中的基本问题 28

1.4.1 矩阵因子分解28

1.4.2 聚类 29

1.4.3 分类与回归建模29

1.4.4 异常值检测31

1.5 机器学习中的优化31

1.5.1 用于函数简化的泰勒展开32

1.5.2 机器学习中的优化示例 33

1.5.3 计算图中的优化问题 35

1.6 总结 36

1.7 拓展阅读 36

1.8 习题 36

第2章 线性变换与线性系统 42

2.1 引言 42

2.2 矩阵乘法的几何表示 44

2.2.1 正交变换 45

2.2.2 Givens 旋转与 Householder 反射 47

2.2.3 缩放:一个非刚性变换 49

2.2.4 一般情况:正交变换与缩放变换的组合 50

2.3 向量空间与几何表示 51

2.3.1 基系统中的坐标56

2.3.2 基集之间的坐标变换 58

2.3.3 向量集的生成空间 59

2.3.4 机器学习示例:离散小波变换61

2.3.5 向量空间的子空间之间的关系62

2.4 矩阵行与列的线性代数 64

2.5 矩阵的行阶梯形式65

2.5.1 LU 分解 67

2.5.2 应用:建立一个基集 68

2.5.3 应用:矩阵求逆68

2.5.4 应用:求解线性方程组 68

2.6 矩阵秩的概念 71

2.7 生成正交基集 73

2.7.1 Gram-Schmidt 正交化与 QR 分解 73

2.7.2 QR 分解 75

2.7.3 离散余弦变换78

2.8 线性系统的优化视角 80

2.8.1 Moore-Penrose 伪逆 82

2.8.2 投影矩阵 83

2.9 病态矩阵与系统86

2.10 内积:几何视角 87

2.11 复向量空间88

2.12 总结91

2.13 拓展阅读 92

2.14 习题92

第3章 特征向量与可对角化矩阵 98

3.1 引言 98

3.2 行列式 99

3.3 可对角化变换与特征向量 104

3.3.1 复特征值 108

3.3.2 左特征向量与右特征向量 109

3.3.3 对角化的存在唯一性 110

3.3.4 三角化的存在唯一性 112

3.3.5 共享特征值的相似矩阵族 114

3.3.6 共享特征向量的可对角化矩阵族 115

3.3.7 对称矩阵 116

3.3.8 半正定矩阵 118

3.3.9 Cholesky 分解:对称 LU 分解 120

3.4 机器学习与优化应用 121

3.4.1 机器学习中的快速矩阵运算 121

3.4.2 机器学习中的可对角化矩阵示例 122

3.4.3 二次优化中的对称矩阵 124

3.4.4 对角化的应用:优化中的分离变量129

3.4.5 范数约束二次规划的特征向量 130

3.5 求特征向量的数值算法 132

3.5.1 基于 Schur 分解的 QR 方法133

3.5.2 求主特征向量的幂方法 133

3.6 总结136

3.7 拓展阅读 136

3.8 习题136

第4章 最优化基础:机器学习视角 141

4.1 引言141

4.2 优化基础 142

4.2.1 单变量优化问题 142

4.2.2 双变量优化问题 149

4.2.3 多变量优化问题 151

4.3 凸目标函数154

4.4 梯度下降的细节 158

4.4.1 用有限差分检验梯度的正确性 158

4.4.2 学习率衰减与盲驱动 159

4.4.3 线搜索 160

4.4.4 初始化 162

4.5 机器学习中优化问题的性质 162

4.5.1 经典目标函数与可加分离性 163

4.5.2 随机梯度下降法 163

4.5.3 机器学习中优化问题的特点 165

4.5.4 超参数调优 167

4.5.5 特征预处理的重要性 167

4.6 计算关于向量的导数 168

4.6.1 矩阵微积分符号 169

4.6.2 实用的矩阵微积分恒等式 170

4.6.3 向量求导的链式法则 173

4.7 线性回归:数值目标下的优化 175

4.7.1 Tikhonov 正则化 176

4.7.2 随机梯度下降法 177

4.7.3 偏移的使用 178

4.8 二元目标优化模型 179

4.8.1 最小二乘分类:二元目标回归 180

4.8.2 支持向量机 182

4.8.3 Logistic 回归 185

4.8.4 为什么线性回归是机器学习中的基础问题187

4.9 多类设定下的优化模型 188

4.9.1 Weston-Watkins 支持向量机189

4.9.2 多项式 Logistic 回归 191

4.10 坐标下降法 193

4.10.1 基于坐标下降法的线性回归195

4.10.2 块坐标下降法196

4.10.3 作为块坐标下降的 k 均值算法 196

4.11 总结 197

4.12 拓展阅读 197

4.13 习题 198

第5章 高等优化求解方法202

5.1 引言202

5.2 基于梯度优化的挑战 203

5.2.1 局部最优与平坦域 203

5.2.2 微分曲率 205

5.2.3 拓扑示例:悬崖与山谷 207

5.3 对下降调节一阶导数 208

5.3.1 基于动量的学习 209

5.3.2 AdaGrad 算法210

5.3.3 RMSProp 算法 212

5.3.4 Adam 算法 212

5.4 牛顿法213

5.4.1 牛顿法的基本形式 214

5.4.2 线搜索对非二次函数的重要性 216

5.4.3 示例:关于二次碗的牛顿法 217

5.4.4 示例:基于非二次函数的牛顿法 217

5.5 机器学习中的牛顿法 218

5.5.1 线性回归的牛顿法 218

5.5.2 支持向量机的牛顿法 220

5.5.3 Logistic 回归的牛顿法223

5.5.4 不同模型间的联系与统一框架 225

5.6 牛顿法:挑战与求解 226

5.6.1 奇异矩阵与不定的黑塞矩阵 226

5.6.2 鞍点问题 227

5.6.3 非二次函数的收敛问题与求解 228

5.7 牛顿法在计算上的有效变体 230

5.7.1 共轭梯度法 230

5.7.2 拟牛顿法与 BFGS 234

5.8 不可微优化函数 236

5.8.1 次梯度法 237

5.8.2 近端梯度法 241

5.8.3 组合优化中代理损失函数的设计 243

5.8.4 优化序列决策的动态规划 244

5.9 总结247

5.10 拓展阅读 247

5.11 习题 248

第6章 约束优化与对偶 250

6.1 引言250

6.2 投影梯度下降法 251

6.2.1 线性等式约束 252

6.2.2 线性不等式约束 257

6.2.3 序列二次规划 261

6.3 原始坐标下降法 262

6.3.1 凸集上凸优化的坐标下降法 262

6.3.2 机器学习中的应用:盒回归 264

6.4 拉格朗日松弛与对偶 265

6.4.1 Kuhn-Tucker 最优性条件 269

6.4.2 应用对偶方法的一般步骤 270

6.4.3 应用:支持向量机的对偶问题 271

6.4.4 支持向量机的对偶问题的优化算法273

6.4.5 无约束问题的拉格朗日松弛 276

6.5 基于惩罚的方法与原始对偶法 281

6.5.1 单一约束的惩罚方法 281

6.5.2 惩罚方法的一般形式 282

6.5.3 障碍法与内点法 283

6.6 范数约束优化问题 285

6.7 原始方法与对偶方法的比较 287

6.8 总结288

6.9 拓展阅读 288

6.10 习题 288

第7章 奇异值分解 292

7.1 引言292

7.2 奇异值分解:线性代数视角 293

7.2.1 方阵的奇异值分解 293

7.2.2 通过填充将方阵的 SVD 推广到矩形矩阵的 SVD 297

7.2.3 矩形矩阵奇异值分解的几种定义 299

7.2.4 截断奇异值分解 301

7.2.5 奇异值分解的两种解释 307

7.2.6 奇异值分解唯一吗 309

7.2.7 二元分解与三元分解 310

7.3 奇异值分解:优化视角 311

7.3.1 基于基正交的最大化形式 312

7.3.2 基于残差的最小化形式 313

7.3.3 矩阵分解方法的推广 314

7.3.4 主成分分析 314

7.4 奇异值分解的应用 317

7.4.1 降维 317

7.4.2 噪声消除 318

7.4.3 求解线性代数中的四个基本子空间319

7.4.4 Moore-Penrose 伪逆 319

7.4.5 求解线性方程与线性回归 320

7.4.6 机器学习中的特征预处理与白化 321

7.4.7 异常值检测 322

7.4.8 特征工程 323

7.5 奇异值分解的数值算法 324

7.6 总结326

7.7 拓展阅读 326

7.8 习题326

第8章 矩阵分解 331

8.1 引言331

8.2 基于优化的矩阵分解 333

8.3 无约束矩阵分解 334

8.3.1 完全指定矩阵的梯度下降 335

8.3.2 在推荐系统中的应用 338

8.4 非负矩阵分解 342

8.4.1 基于 Frobenius 范数的优化问题 342

8.4.2 用对偶方法求解 343

8.4.3 非负矩阵分解的可解释性 345

8.4.4 非负矩阵分解示例 346

8.4.5 I-散度目标函数348

8.5 加权矩阵分解 349

8.5.1 非负稀疏矩阵的实际应用 350

8.5.2 随机梯度下降法 351

8.5.3 应用:基于隐式反馈数据的推荐系统352

8.5.4 应用:邻接矩阵中的链路预测 353

8.5.5 应用:GloVe 单词-单词文本嵌入 353

8.6 非线性矩阵分解 354

8.6.1 Logistic 矩阵分解 354

8.6.2 最大边缘矩阵分解 357

8.7 广义低秩模型 358

8.7.1 处理分类元素 360

8.7.2 处理序数元素 360

8.8 共享矩阵分解 362

8.8.1 共享因子分解的梯度下降 363

8.8.2 如何在任意场景中建立共享模型 363

8.9 因子分解机364

8.10 总结 368

8.11 拓展阅读 368

8.12 习题 369

第9章 线性代数中的相似性 373

9.1 引言373

9.2 数据矩阵与相似矩阵的等价性 373

9.2.1 数据矩阵与相似矩阵的相互转换 374

9.2.2 何时从相似矩阵中恢复数据 375

9.2.3 何种类型的相似矩阵是“有效的”376

9.2.4 作为优化模型的对称矩阵分解 377

9.2.5 核方法:机器学习视角 377

9.3 从相似矩阵中有效恢复数据 378

9.3.1 Nystr.m 抽样379

9.3.2 基于随机梯度下降的矩阵分解 380

9.3.3 非对称相似分解 382

9.4 相似矩阵的线性代数运算 383

9.4.1 相似矩阵的能量与单位球规范化 383

9.4.2 均值与方差的范数 384

9.4.3 相似矩阵的中心化 385

9.4.4 相似矩阵与距离矩阵的相互转换 385

9.5 基于相似矩阵的机器学习 388

9.5.1 基于相似矩阵的特征工程 389

9.5.2 相似矩阵的直接用途 391

9.6 线性代数中的表示定理 393

9.7 相似矩阵与线性可分离性 397

9.8 总结401

9.9 拓展阅读 401

9.10 习题 401

第10章 图中的线性代数 405

10.1 引言 405

10.2 图论基础与邻接矩阵 405

10.3 邻接矩阵的幂410

10.4 Perron-Frobenius 定理 413

10.5 图矩阵的右特征向量 416

10.5.1 谱聚类的核视角 417

10.5.2 谱聚类的 Laplace 视角419

10.5.3 谱聚类的矩阵分解视角423

10.5.4 哪种谱聚类视角最有用424

10.6 图矩阵的左特征向量 425

10.6.1 作为转移矩阵的左特征向量的 PageRank 426

10.6.2 声望与中心化的相关度量427

10.6.3 左特征向量在链接预测中的应用 428

10.7 可约矩阵的特征向量 429

10.7.1 无向图 429

10.7.2 有向图 430

10.8 在机器学习中的应用 432

10.8.1 应用于顶点分类 432

10.8.2 应用于多维数据 435

10.9 总结 436

10.10 拓展阅读436

10.11 习题436

第11章 计算图中的优化 440

11.1 引言 440

11.2 计算图的基础知识 441

11.3 有向无环图中的优化 446

11.3.1 计算图中的挑战 446

11.3.2 梯度计算的一般框架 448

11.3.3 暴力计算节点关于节点的导数 448

11.3.4 计算节点关于节点导数的动态规划方法452

11.3.5 把节点-节点导数转换为损失-权重导数 457

11.3.6 基于向量变量的计算图459

11.4 应用:神经网络中的反向传播461

11.4.1 常见激活函数的导数 463

11.4.2 基于向量的反向传播 464

11.4.3 基于向量的反向传播示例466

11.5 计算图的一般视角 468

11.6 总结 471

11.7 拓展阅读 471

11.8 习题 471

参考文献476

商品参数
基本信息
出版社 机械工业出版社
ISBN 9787111777052
条码 9787111777052
编者 (美)查鲁·C·阿加沃尔(Charu C.Aggarwal) 著 薄立军 译
译者
出版年月 2025-06-01 00:00:00.0
开本 16开
装帧 平装
页数 500
字数 680000
版次 1
印次 1
纸张 一般胶版纸
商品评论

暂无商品评论信息 [发表商品评论]

商品咨询

暂无商品咨询信息 [发表商品咨询]