暂无商品咨询信息 [发表商品咨询]
DeepSeek-R1大模型是一款具备强大自然语言处理能力的人工智能模型,能够高效完成文本生成、翻译、问答、代码编写等多种任务,适合企业级应用和开发者集成。本书系统性地解析了大模型的核心原理、关键技术以及DeepSeek的多个实际应用场景。
全书共分为12章,首先介绍大模型的基础知识与发展历程,从神经网络的起源到大规模预训练模型的演化,再到Transformer、BERT与GPT等模型架构的深入剖析,帮助读者理解大模型的技术基石。其次详细解析了DeepSeek-R1及其Zero版本在强化学习与模型架构上的核心技术,包括混合专家模型、动态学习率调度、分布式训练及高效推理优化策略等。再次聚焦于模型训练与开发实践,介绍API调用、上下文拼接、多轮对话管理、模型微调、知识蒸馏等关键技术,并结合DeepSeek实际案例展示其在数学推理、代码生成等领域的应用。最后着重探讨了大模型在商业化落地场景中的高级应用,如FIM补全、多轮对话、业务代码自动化生成以及基于云部署的智能推荐搜索系统等。
本书内容兼具理论深度与实战价值,同时附赠相关案例代码、各章思考题及教学视频等学习资源,适合大模型开发者、AI研究人员、工程师、数据科学家、企业技术决策者以及对人工智能技术感兴趣的高校师生阅读。无论是希望深入理解大模型技术的专业人士,还是寻求在实际业务中应用AI技术的从业者,都能从中获得有价值的信息和实践指导。
前言
第1部分 大模型基础与核心技术
第1章 大模型简介
1.1大模型基本概念与发展历程
1.1.1从神经网络到大规模预训练模型
1.1.2深度学习时代:模型规模与数据驱动
1.1.3以DeepSeek为例:大模型应用场景扩展及其商业化进程
1.2大模型关键技术概览
1.2.1 Transformer架构
1.2.2自监督学习与预训练技术
1.2.3分布式计算与大模型并行化
1.3大模型训练、微调与推理
1.3.1数据预处理与模型初始化
1.3.2微调技术:全参数微调与参数高效微调
1.3.3高效推理优化:量化、剪枝与知识蒸馏
1.4对话大模型V3与推理大模型R1
1.4.1自然语言理解与自然语言生成模型的异同
……
基本信息 | |
---|---|
出版社 | 机械工业出版社 |
ISBN | 9787111779223 |
条码 | 9787111779223 |
编者 | 丁小晶,崔远 编 |
译者 | -- |
出版年月 | 2025-04-01 00:00:00.0 |
开本 | 16开 |
装帧 | 平装 |
页数 | 324 |
字数 | 449000 |
版次 | 1 |
印次 | 1 |
纸张 | 一般胶版纸 |
暂无商品评论信息 [发表商品评论]
暂无商品咨询信息 [发表商品咨询]