标签: LLM

自适应快慢思考推理模型（Adaptive Reasoning Model）：Qwen3混合思考->字节AdaCoT->清华AdaThinking

深入分析三个快慢思考模型的实现：阿里Qwen3通过SFT实现的混合思考、字节AdaCoT基于RL的帕累托最优化、清华AdaThinking的受限优化框架。详细解读代码实现、训练方法和实验效果，探讨如何让模型在保持准确率的同时减少不必要的思考过程。对于想了解大模型推理优化的读者很有帮助。

Chaofa Yuan2025年5月25日大约 16 分钟

DeepSeek-GRM：Inferene-time Scaling 的 Generalist Reward Model(通用奖励模型)

DeepSeek团队提出全新通用奖励模型DeepSeek-GRM，通过Self-Principled Critique Tuning（SPCT）方法实现推理时动态扩展能力。该研究突破传统规则奖励模型的局限，在角色扮演、创意写作等开放领域展现卓越性能。27B小模型效果超越340B大模型，且具备更少领域偏差。文章详解训练策略（RFT+在线强化学习）和推理优化（投票机制+元奖励引导），实验结果证实推理时扩展可显著提升效果，这是 DeepSeek-R2 的前兆吗？

Chaofa Yuan2025年5月3日大约 9 分钟

MLA(2)：从代码和公式角度理解 DeepSeek MLA 的矩阵吸收 (Projection Absorption)

从代码角度深入理解 DeepSeek MLA 算法。从代码角度详细解析 MLA（Multi-head Latent Attention）算法的核心思想，如何通过矩阵吸收来优化 KV Cache。

Chaofa Yuan2025年3月16日大约 7 分钟

深度解读 Kimi-K1.5，真正了解 RL 数据是怎么筛选的

深度解读 Kimi K1.5 论文，介绍其多模态推理模型的技术原理与发展路线，涵盖预训练、监督微调、强化学习及其核心启发，提供详细的算法处理细节和数据构建方法。

Chaofa Yuan2025年3月1日大约 19 分钟

自顶向下方式深度解读 DeepSeek-R1，内含大量细节

从自顶向下的方式深度解读 DeepSeek-R1 论文，介绍其技术原理与发展路线，涵盖 DeepSeek-R1-Zero、DeepSeek-R1 及其蒸馏模型的训练方法和核心启发。

Chaofa Yuan2025年2月22日大约 13 分钟

MLA(1)：从代码角度学习和彻底理解 DeepSeek MLA 算法

从代码角度深入理解 DeepSeek MLA 算法。从代码角度详细解析 MLA（Multi-head Latent Attention）算法的核心思想、ROPE 位置编码的兼容性问题，以及如何通过矩阵吸收来优化 KV Cache。

Chaofa Yuan2025年2月5日大约 6 分钟

DeepSeek-R1大模型本地部署的三种方式，总有一种适合你

三种不同的方式部署大模型（deepseek r1），分别是 ollama, LM Studio 和 vllm，从个人测试部署到工业产品使用，让你一次性掌握大模型的不同部署方式。

Chaofa Yuan2025年2月3日大约 8 分钟

LLM MOE的进化之路，从普通简化 MOE，到 sparse moe，再到 deepseek 使用的 share_expert sparse moe

本文详细介绍了三种不同版本的混合专家模型(Mixture of Experts, MoE)实现，从基础到进阶，帮助读者全面理解 MoE 在大语言模型中的应用。主要内容包括：1. 基础版 MoE：使用简单的线性层作为专家，理解 MoE 的基本工作原理; 2. SparseMoE：大模型训练中常用的稀疏 MoE 实现，基于 Switch Transformers 的设计;3. SharedExpert SparseMoE：参考 DeepSeek 的改进版本，引入共享专家机制。文章提供了完整的 PyTorch 实现代码，包括模型定义、路由机制、负载均衡损失计算以及训练流程。同时设置了扩展性练习，帮助读者深入理解 MoE 的工作机制和优化方向。

Chaofa Yuan2025年1月27日大约 7 分钟

LLM activate function激活函数的进化之路，从 ReLU，GELU 到 SwiGLU(swishGLU)

主要介绍了从基础的 ReLU 到 GELU，再到现代大语言模型中广泛使用的 SwishGLU 的发展过程, 介绍了深度学习中激活函数演进历程。文章详细讲解了各个激活函数的数学原理和实现方式，并重点分析了 SwishGLU 如何结合 Swish 激活函数和 GLU 门控单元的优点。同时，文章还提供了完整的 PyTorch 代码实现，展示了如何在神经网络中使用这些激活函数，特别是在大语言模型的 FFN（前馈神经网络）层中的应用。对于想要深入理解现代深度学习模型架构的开发者和研究者来说，这是一份很有价值的参考资料。

Chaofa Yuan2025年1月27日大约 7 分钟

手写大模型组件之Group Query Attention，从 MHA，MQA 到 GQA

了解注意力机制变体，包括MHA（Multi-Head Attention）、MQA（Multi-Query Attention）和GQA（Group Query Attention）。通过手写代码实现，探讨三种注意力机制的异同，以及GQA在推理性能优化方面的优势。

Chaofa Yuan2024年12月8日大约 3 分钟