从代码角度学习和彻底理解 DeepSeek MLA 算法从代码角度深入理解 DeepSeek MLA 算法。从代码角度详细解析 MLA(Multi-head Latent Attention)算法的核心思想、ROPE 位置编码的兼容性问题,以及如何通过矩阵吸收来优化 KV Cache。chaofa2025年2月5日大约 5 分钟hands-on-codetransformerLLM
DeepSeek-R1大模型本地部署的三种方式,总有一种适合你三种不同的方式部署大模型(deepseek r1),分别是 ollama, LM Studio 和 vllm,从个人测试部署到工业产品使用,让你一次性掌握大模型的不同部署方式。chaofa2025年2月3日大约 8 分钟LLMtransformer
LLM MOE的进化之路,从普通简化 MOE,到 sparse moe,再到 deepseek 使用的 share_expert sparse moe本文详细介绍了三种不同版本的混合专家模型(Mixture of Experts, MoE)实现,从基础到进阶,帮助读者全面理解 MoE 在大语言模型中的应用。主要内容包括:1. 基础版 MoE:使用简单的线性层作为专家,理解 MoE 的基本工作原理; 2. SparseMoE:大模型训练中常用的稀疏 MoE 实现,基于 Switch Transformers 的设计;3. SharedExpert SparseMoE:参考 DeepSeek 的改进版本,引入共享专家机制。文章提供了完整的 PyTorch 实现代码,包括模型定义、路由机制、负载均衡损失计算以及训练流程。同时设置了扩展性练习,帮助读者深入理解 MoE 的工作机制和优化方向。chaofa2025年1月27日大约 7 分钟hands-on-codellms-zero-to-herotransformerLLM
LLM activate function激活函数的进化之路,从 ReLU,GELU 到 swishGLU主要介绍了从基础的 ReLU 到 GELU,再到现代大语言模型中广泛使用的 SwishGLU 的发展过程, 介绍了深度学习中激活函数演进历程。文章详细讲解了各个激活函数的数学原理和实现方式,并重点分析了 SwishGLU 如何结合 Swish 激活函数和 GLU 门控单元的优点。同时,文章还提供了完整的 PyTorch 代码实现,展示了如何在神经网络中使用这些激活函数,特别是在大语言模型的 FFN(前馈神经网络)层中的应用。对于想要深入理解现代深度学习模型架构的开发者和研究者来说,这是一份很有价值的参考资料。chaofa2025年1月27日大约 7 分钟hands-on-codellms-zero-to-herotransformerLLM
手写大模型组件之Group Query Attention,从 MHA,MQA 到 GQA了解注意力机制变体,包括MHA(Multi-Head Attention)、MQA(Multi-Query Attention)和GQA(Group Query Attention)。通过手写代码实现,探讨三种注意力机制的异同,以及GQA在推理性能优化方面的优势。chaofa2024年12月8日大约 3 分钟hands-on-codetransformerLLM
LoRA 原理和 PyTorch 代码实现用 PyTorch 实现从零实现 LoRA, 理解 LoRA 的原理,主要是为了展示一个 LoRA 实现的细节chaofa2024年11月9日大约 4 分钟hands-on-codetransformerLLM
普通人从零开始做公开表达的增长策略国庆七天,开始在 B 站和 YouTube 做了一些教学视频,非常开心地涨粉 1.5k+,以下是我做的几个策略和思考:1. 视频大于文章;2. 利他优先;3. 拙劣的完成好过比完美的开始;4. 选取合适的平台;5. 内容互相链接...chaofa2024年10月15日大约 4 分钟杂谈自媒体公开表达
LLM 大模型训练-推理显存占用分析根据模型的参数大小,预估模型训练和推理过程中的显存占用情况,包括参数占用显存大小、优化器占用显存大小...KV Cache 和 中间激活值的计算方式chaofa2024年10月6日大约 6 分钟LLMtransformer
项目隔离,不同的项目使用不同的 Git 配置利用 Git 的 includeIf 配置,为不同的项目设置不同的配置,通过子文件夹 .gitconfig 覆盖 Git 的 Global 相关配置,比如 name,email 等。chaofa2024年8月30日大约 2 分钟git