2025-04-努力不是做好事情最重要的因素努力并不是工作能做好最重要的因素。关键的问题、适当的时机、有效的思考,这些可能都比努力更重要,我真应该多审视一下自己的目标是什么,而不是无效的忙碌~Chaofa Yuan2025年5月4日大约 6 分钟月度总结杂谈chaofamonth-summary
DeepSeek-GRM:Inferene-time Scaling 的 Generalist Reward Model(通用奖励模型)DeepSeek团队提出全新通用奖励模型DeepSeek-GRM,通过Self-Principled Critique Tuning(SPCT)方法实现推理时动态扩展能力。该研究突破传统规则奖励模型的局限,在角色扮演、创意写作等开放领域展现卓越性能。27B小模型效果超越340B大模型,且具备更少领域偏差。文章详解训练策略(RFT+在线强化学习)和推理优化(投票机制+元奖励引导),实验结果证实推理时扩展可显著提升效果,这是 DeepSeek-R2 的前兆吗?Chaofa Yuan2025年5月3日大约 9 分钟paper-readingLLMpaper
2025-03-走慢些,走远点走慢些,走远点。整个 Q1 都处于比较紧张的状态,工作日忙工作,周末学点知识或者做视频,整个人非常地疲劳,但已经明显感觉到不可持续了。而无论是工作、开源项目还是投资,都是需要长期地投入,并且保持耐心,适当的放松是为了走得更远。Chaofa Yuan2025年3月30日大约 5 分钟月度总结杂谈chaofamonth-summary
MLA(2):从代码和公式角度理解 DeepSeek MLA 的矩阵吸收 (Projection Absorption)从代码角度深入理解 DeepSeek MLA 算法。从代码角度详细解析 MLA(Multi-head Latent Attention)算法的核心思想,如何通过矩阵吸收来优化 KV Cache。Chaofa Yuan2025年3月16日大约 7 分钟hands-on-codetransformerLLM
2025-02-努力真是又痛苦又充实回首每一天,似乎都有挺多的遗憾,因为想要做的事情太多了,但是当月底回望这一个月,我觉得很满意了,我想这一次应该是不一样的开始。Chaofa Yuan2025年3月8日大约 4 分钟月度总结杂谈chaofamonth-summary
深度解读 Kimi-K1.5,真正了解 RL 数据是怎么筛选的深度解读 Kimi K1.5 论文,介绍其多模态推理模型的技术原理与发展路线,涵盖预训练、监督微调、强化学习及其核心启发,提供详细的算法处理细节和数据构建方法。Chaofa Yuan2025年3月1日大约 19 分钟paper-readingLLMpaper
自顶向下方式深度解读 DeepSeek-R1,内含大量细节从自顶向下的方式深度解读 DeepSeek-R1 论文,介绍其技术原理与发展路线,涵盖 DeepSeek-R1-Zero、DeepSeek-R1 及其蒸馏模型的训练方法和核心启发。Chaofa Yuan2025年2月22日大约 13 分钟paper-readingLLMpaper
MLA(1):从代码角度学习和彻底理解 DeepSeek MLA 算法从代码角度深入理解 DeepSeek MLA 算法。从代码角度详细解析 MLA(Multi-head Latent Attention)算法的核心思想、ROPE 位置编码的兼容性问题,以及如何通过矩阵吸收来优化 KV Cache。Chaofa Yuan2025年2月5日大约 6 分钟hands-on-codetransformerLLM
DeepSeek-R1大模型本地部署的三种方式,总有一种适合你三种不同的方式部署大模型(deepseek r1),分别是 ollama, LM Studio 和 vllm,从个人测试部署到工业产品使用,让你一次性掌握大模型的不同部署方式。Chaofa Yuan2025年2月3日大约 8 分钟LLMtransformer
LLM MOE的进化之路,从普通简化 MOE,到 sparse moe,再到 deepseek 使用的 share_expert sparse moe本文详细介绍了三种不同版本的混合专家模型(Mixture of Experts, MoE)实现,从基础到进阶,帮助读者全面理解 MoE 在大语言模型中的应用。主要内容包括:1. 基础版 MoE:使用简单的线性层作为专家,理解 MoE 的基本工作原理; 2. SparseMoE:大模型训练中常用的稀疏 MoE 实现,基于 Switch Transformers 的设计;3. SharedExpert SparseMoE:参考 DeepSeek 的改进版本,引入共享专家机制。文章提供了完整的 PyTorch 实现代码,包括模型定义、路由机制、负载均衡损失计算以及训练流程。同时设置了扩展性练习,帮助读者深入理解 MoE 的工作机制和优化方向。Chaofa Yuan2025年1月27日大约 7 分钟hands-on-codellms-zero-to-herotransformerLLM