DeepSeek-GRM:Inferene-time Scaling 的 Generalist Reward Model(通用奖励模型)DeepSeek团队提出全新通用奖励模型DeepSeek-GRM,通过Self-Principled Critique Tuning(SPCT)方法实现推理时动态扩展能力。该研究突破传统规则奖励模型的局限,在角色扮演、创意写作等开放领域展现卓越性能。27B小模型效果超越340B大模型,且具备更少领域偏差。文章详解训练策略(RFT+在线强化学习)和推理优化(投票机制+元奖励引导),实验结果证实推理时扩展可显著提升效果,这是 DeepSeek-R2 的前兆吗?Chaofa Yuan2025年5月3日大约 9 分钟paper-readingLLMpaper
深度解读 Kimi-K1.5,真正了解 RL 数据是怎么筛选的深度解读 Kimi K1.5 论文,介绍其多模态推理模型的技术原理与发展路线,涵盖预训练、监督微调、强化学习及其核心启发,提供详细的算法处理细节和数据构建方法。Chaofa Yuan2025年3月1日大约 19 分钟paper-readingLLMpaper
自顶向下方式深度解读 DeepSeek-R1,内含大量细节从自顶向下的方式深度解读 DeepSeek-R1 论文,介绍其技术原理与发展路线,涵盖 DeepSeek-R1-Zero、DeepSeek-R1 及其蒸馏模型的训练方法和核心启发。Chaofa Yuan2025年2月22日大约 13 分钟paper-readingLLMpaper