2025-04-努力不是做好事情最重要的因素

Chaofa Yuan2025年5月4日大约 6 分钟

1. 播客

同样先说点开心的事情，我把上个月和两个同事录制的播客剪好了，发布在小宇宙-打点酱油以及视频号音频中，对应 EP05/06，剪了得有 6 7 个小时吧，大家说话口癖真的有点多，这比剪辑视频费事费时很多，后面甚至想找人外包剪辑了（典型之打工养活爱好）。

日常的生活真的好无聊啊，没有什么好的应对方式。播客是一个不错的途径，有这样一个节目，就可以比较心安理得地找一些朋友聊天，我想保留这个途径。尽管没什么人听，但和朋友聊点东西就够本了。

2. 工作

我工作真挺努力的，但每个月我还是想感叹工作的艰难。努力并不是工作能做好最重要的因素。关键的问题、适当的时机、有效的思考，这些可能都比努力更重要。而自己似乎一直在业务问题中进行一些无效的忙碌，缺少有效的思考，导致我对于最终的结果总是略微有些悲观。

Agent 概念火了，但是 Agent 能做什么，却是很多人和业务没有想清楚的。先说一下 Anthropic 对 Agent 的定义，通过 LLM 自主决策流程和工具使用的系统。这里就会有两个自然的路径：1. 给模型足够的自主权与合适的工具就能解决一切问题；2. 我知道模型不可控，还是牺牲所谓的自主性做个 workflow 蹭一下 Agent 的概念吧。

这里我谈谈 1 的看法，现阶段（2025年5月4日），Agent 在很多问题上并不一定是一个好的解决方式，或者说 Agent 的形态目前并没有公认方案，导致业务还有很多的探索空间。比如交互可以有不同的选择。

Agent 仅执行一个任务，模型交付最终的结果。这也是现在大多数 Agent 尝试的方向，比如 Coze 智能体，都是属于用户提交任务之后，模型在执行具体 step 的时候不可打断。
Agent 可随时被用户打断，Agent 需要根据用户最新的指示以及历史的执行结果指定新的 Plan，这时候用户消息打断时机、MultiAgent 任务中断等机制都是非常复杂的，因此任务也变得更为复杂，对模型也是更大的挑战。

从用户侧分析也有同样的问题

用户是一次输入指示（现大多数做法）
还是分布收集再执行
以及Agent 应该什么时候暂停等待用户的反馈

这些都影响着最终模型的效果。此外关于 Agent 记忆应该有哪些东西、MultiAgent 共享的 Memory 又该如果保持高效和透明，这些问题其实都没有一个定式。

从实践经验来看，目前 Agent 能力在不进行模型训练的情况下，无论是调用复杂工具、还是流程遵循都是相当的不足，并不必提部分业务场景根本无法接受模型自行发挥，因此仅通过 Prompt 打造一个全自主 Agent 并不是一个目前很好的办法，（Demo 好写，但真正做好调优空间较小）。

举个例子：prompt 写： xxxxxx, 如果用户需要，则xxxx，如果用户不需要，则xxx。我们使用的是 GPT4o 这种目前 T1 级别的模型，都有可能出现模型分不清用户回复“好的”，“ok”，“需要”这是同一种表达，就出现过某几次用户回复“ok”，模型就执行错误，一直找用户确认。类似的小问题简直层出不穷，稍微复杂一点的就更是各种灾难现场，这也难怪大家说哪怕是 Manus AI，执行成功率也小于 50%。（这还是在使用最顶级模型、用户输入明确无打断情况）。

备注：但是如果牺牲一些通用性，对模型进行专用的训练，7B 的模型也能很好的处理哪怕 100 个以上的工具调用。而现阶段通用大模型基本处理 20以内，再多效果会有较大的下降。

因此我的看法是：Agent 目前仅采用写 Prompt + 提供工具，并不足以让模型很好的解决一些专用任务，而采用类似 Search-R1 使用 RL + 领域工具让模型深入专门领域会是一个更好的选择，只是需要一点点耐心。更看好做好数据的收集 + 端到端训练的方式提升模型效果，让业务真正能够用上 Agent，而不是每天烦恼少量 badcase。Focus on the main promblem。

最后推荐下 yaoshunyu 的 blog, AI下半场。

一思考就发现想做的事情太多，还是应该再精简精简（🤣

2025-04-努力不是做好事情最重要的因素

1. 播客

2. 工作

3. 视频更新

4. 程序员破产之路（投资）

5. 总结