OpenClaw能“边用边训”了：智能体强化学习训练框架AReaL v1.0稳定版发布

3月4 日，蚂蚁集团联合清华大学发布开源强化学习训练框架 AReaL v1.0稳定版。该版本主打“Agent 一键接入 RL 训练”:不用改代码，兼容各类 Agent 框架，让智能体强化学习训练开箱即用。

2026年开年以来，Agent 持续升温，以 LangChain、Claude Code、OpenClaw 为代表的智能体框架繁荣发展，但也暴露出两大瓶颈。一是接入训练成本高:现有智能体框架接口各异，每接入一个往往需要编写整套适配代码。二是 Agent 缺乏持续进化的能力:多数 Agent 的能力取决于底层模型在训练阶段习得的固定权重，部署后无法再针对特定场景持续优化，能力上限在交付时便已确定。

AReaL 是首个全异步训推解耦的大模型强化学习训练系统，能让 Agent 在真实任务交互中获得反馈、持续优化决策。此次发布的 v1.0版本让任意 Agent 零改造接入 RL 训练成为现实——通过在智能体与训练系统之间加入 Proxy Worker 中转层，开发者只需修改一个请求地址即可接入训练。

（图说:AReaL 无缝接入智能体的异步训练架构）

以当前大热的 OpenClaw 为例，开发者只需在 OpenClaw 配置文件中将 base_url 和 api_key 指向 AReaL 网关，就能让自己的 OpenClaw 接入强化学习训练。智能体像往常一样执行任务，用户周期性给 Agent 完成任务的情况打分，AReaL 在后台自动完成训练数据的采集与模型的更新，在持续使用的过程中让智能体自动进化。

AReaL v1.0还推出了原生训练引擎 Archon，它是基于 PyTorch 原生能力实现完整的5D 并行（数据并行、流水线并行、张量并行、上下文并行、专家并行），降低了安装与调试门槛，同时在训练与推理侧提供多种后端选择，便于在不同环境中灵活部署。令人惊讶的是，这样一个复杂的分布式系统，从零开始实现到验证正确性，仅用了1人·月的工作量——32天内，累计修改近百万行代码完整实现了 Archon 引擎，让它能训练千亿参数 MoE 模型。

创造这一效率奇迹的秘诀在于AReaL集成的一整套AI辅助开发体系，实现了复杂工程开发的高度自动化。

AReaL v1.0引入的 AI 辅助开发流程，为开发者提供了从规划、编码、校验到 PR 创建的全链路支持。尤其是在处理 MoE 并行、内存优化、算法实现等核心模块时，专属的 AI 编程助手会像一位资深专家，在代码变更时及时出现并提供针对性指导，为每一次代码变更保驾护航，有效降低了开发和维护的门槛。AReaL 的 AI 辅助编程不只是提效工具，更能在复杂基础设施工程中承担“可交付”的研发工作，引领了下一代 AI 基础设施工程范式的革新。

AReaL 团队表示，将继续围绕训练引擎、易用性和多模态智能体训练等方向迭代。目前 AReaL v1.0的代码与文档已在 inclusionAI 社区开源。

· GitHub 仓库:https://github.com/inclusionAI/AReaL

· 相关论文:https://arxiv.org/abs/2505.24298