随着大型语言模型(LLM)的迅猛发展,单一智能体在应对复杂现实任务时显露出诸多局限。为了解决这个问题,香港大学与 camel-ai 等多家机构联合推出了一种名为 Workforce 的全新多智能体框架,并配套了一种名为 OWL(Optimized Workforce Learning)的训练方法。最近,这一创新成果在权威基准测试 GAIA 上获得了69.70% 的准确率,不仅刷新了开源系统的记录,还超越了 OpenAI Deep Research 等多家商业系统。
这一研究成果的所有代码已在 GitHub 上开源,当前已获得超过17,000个 Star 的点赞,标志着社区对这一创新的认可。
那么,Workforce 框架是如何突破多智能体系统的局限性的呢?其核心在于创新的 “解耦设计”。框架将整个系统拆分为三个关键组成部分:领域无关的规划器(Planner Agent)、智能协调器(Coordinator Agent)和专业工作节点(Worker Nodes)。这种设计不仅提升了系统的灵活性,还显著降低了跨领域迁移的复杂性。尤其是在需要适应新领域时,用户只需替换或添加工作节点,而不必对核心系统进行全面修改。
OWL 训练方法则是这一框架的另一大亮点。该方法采用了两阶段的训练策略,第一阶段是监督微调,通过专家演示数据对规划器进行初步训练;第二阶段则是强化学习优化,通过直接偏好优化(DPO)算法进一步提升决策能力。这一系列优化确保了规划器能够处理现实世界中的多样化任务。
在 GAIA 基准测试中,Workforce 框架展示了其显著的优势,尤其是在多智能体推理方面,达到了69.70% 的准确率,远超以往的开源系统。同时,OWL 训练方法也在测试中取得了显著成果,提升了 Qwen2.5-32B-Instruct 模型的性能。这一突破使得多智能体系统在处理复杂任务时,不再受限于以往的设计思路,展现出强大的自我纠错和进化能力。
文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。
奥维云网(AVC)推总数据显示,2024年1-9月明火炊具线上零售额94.2亿元,同比增加3.1%,其中抖音渠道表现优异,同比有14%的涨幅,传统电商略有下滑,同比降低2.3%。
“以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。
华硕ProArt创艺27 Pro PA279CRV显示器,凭借其优秀的性能配置和精准的色彩呈现能力,为您的创作工作带来实质性的帮助,双十一期间低至2799元,性价比很高,简直是创作者们的首选。