RLAIF的独特之处在于利用其他人工智能模型的反馈来提升性能,相较于传统的人工反馈,这种方法更具有成本效益、速度快、透明度高、可扩展性强的优势。Starling-7B基于新的Nectar数据集进行训练,包含183,000个聊天提示和380万个成对比较。
研究人员使用两个基准测试(MT-Bench和AlpacaEval)评估了Starling-7B的性能,这两个测试使用GPT-4进行评分,分别关注模型在简单指令跟随任务中的安全性和帮助性。Starling-7B在MT-Bench中表现良好,与OpenAI的GPT-4和GPT-4Turbo相媲美,在AlpacaEval中达到了与商业聊天机器人相当的水平。
研究人员指出,RLAIF主要改善了模型的帮助性和安全性,而在基本能力方面,如回答基于知识的问题、数学或编码等,改进较小。
尽管基准测试的实际应用有限,但对RLAIF的应用前景充满希望。研究人员建议的下一步是通过引入高质量的人工反馈数据,更好地调整模型以满足人类需求。
与此同时,研究人员强调,Starling-7B和其他类似的大型语言模型在需要推理或数学任务时仍然存在困难,并可能产生幻觉。他们将Nectar数据集、Starling-RM-7B-alpha奖励模型和Starling-LM-7B-alpha语言模型发布在Hugging Face上,并提供了研究许可证,代码和论文将很快公开。感兴趣的人还可以在聊天机器人领域测试该模型。
文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。
5 月 10 日消息,据中兴通讯官微,中兴二合一 5G 云电脑“逍遥”系列已经在电商平台上架。其支持本地、云端双模式,可在电脑与平板模式之间一键切换。售价方面,型号为 W200DS 的产品首销价格为 1899 元。
近日,中国家电及消费电子博览会(AWE 2024)隆重开幕。全球领先的智能终端企业TCL实业携多款创新技术和新品亮相,以敢为精神勇闯技术无人区,斩获四项AWE 2024艾普兰大奖。
“以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。
由世界人工智能大会组委会、上海市经信委、徐汇区政府、临港新片区管委会共同指导,由上海市人工智能行业协会联合上海人工智能实验室、上海临港经济发展(集团)有限公司、开放原子开源基金会主办的“2024全球开发者先锋大会”,将于2024年3月23日至24日举办。