• 首页 > 信息融合频道 > 人工智能

    OpenAI和DeepMind的新算法让未来的人工智能更安全

    2017年06月16日 11:09:30   来源:腾讯科技

    4.jpg

      OpenAI和DeepMind的研究人员希望利用一种能从人工反馈中学习的新算法,使人工智能更安全。

      这两家公司都是强化学习领域的专家。强化学习是机器学习的一个分支,即在给定的环境下,如果人工智能系统做出正确行为,那么就给予奖励。目标通过算法来制定,而人工智能系统通过编程去寻求奖励,例如在游戏中赢得高分。

      在教会机器玩游戏,或是通过模拟来驾驶无人车的场景下,强化学习非常成功。这种方法在探索人工智能系统的行为时非常强大,但如果编死的算法出现错误,或是产生不必要的副作用,那么也可能非常危险。

      发表至arXiv的一篇论文描述了一种新方法,有助于预防此类问题。首先,人工智能系统在环境中产生随机行为,预期的奖励基于人工判断,而这将被反馈至强化学习算法,以改变人工智能系统的行为。

      研究人员将这种技术应用至一项训练任务。关于人工智能行为的两段视频被发给人工,而人工将判断哪种行为干得更好。

      通过这种方式,人工智能系统可以逐渐学会如何追逐奖励,通过更好地解释人工的评判来学会达成目标。这样的强化学习算法会调整自身的行为,并不断寻求人工的认同。

      在这项任务中,人工评判者只花了不到1小时时间。然而对于更复杂的任务,例如做饭或发送电子邮件,那么还需要更多的人工反馈。这样做可能是不经济的。

      论文的共同作者、OpenAI研究员达里奥·阿莫德伊(Dario Amodei)表示,减少对人工智能系统的监督是未来可能专注的一个研究领域。

      他表示:“从广义上说,半监督学习技术在这里可能会有帮助。另一种可能的选择是提供信息密集的反馈形式,例如语言,或者让人工指向屏幕的特定部分,以代表良好行为。信息更密集的反馈或许将帮助人工减少与算法沟通的时间。”

      研究员在其他模拟机器人和Atari游戏中测试了他们的算法。结果表明,机器某些时候可能取得超人的成绩。不过,这在很大程度上依赖人工的评判能力。

      OpenAI在博客中表示:“关于什么行为是正确的,我们算法的表现与人工评判者的直觉一样好。但如果人工对于任务没有很好的把握,那么可能就无法提供较多有帮助的反馈。”

      阿莫德伊表示,目前的结果仅限于非常简单的环境。不过,对于那些奖励难以量化的任务,例如驾驶、组织活动、写作,以及提供技术支持,这可能会很有帮助。

      来源:XXX(非中文科技资讯)的作品均转载自其它媒体,转载请尊重版权保留出处,一切法律责任自负。

      文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

      中文科技资讯倡导尊重与保护知识产权。如发现本站文章存在版权问题,烦请30天内提供版权疑问、身份证明、版权证明、联系方式等发邮件至news@citnews.com.cn,我们将及时沟通与处理。

    [责任编辑: CIT03]
    分享到微信

    最新

    AppleWatch3有LTE版 郭明池:打电话别想了

    8月17日消息,凯基证券分析师郭明池已经在投资者报告中指出,苹果将要发布的Apple Watch3将会支持LTE,由于机身大小限制为内置eSIM卡,只负责传输数据,不能够接打电话。

    新闻

    ABI Research:2022年将有三分之二VR头显支持4K分辨

    2017年08月17日,ABI Research的一份调查报告显示,预计到2022年将有三分之二的虚拟现实头显支持4K分辨率,可为消费者带来令人满意的用户体验。

    科学

    日食期间电离层高能量辐射源将关闭:通讯设备瘫痪

    8月21日日全食将正式出现,在这一天月球掠过太阳前方形成日全食时,白天将瞬间变成黑夜,而随后再恢复白天的光线条件。

    融合

    全球最大数据中心在北极圈动工:一年电费3400万

    数据中心的搭建需要严苛的论证,从工况上说,足够的冷气、不间断的供电、选址无自然灾害等是最最基本的条件。

    专栏

    QQ旋风倒下 这绝对不是迅雷该高兴的时候

    日前,腾讯旗下的下载工具QQ旋风正式宣布9月6日正式停止运营。突然很怀念当初迅雷、快车、电驴等下载软件遍地开花的时候,QQ旋风虽然出现较晚,但凭借QQ的用户量也发展的不错。如今,只剩下迅雷一家独大,但今时不同往日,QQ旋风的倒下,绝对让迅雷也轻松不起来……