当前大热的生成式大模型,是一种“暴力美学”,依靠海量数据,结合算力和算法从而使得人工智能无所不知。但让人感到担忧的是,当前的人工智能自以为无所不知,自信地根据自己所存储、所学习的内容给出答案,“幻觉”出现了,伴随而来的还有歧视、偏见以及胡言乱语。
在人工智能飞速发展的今天,一个现实又重要的问题摆在眼前:如果人工智能不能理解人类意图做出错误的取舍,甚至超级智能的出现使得人类失去了对于AI的控制,人类又该如何自处?
随着人工智能的快速发展,AI控制中的“AI对齐”成为研发者关注的主要议题之一,AI对齐要求AI系统的目标要和人类的价值观与利益保持一致。然而,作为一个新生议题,如何实现对齐?如何判断对齐?对齐是依靠技术就可以实现的吗?近日,在2023北京智源大会-AI安全与对齐论坛上,人工智能领域相关专家、业内从业者就AI安全的对齐问题展开讨论。
(相关资料图)
让AI与人类价值观保持一致
以近一段大火的生成式人工智能为例,现在越来越多开始强调HHH标准,即Helpful,始终提供对人类有帮助的信息,防止大语言模型胡说八道;Honest,传达准确、客观的信息;Harmless,避免做出伤害人的行为。尚未学会停下来、承认自己不知道的人工智能,如何与人类的价值观保持一致?这需要对齐技术的介入。
作为一项新生事物,相关人工智能企业也在探索AI对齐的方式,OpenAI最近提出通过“过程监督”以更好对齐;DeepMind在智能体对齐方面,依赖于奖励建模的递归应用,用符合用户意图的方式解决复杂的现实问题。
正如OpenAI联合创始人Sam Altman在论坛问答环节所说,“对齐”这个词在不同的方式中被使用。“我认为我们需要解决整个挑战,即能够安全地访问系统意味着什么。从传统意义上讲,让模型按照用户意图进行沟通的对齐是其中的一部分。还会有其他问题,例如我们如何验证系统正在按照我们的意愿行事,以及我们将系统与哪些价值观对齐。我认为重要的是全面考虑如何获得安全的AI。”
具体来看,在AI安全的对齐问题需要重点关注哪些问题?
UIUC助理教授李博认为,对齐主要是三个方面:拥有的知识,明确给出大语言模型以及其他机器模型如推理能力,给予对齐和标准一定的稳健性。
在剑桥大学助理教授DavidKrueger看来,可解释性是不可缺少的一部分,以及考虑制定标准以及标准应该是什么。同时在他看来,如何判断系统是否安全尚未形成清晰的概念同样值得关注。
“为了让模型更加安全,我们需要在数据质量控制和数据清洗方面做很多工作。同时,模型算法架构可能可以做出一些突破,保证智能进化的过程是安全可控的。”在智源创新应用实验室负责人黄文灏看来,对于大模型的对齐来说,最重要的是更好的数据和更先进的算法。
智源研究院研究员付杰目前关注在数据层面上做对齐。据介绍,其与合作者在2020年就推出过一个用于测试语言模型与人类文化价值与社会偏好的测试基线的开源数据集。
AI安全需全社会共同关注
通用人工智能(AGI),是指在人类的智能所有方面都达到人类水平,能够自适应地应对外界环境挑战,完成人类能完成的所有任务的人工智能。AI大潮之下,安全问题将成为人工智能发展下一阶段无法回避的核心问题。
如何理解安全问题?在北京大学人工智能研究院助理教授杨耀东看来,安全并不是一个新问题,飞机、自动驾驶等都曾面临安全问题的讨论。在他看来,人类对安全是有答案的,但从控制论的角度来看,需要考虑的一件事是如何在更大的世界中、在大的语言模型中,真正定义安全。“这绝对不是一个二元问题,因为对于不同年龄、不同环境或不同背景的人,根据不同的安全级别,应该有不同的答案”。
通过技术是否能完全实现AI与人类对齐?Sam Altman认为,确定要与AI保持一致的价值观是一个值得全社会深入讨论的问题。“我们必须设计出公平的、有代表性和包容性的系统。不仅需要考虑AI模型本身的安全性,还需要考虑整个系统的安全性。因此需要构建安全的分类器和检测器,以监测符合用户政策的情况。”
同时在他看来,很难预测和预先解决任何技术可能出现的问题。因此,通过从实际使用中学习并快速部署数据,观察在一个国家中会发生什么,并给人们提供时间来学习、更新和思考这些模型将如何影响他们的生活,这也非常重要。
在「AI 安全与对齐」论坛闭幕式上,智源研究院院长黄铁军针对当下全社会共同思考的「AI 安全」问题也发表了自己的看法,强调了关注 AI 安全,应对 AI 风险的重要性。
黄铁军认为,目前,我们处在一个模糊的阶段,他将其称之为「Near AGI」,任何事情只要确定都是可以把控的,就怕不能确定。而今天,我们就处在一个不能确定的状态。
“虽然我们认为 GPT-4 还不算真正的 AGI,但是其知识储备量和融会贯通的能力已经很强。这样的「Near AGI」比我们强吗?超过我们的智能了吗?今天论坛的所有嘉宾在报告中都没有给大家一个确定的答案。并没有明确说:‘NO’,‘放心’,‘今天的AI系统还不如人类强大呢’。这就是问题所在”,黄铁军表示,“我们并不清楚地知道人工智能是不是已经超过我们,不知道它何时会超过我们,该问题处在一个完全无法把控的状态。如果我们能够像投资热情那样投入来应对风险,至少还有一定把握未来的可能。但是,你相信人类能做到吗?我不知道”。