未来生命研究所:2024全球 AI安全指数报告

 

以下文章来源于欧米伽未来研究所 ,作者欧米伽未来研究所

“欧米伽未来研究所”关注科技未来发展趋势,研究人类向欧米伽点演化过程中面临的重大机遇与挑战。将不定期推荐和发布世界范围重要科技研究进展和未来趋势研究。(点击这里查看欧米伽理论

 

     2024年12月, 未来生命研究所发布了《全球AI安全指数》报告,共80页,该报告由全球顶尖AI专家组成的独立评审小组评估主流AI公司在六大领域的安全实践,包括风险评估、现有危害、安全框架、存在性安全战略、治理与问责以及透明度与沟通。报告指出了公司在管理风险上的巨大差异,并呼吁加强第三方监督及改进当前的治理结构,以应对当前及潜在的AI风险

 

主要AI系统安全评分

 

主要发现

 

  • 风险管理差距显著:尽管一些公司已经建立了初步的安全框架或开展了一些严肃的风险评估工作,但其他公司甚至尚未采取最基本的预防措施。

     

  • 绕过限制(Jailbreaks):所有旗舰模型都被发现易受对抗性攻击的影响。

     

  • 控制问题:尽管许多公司明确表达了开发人工通用智能(AGI)的雄心,这种智能能够媲美或超越人类智能,但评审小组认为,目前所有公司的策略都不足以确保这些系统在安全范围内运行并保持在人类控制之下。

     

  • 外部监督:评审人员一致指出,在缺乏独立监督的情况下,公司往往难以抵抗逐利动机而在安全方面偷工减料。尽管Anthropic目前的治理结构和OpenAI初期的治理结构被视为具有前景的案例,但专家呼吁对所有公司的风险评估和安全框架合规性进行第三方验证。

 

独立评审小组

 

 

2024年《人工智能安全指数》的评分由未来生命研究所(FLI)邀请的全球著名人工智能专家组成的独立评审小组进行。该小组的成员经过精心挑选,以确保公正性和多样化的专业背景,涵盖了人工智能的技术和治理方面。小组成员的选择优先考虑了杰出的学者和非营利部门的领导者,以尽量减少潜在的利益冲突。

评审小组根据收集的证据库对公司进行评分,考虑了公开的和公司提交的信息。他们的评估结合了可操作的建议,旨在激励行业内更加安全的人工智能实践。有关评分过程的详细信息,请参见“评分过程”部分。

Yoshua Bengio
Yoshua Bengio是蒙特利尔大学计算机科学与运筹学系的全职教授,也是Mila的创始人兼科学主任,IVADO的科学主任。他是2018年A.M.图灵奖的获得者,CIFAR AI主席,伦敦皇家学会和加拿大皇家学会的会员,加拿大勋章官员,法国荣誉军团骑士,联合国科学技术突破独立建议委员会的成员,以及《先进人工智能安全国际科学报告》的主席。

Jessica Newman
Jessica Newman是加利福尼亚大学伯克利分校长期网络安全中心(UC Berkeley Center for Long-Term Cybersecurity)人工智能安全倡议(AISI)的主任。她还是加利福尼亚大学伯克利分校人工智能政策中心(UC Berkeley AI Policy Hub)的共同主任。Newman的研究重点是人工智能的治理、政策和政治,特别关注国家人工智能战略和政策的比较分析,以及评估和问责机制,旨在确保AI系统的组织发展与部署的合规性。

Atoosa Kasirzadeh
Atoosa Kasirzadeh是卡内基梅隆大学的哲学家和人工智能研究员。此前,她曾在谷歌担任访问学者、爱丁堡大学技术道德未来中心的研究主任和校长奖学者、艾伦·图灵研究所的研究负责人、DeepMind实习生以及牛津大学人工智能治理学者。她的跨学科研究关注人工智能对社会的影响、治理以及未来发展等问题。

Stuart Russell
Stuart Russell是加利福尼亚大学伯克利分校的计算机科学教授,史密斯-扎德工程学讲座教授,人类兼容人工智能中心(Center for Human-Compatible AI)和卡夫利伦理学、科学与公众中心(Kavli Center for Ethics, Science, and the Public)的主任。他曾获得IJCAI计算机与思维奖、IJCAI研究卓越奖和ACM艾伦·纽厄尔奖,并在2021年获得了伊丽莎白女王的OBE勋章,并发表了BBC瑞思讲座。他是《人工智能标准教科书》的共同作者,该书被全球135个国家的1500多所大学使用。

David Krueger
David Krueger是蒙特利尔大学计算机科学与运筹学系(DIRO)的人工智能的鲁棒推理与负责任人工智能助理教授,并且是Mila、加利福尼亚大学伯克利分校人类兼容人工智能中心(Center for Human-Compatible AI)以及生死风险研究中心(Center for the Study of Existential Risk)的核心学术成员。他的研究工作聚焦于通过技术研究、教育、外展、治理和倡导来减少人工智能带来的人类灭绝风险。

Sneha Revanur
Sneha Revanur是Encode Justice的创始人兼主席,这是一个全球青年主导的组织,致力于倡导人工智能的伦理监管。在她的领导下,Encode Justice动员了成千上万的年轻人来应对算法偏见和人工智能问责等挑战。她曾被《时代》杂志评选为“全球100位最具影响力的人工智能人物”。

Tegan Maharaj
Tegan Maharaj是蒙特利尔HEC大学决策科学系的助理教授,领导着ERRATA实验室,专注于生态风险和负责任的人工智能。她还是Mila的核心学术成员。她的研究重点是推动负责任人工智能开发的科学与技术。此前,她曾在多伦多大学担任机器学习助理教授。

研究方法

指数设计

AI安全指数评估了六家领先的通用人工智能开发商的安全实践:Anthropic、OpenAI、Google DeepMind、Meta、x.AI 和 Zhipu AI。该指数通过关注六个关键领域,提供了一个全面的评估,涵盖了42个指标:

  1. 风险评估

  2. 当前危害

  3. 安全框架

  4. 存在性安全策略

  5. 治理与问责

  6. 透明度与沟通

     

这些指标从公司治理政策到外部模型评估实践,再到以安全、公平和鲁棒性为重点的AI基准的实证结果。完整的指标集可以在附录A中的评分表中找到。下表1提供了一个简要的概览。选择这些指标的关键标准包括:

  1. 相关性:该清单强调了学术界和政策界普遍认可的AI安全和负责任行为的方面。许多指标直接采纳了斯坦福大学基础模型研究中心等领先研究组织的相关项目。

     

  2. 可比性:我们选择了能够突出安全实践之间有意义差异的指标,这些差异可以根据现有证据识别出来。因此,缺乏明确差异证据的安全预防措施被排除。

     

公司选择基于其预计能够在2025年前构建最强大的模型。此外,Zhipu AI的加入体现了我们希望使该指数具有全球代表性。未来版本可能会根据竞争格局的变化,关注不同的公司。

我们承认,尽管该指数是全面的,但它并未涵盖负责任的AI开发的所有方面,并且仅专注于通用AI。我们欢迎关于指标选择的反馈,并力求在下一个版本中纳入适当的建议。

证据基础

AI安全指数依托一个全面的证据基础,以确保评估有据可依且透明。这些证据被汇总为详细的评分表,向评审小组展示了每家公司在所有42个指标上的数据。这些表格中包含了指向原始来源的超链接,可以在附录A中全面查看。证据收集依赖于两条主要路径:

  • 公开信息:大多数数据来源于公开可获得的材料,包括研究论文、政策文件、新闻文章和行业报告。这种方法提高了透明度,并使利益相关者能够通过追溯原始来源来验证信息。

     

  • 公司调查:为了补充公开数据,向被评估的公司发放了一个定向问卷,旨在收集有关安全相关结构、流程和策略的额外信息,包括尚未公开披露的信息。

     

证据收集时间跨度为2024年5月14日至11月27日。对于来自AI基准的实证结果,我们注意到数据提取的日期,以便考虑到模型更新。为了保持透明度和问责制,所有收集的证据(无论是公开还是公司提供的)都已记录并在附录中公开供审核。

研究整合与相关工作

AI安全指数建立在广泛的研究基础上,借鉴了多个重要项目,这些项目推动了通用AI领域的透明度和问责制。

其中两个最为全面的相关项目是SaferAI非营利组织发布的风险管理评级和AILabWatch.org研究计划,后者识别了减少先进AI极端风险的策略,并报告了公司实施这些策略的情况。

安全指数直接整合了斯坦福大学基础模型研究中心(CFRN)的发现,特别是其基础模型透明度指数,以及2024年AIR-Bench的实证结果,后者是一个用于GPAI系统的前沿安全基准。引用的其他实证数据包括2024年TrustLLM基准、Scale的对抗鲁棒性评估和Gray Swan越狱的结果。这些来源为评估GPAI系统的可信度、公平性和鲁棒性提供了宝贵的见解。

为了评估存在性安全策略,该指数参考了AI政策与战略研究所对领先AI公司技术安全研究的详细映射。外部评估的指标则受到MIT的Shayne Longpre领导的研究影响,"安全框架"部分的结构借鉴了AI治理中心和METR非营利研究组织的相关出版物。此外,我们还要感谢那些努力让公司保持问责制的记者们,他们的报道在评分表中得到了引用。

公司调查

为了补充公开可获得的数据,AI安全指数还纳入了来自公司调查的见解。此问卷旨在收集有关安全相关结构、流程和计划的详细信息,包括公开领域未披露的内容。

调查包含了85个问题,涵盖七个类别:网络安全、治理、透明度、风险评估、风险缓解、当前危害和存在性安全。问题包括二选一、多选和开放式格式,允许公司提供详细的回答。完整的调查问卷附在附录B中。

调查结果已与评审人员共享,相关信息也已直接纳入评分表。公司提供的信息在评分表中被明确标识。虽然x.AI和Zhipu AI选择参与了调查,提供了实质性回答,但Anthropic、Google DeepMind和Meta仅参考了相关公开的信息。OpenAI决定不支持该项目。

评分过程

评分过程旨在确保对安全实践进行严格且公正的评估。证据收集阶段结束后,评分表汇总了每家公司在所有指标上的数据,并与一个独立的人工智能科学家和治理专家小组共享。评分表包含了所有与指标相关的信息和评分说明。

评审人员被要求基于绝对标准而非相对评分公司来进行评分。FLI为每个领域提供了一个大致的评分标准,以确保评估的一致性。除了字母等级外,评审人员还被鼓励用简短的理由支持他们的评分,并提供关键的改进建议。专家们被鼓励根据自己的判断纳入其他见解,并对指标进行加权,确保他们的评估既反映了证据基础,也符合他们的专业领域。

为了考虑评审人员之间的专业差异,FLI选择了一个子集的评审人员专门评分“存在性安全策略”部分,另一个小组负责评估“当前危害”部分。其他领域则邀请所有专家参与评分,尽管一些专家更愿意只评分自己最熟悉的领域。最终,每个部分都由四位或更多评审人员评分。评分汇总后,得出了每个领域的平均分,这些分数呈现在评分卡中。

通过采用这种结构化但灵活的方法,评分过程不仅突出了当前的安全实践,还识别了可改进的领域,鼓励公司在未来的评估中提高标准。

结果

本节展示了每个领域的平均得分,并总结了评审小组专家提供的评分理由和改进建议。

  • 风险评估

    • 得分:Anthropic (C+)、Google DeepMind (C)、OpenAI (C)、Zhipu AI (D+)、x.AI (F)、Meta (D+)

       

  • 当前危害

    • 得分:Anthropic (B-)、Google DeepMind (C+)、OpenAI (D+)、Zhipu AI (D+)、x.AI (D) 、Meta (D)

       

  • 安全框架

    • 得分:Anthropic (D+)、Google DeepMind (D-)、OpenAI (D-)、Zhipu AI (F)、x.AI (F)、Meta (F)

       

  • 存在性安全策略

    • 得分:Anthropic (D+)、Google DeepMind (D)、OpenAI (D-)、Zhipu AI (F)、x.AI (F)、Meta (F)

       

  • 治理与问责

    • 得分:Anthropic (C+)、Google DeepMind (D+)、OpenAI (D+)、Zhipu AI (D)、x.AI (F)、Meta (D)

       

  • 透明度与沟通

    • 得分:Anthropic (D+)、Google DeepMind (D)、OpenAI (D-)、Zhipu AI (C)、x.AI (C)、Meta (F)

       

结论

2024年 人工智能安全指数凸显了在快速发展的人工智能领域中,迫切需要更强的安全措施和问责制。尽管某些公司(尤其是Anthropic)在某些领域展示了值得称赞的实践,但整体结果揭示了问责制、治理和透明度方面的重大不足。公司必须在制定更清晰的安全框架、完善风险评估、增强透明度以及实施更严格的存在性安全策略方面采取更积极的行动,以确保它们的技术不会对社会带来不可预见的风险。

 

 

 

首页    行业动态    研究报告    未来生命研究所:2024全球 AI安全指数报告
创建时间:2024-12-23 15:19
浏览量:0