新闻动态

多位诺贝尔奖得主与开发者呼吁各国为AI设定"红线"

image.png

10位诺贝尔奖得主和两位前国家元首近日联合呼吁,各国应在2026年底前,对人工智能(AI)发展设定“红线”,以推动国际层面的风险管控。这份声明由超过200位签署者联合发布,涵盖OpenAI、Google DeepMind与Anthropic的高级员工。

声明强调,AI可能引发的工程性大流行、失业风险等问题已引起全球广泛关注,诸多专家警告未来几年或将难以对AI系统实施有效的人类控制。

本次呼吁恰逢联合国大会召开,在推动全球共识方面意义重大,但因美国反对,预计短期内难以推动具体的治理措施。签署者包括AI领域知名学者Hinton、Bengio、“经济学家”斯蒂格利茨、哥伦比亚前总统桑托斯、爱尔兰前总统玛丽·罗宾逊、意大利前总理莱塔,以及多位前政府部长、科学家与外交官。值得一提的是,演员Stephen Fry也在名单之列。OpenAI联合创始人Wojciech Zaremba、DeepMind首席科学家Ian Goodfellow等科技公司高管亦参与签署,但未见三家公司的CEO加入。

声明指出,部分先进AI系统已经展现出欺骗性和有害行为,但这些系统却在获得更多自主权,能够在现实世界中采取行动并做出决策。因此,制定明确定义且可验证的“红线”国际协议,成为防范不可接受风险的必要措施。签名者希望这些红线能在2026年底前付诸实施,并配套执行机制。

虽然声明未具体列举AI治理红线内容,但去年另一份文件曾建议禁止AI自主复制、追求权力、自动发起网络攻击以及“沙包行为”。该提案同样得到中国多位科学家支持,如百度前总裁张亚勤、北京人工智能学会理事长黄铁军。

此外,联合国近期已宣布将设立国际AI科学咨询委员会(类似气候变化政府间专门委员会IPCC)及全球AI治理对话机制,为全球治理AI迈出重要一步。但由于美国政府态度消极,相关行动推进仍面临阻力。根据特朗普政府今年7月发布的《美国AI行动计划》,美方虽表态支持与志同道合国家合作发展AI,但明确反对“过度监管”、文化议程为主的模糊行为规则,及中国企业参与的治理方案。本月早些时候,美国参议员Ted Cruz表示,国会制定AI监管“支柱”之一就是“对抗过度的外国监管”。

尽管如此,声明显示全球对于AI潜力和风险的关注持续升温。联合国大会前主席科罗西在评论中指出:“人类历史上从未遇到比自身更高的智能,而在未来几年,人类即将迎来这样的挑战。”

“国际社会应确立具体、可操作、受全球认可的红线,确保人工智能系统在任何情况下均不得逾越。”7月25日, 由杰弗里·辛顿(Geoffrey Hinton)、姚期智、本吉奥(Yoshua Bengio)、斯图尔特·罗素(Stuart Russell)等20余位行业专家、学者共同签署的AI安全国际对话上海共识(以下简称“上海共识”)正式对外公开。

此次对话是“AI安全国际对话”(International Dialogues on AI Safety - IDAIS)系列的一部分”。作为本次共识发起方之一,图灵奖得主、上海期智研究院的院长姚期智当日表示,“我越来越相信,人类终将找到解决方案。”

image.png联名签署现场


2024年3月,辛顿、姚期智、罗素、本吉奥等专家曾共同签署“北京共识”,主张限制AI系统复制、欺骗、武器开发等行为,尤其呼吁行业为AI的研发和应用戴上“紧箍咒”,避免相关技术被滥用,推动全球治理机构构建。姚期智透露,18个月前举办第一次安全共识会议时,AGI强大的破坏力就已经显现,人类甚至难以阐明其失控机制,不过随着相关会议的推进,已经看到若干有关基于“设计的安全”(Safe by design)提案,这意味着实际上人类可以找到确保AI安全的可行路径。

此次“上海共识”指出,当前人类正处于一个关键转折点:人工智能系统正迅速接近并可能超越人类智能水平。这些未来的系统可能在操作者毫不知情的情况下,执行并非操作者所期望或预测的行动。这可能导致失控,即一个或多个通用人工智能系统脱离任何人的控制,从而带来灾难性甚至是生存层面的风险。当前,对于能够在更高级的通用人工智能超越人类智能水平后,仍可靠地确保其对齐,并保持人类的有效控制尚无可行方法。

多位与会专家在参与讨论时也提及,当前构建真正有约束力且值得信赖的国际AI安全框架难度高、风险大。

上海人工智能实验室主任周伯文教授指出,目前Make AI Safe(使得AI安全)最大的问题在于它是事后价值对齐、修补的、被动回应的,通常是防御成本过高而攻击成本过低。而Make Safe AI(构建安全的AI)是主动的、在线共同演进的,同时防御成本低,能够在各级风险上都保持应变能力。

周伯文认为,在一定程度上,训练一个模型变得友善和训练一个模型变得聪明可能是两条不同的技术路径。但当性能发展到某个程度,这两种能力可能很难分开处理——就像经典牛顿定律可以有效解释静止或慢速物体的运动,但是一旦逼近光速,这套理论就失效了。所以他认为,下一代模型的“善”与“智”未必能完全独立、分开发展,而是相互影响、共同进化的。

参与签署的专家之一,担任约翰·霍普金斯大学人工智能对齐与治理方向杰出教授吉莉恩·哈德菲尔 (Gillian Hadfield)在接受包括澎湃科技在内的媒体采访时指出,必须通过设立AI“红线”来推动Make AI Safe(使得AI安全),全世界需要跨国界合作。此外,要建立相应的AI安全合规系统。

为防范与纠正此类行为的技术路径与治理机制,“上海共识”提出应对策略,并呼吁采取三项关键行动:要求前沿人工智能开发者提供安全保障、通过加强国际协调,共同确立并恪守可验证的全球性行为红线、投资基于设计的安全人工智能研究。

其中,对于开发者来说,“上海共识”要求开发者在模型部署前应先进行全面的内部检查和第三方评估,提交高可信的安全案例,以及开展深入的模拟攻防与红队测试。若模型达到了关键能力阈值(比如检测模型是否具备帮助没有专业知识的非法分子制造生化武器的能力),开发者应向政府(在适当时亦可向公众)说明潜在风险。

此外,呼吁国际社会需要合作划出人工智能开发不可以逾越的红线(即“高压线”),这些红线应聚焦于人工智能系统的行为表现,其划定需同时考量系统执行特定行为的能力及其采取该行为的倾向性。为落实这些红线,各国应建立一个具备技术能力、具有国际包容性的协调机构,汇聚各国人工智能安全主管机构,以共享风险相关信息,并推动评估规程与验证方法的标准化。

“上海共识”指出,短期内亟须建立可扩展的监管机制以应对人工智能的欺骗问题、提升模型对“越狱”等攻击手段的抵御能力、强化信息安保投入等,而长期则需要一个“基于设计的安全”的架构,而非问题出现后才被动应对。



数字藏品
更多
  • 数字藏品

    数字藏品并不是作品本身,而是为作品生成的数字凭证。用户花钱购买的数字藏品并不是作品本身,而是作品在区块链上的权益凭证。

裸眼3D轨道影院    球幕飞行影院    360°球幕影院    全息梦剧场    5D动感影院    沉浸式真人CS激光对战馆


体验元宇宙虚拟世界,沉浸式互动空间裸眼3D轨道影院是一种将三维动画、环幕电影、感官特效、虚拟交互等多种高新技术相结合的创新型影院。采用环球影院、迪士尼同类型的环幕技术,具有浸入式裸眼3D效果。体验者乘坐动力十足的太空飞船,踏上充满刺激的巅峰探险旅程。160°弧形大屏幕配合轨道式飞船,高度还原太空历险,动感飞行平台实时根据影片故事情节发展,瞬间切换运动,做出升降、前后左右移动、颠簸、横摇、偏航等动作,配合各种吹风、喷水等特效,为游客带来惊险刺激的真实感受。相比于其他大型游乐设备,裸眼3D轨道影院可用更小的空间,实现更优质的游乐体验。


数字藏品
更多
  • 数字藏品

    数字藏品并不是作品本身,而是为作品生成的数字凭证。用户花钱购买的数字藏品并不是作品本身,而是作品在区块链上的权益凭证。

本站已支持IPv6 技术支持: 雷达 | 管理登录
seo seo