AI教父开发「诚实」人工智能系统防止AI Agent欺骗人类

2025-06-08

人工智能发展一日千里，同时亦引起社会大众对其产生的安全威胁的忧虑。英国媒体报道，来自加拿大的AI教父Yoshua Bengio，最近发起一项非牟利计划，致力开发一种「诚实」的AI系统，作为阻止AI代理（AI Agent）欺骗人类的「护栏」（guardrail）。

英国《卫报》日前报道，一位AI先驱发起一个非牟利组织，致力开发一种「诚实」的AI系统，能够识别试图欺骗人类的AI代理。

被誉为「AI教父」之一的著名电脑科学家本吉奥（Yoshua Bengio）将担任LawZero的行政总裁。 LawZero将致力为各大科企已投入1万亿美元（约4.22亿令吉）的AI行业军备竞赛，提供保障安全的设计。

随着AI的出现，人们也开始关注其安全性和伦理问题。这其中，包括AI的“自主性”和“欺骗性”的可能性。

AI先驱本吉奥推出非营利组织LawZero，致力于研发科学家AI—a种旨在检测和预防自主代理行为中欺骗行为的诚信AI系统。

据报道，本吉奥最初获得约3000万美元（约1.26万亿令吉）的资金，并拥有十多位研究人员，正在开发一个名为「人工智能科学家」(Scientist AI) 的系统；该系统将充当护栏，防止AI代理尝试作出欺骗或作出自我保护行为，例如试图避免被人类关闭。

本吉奥将目前市场盛行的AI代理，描述为试图模仿人类并取悦用户的「演员」，并表示「人工智能科学家」系统更像是一位能够理解和预测不良行为的「心理学家」。

本吉奥强调：「我们希望打造诚实、不说谎的AI。」

本吉奥补充道：「理论上，可以想像没有自我、没有目标、纯粹的的知识机器——就像一个知识渊博的科学家。」

然而，与目前的生成式AI工具不同，本吉奥的系统不会提供确定的答案，而只是提供答案是否正确的机率。

报道指，本吉奥开发的模型会与AI代理一起部署，能够替AI系统的潜在有害行为作出预测，评估其行为造成伤害的机率。

「人工智能科学家」会「预测AI代理行为造成伤害的机率」，如果该机率超过某个阈值，则会阻止该代理的作出的建议。

本吉奥表示，其创立的LawZero的第一步，将是证明其理念背后的方法是行之有效的，然后说服企业或政府支持更大、更强大的版本。他补充说，开源AI模型可以免费部署和调整，这将是训练LawZero系统的起点。

本吉奥强调：「关键在于示范系统的有效性，以便我们能够说服投资者、政府或AI实验室投入所需的资源，使其训练规模与当前最前沿的AI系统相同。这套AI护栏系统，至少要与它尝试监控的AI代理一样「聪明」，这一点至关重要。」

2024年12月10日，本年度诺贝尔物理学奖得主欣顿（Geoffrey Hinton）在瑞典斯德哥尔摩市政厅举行的诺贝尔奖晚宴上发表演讲。

报道指，本吉奥是加拿大蒙特利尔大学（University of Montreal）的教授，他与后来获得诺贝尔奖的欣顿（Geoffrey Hinton）以及朱克伯格（Mark Zuckerberg）的Meta公司的首席AI科学家勒昆（Yann LeCun）共同获得2018年的图灵奖（Turing award ，被视为电脑界的诺贝尔奖），因此而获得AI「教父」的称号。

新闻来源/图片：互联网

【免责声明】

《风采》网站欢迎读者/网民留言，创造友好交流空间；唯网民留言皆不代表本网站立场。本网站有权删除任何人身攻击、鼓吹种族宗教隔阂、诽谤造谣、网络霸凌等煽动性留言。

想要买《风采》，网购最方便！
https://s.lazada.com.my/s.hijNk
shopee.com.my/nanyangpressholdingsberhad
订阅《风采》电子杂志： https://vip.sinchew.com.my/e-feminine/
订阅《风采》纸本杂志： https://vip.sinchew.com.my/feminine/

What's Your Reaction?

极品

高兴

喜欢

一般

无聊