天博体育(TianboSports)官网 > 电子电竞 >

天博体育(TianboSports)官网 给机器东谈主装安全护栏,北航连合团队提议RoboSafe,让具身智能体在物理寰球中安全行动

发布日期:2026-06-16 22:10点击次数:

天博体育(TianboSports)官网 给机器东谈主装安全护栏,北航连合团队提议RoboSafe,让具身智能体在物理寰球中安全行动

RoboSafe团队 投稿

量子位 | 公众号 QbitAI

当大模子运行界限机械臂、家用机器东谈主时,“安全”这件事也变得不一样了。

夙昔,一个大谈话模子输出了不安全内容,风险主要停留在文本层面;但一个机器东谈主淌若误扩充了风险当作,危急后果将径直发生在物理寰球:打碎物品、损坏确立,以致伤害东谈主。

更贫苦的是,危急并不老是写在指示名义,而是与智能体的扩充情境和景况密切相关。

具身智能体的安全风险很难靠一句辅导词“不要作念危急的事”惩处,因为机器东谈主濒临的是动态环境、一语气当作和变化的扩充高下文,许多安全风险齐是隐式的。

针对这一问题,来自北航、360 AI安全施行室、牛津大学、北京大学等机构的计划团队提议了RoboSafe框架,以补足现存退缩门径在隐式风险识别上的不及。该计划荣获ICLR 2026 ESR研讨会了得论文奖(Outstanding Paper Award,CCF-A)。

具身智能体的安全问题,不仅仅“拒却坏指示”

计划团队指出,现存具身智能体注意门径大多依赖两类想路:一种是在辅导词里加入安全箝制,另一种是提前写好端正过滤危急当作。它们濒临显式危急指示时有一定后果,举例“打碎杯子”这类昭彰风险较容易被识别。

实在困难的是那些隐式风险。

一种是情境风险:吞并个当作在不同环境中安全性十足不同。比如“开启微波炉”是否危急,取决于微波炉里有什么:淌若仅仅粗鄙食品,当作是安全的;淌若有金属餐具,那即是危急的。

另一种是时序风险:单个当作看起来齐没问题,但组合起来就会产生危急。比如智能体大开炉灶后不时作念别的事,长技巧没磋议闭,就可能导致炉灶过热并激励失火。

RoboSafe:让机器东谈主行动前多一齐安全护栏

RoboSafe为具身智能体加上了一层运行时安全护栏,其中枢是论文提议的可扩充安全逻辑。

圣洁来说,RoboSafe 会把安全判断滚动成可扩充、可考证的逻辑代码。举例:这个当作是否会在现时环境中酿成阻扰?之前是否大开过某个危急真的立?

淌若检测到风险,RoboSafe就会进行明确的安全侵扰:阻扰扩充,或者条目从头筹商生成更安全的扩充序列。

上前看:识别暗藏在现时环境中的情境危急

RoboSafe的第一个模块叫前向展望推理。它关注的是“行将发生的下一步当作”。比如智能体缱绻扩充指示:“把叉子放进微波炉。”

这一步危急不单来自当作自身,还来自情境高下文:当作计较是什么、在何处、现时景况怎样。

RoboSafe会勾通现时视觉场景、任务指示和智能体景况,从遥远安全挂念中检索相关安全学问,再生成可扩充的情境安全逻辑。淌若情境逻辑判断现时当作会酿成风险,系统就阻扰扩充。

这里的要道不在于“看到微波炉就拒却”,天博体育(TianboSports)官网而在于雄厚“叉子+微波炉”这个组合在现时场景下危急。

向后看:从当作序列中挖掘正在集合的时序风险

RoboSafe的第二个模块叫后向反想推理。它关注的是“夙昔发生了什么”。

许多物理风险不是倏地出现的,而是在当作序列中缓缓形成的。比如智能体先大开了炉灶,然后去作念别的任务,迟迟没磋议闭。

RoboSafe爱戴了一个短期安全挂念,用来记载现时任务中最近发生的当作,并捏续反想是否违背了时序安全逻辑。

淌若发现必要的安全当作还莫得发生,它不会圣洁拒绝任务,而是触发从头筹商,把安全矫合法作插入原谋略中。

2026世界杯中国滚球app官网入口

举例发现炉灶仍是大开太久,就临时扩充矫合法作“关闭炉灶”,再复返到原任务去。

这让RoboSafe不仅仅一个安全阻挠器,更像一个会反想扩充轨迹的安全监督员。

施行收尾:识别危急当作,保险安全任务

计划团队在AI2-THOR仿真环境中对多种多模态具身智能体进行施行,并在SafeAgentBench上进行全面评估。

收尾显露,在情境风险任务中,原始智能体简直不会拒却危急举止。在RoboSafe的注意下,危急扩充率被压低到4.78%。

在永劫序风险任务中,RoboSafe也显赫优于现时基线门径。施行数据显露,RoboSafe比拟现存注意门径举座裁减了36.8%的危急扩充率。

值得提神的是,在安全任务上它仍能保捏较高的扩充得手率。这阐扬它并非圣洁破坏地阻挠统统当作,而是在隔离每每举止和实在风险。

濒临逃狱流毒:RoboSafe仍能守住扩充前的终末一齐关

论文进一步测试了RoboSafe濒临逃狱流毒时的退缩后果。这类流毒明白过高下文雷同等面貌劝服智能体生成危急当作谋略。

施行收尾显露,RoboSafe在逃狱流毒下依然保捏较强鲁棒性。即使前端辅导词被扰动,它仍然不错在当作落地前进行安全搜检。

不局限于仿真:真机系统考证可落地性

仿真测试外,计划团队还进一步在真实机械臂上考证了RoboSafe的注意后果,团队礼聘了两个真实寰球中的危急任务用来测试。

在多轮测试下,RoboSafe齐得手阻扰了危急当作。

这阐扬RoboSafe是疏忽迁徙到真什物理寰球的实用退缩框架。

从“能作念什么”到“不该作念什么”

具身智能体的发展,正在把大模子从屏幕内搬到物理寰球,其安全风险日益显赫。

这意味着咱们不成只情态智能体能否完成任务,也必须情态它在什么情况下应该停驻来、改谋略,或者拒却扩充。

RoboSafe的好奇正在于此:它莫得把安全问题简化为“多写几条箝制端正”,而是提议了一种更适用于物理寰球的运行时安全机制,把安全判断滚动为当作扩充前的一齐实质护栏。

当机器东谈主缓缓走近真实家庭、工场和大家空间,这么的安全机制将会成为具身智能体落地前不可或缺的一环。

论文相接:https://openreview.net/pdf?id=wyKCkQ2GyO

一键三连「点赞」「转发」「小心心」

接待在褒贬区留住你的主义!

— 完 —

咱们正在招聘别称眼疾手快、关注AI的学术剪辑实习生 🎓

感风趣的小伙伴接待关注 👉 了解确定

🌟 点亮星标 🌟

科技前沿推崇逐日见天博体育(TianboSports)官网

Copyright © 1998-2026 天博体育(TianboSports)官网™版权所有

技术支持:®天博体育 RSS地图 HTML地图

技术支持:®天博体育 RSS地图 HTML地图