天博体育(TianboSports)官网给机器东谈主装安全护栏，北航连合团队提议RoboSafe，让具身智能体在物理寰球中安全行动

发布日期：2026-06-16 22:10点击次数：

RoboSafe团队投稿

量子位 | 公众号 QbitAI

当大模子运行界限机械臂、家用机器东谈主时，“安全”这件事也变得不一样了。

夙昔，一个大谈话模子输出了不安全内容，风险主要停留在文本层面；但一个机器东谈主淌若误扩充了风险当作，危急后果将径直发生在物理寰球：打碎物品、损坏确立，以致伤害东谈主。

更贫苦的是，危急并不老是写在指示名义，而是与智能体的扩充情境和景况密切相关。

具身智能体的安全风险很难靠一句辅导词“不要作念危急的事”惩处，因为机器东谈主濒临的是动态环境、一语气当作和变化的扩充高下文，许多安全风险齐是隐式的。

针对这一问题，来自北航、360 AI安全施行室、牛津大学、北京大学等机构的计划团队提议了RoboSafe框架，以补足现存退缩门径在隐式风险识别上的不及。该计划荣获ICLR 2026 ESR研讨会了得论文奖（Outstanding Paper Award，CCF-A）。

具身智能体的安全问题，不仅仅“拒却坏指示”

计划团队指出，现存具身智能体注意门径大多依赖两类想路：一种是在辅导词里加入安全箝制，另一种是提前写好端正过滤危急当作。它们濒临显式危急指示时有一定后果，举例“打碎杯子”这类昭彰风险较容易被识别。

实在困难的是那些隐式风险。

一种是情境风险：吞并个当作在不同环境中安全性十足不同。比如“开启微波炉”是否危急，取决于微波炉里有什么：淌若仅仅粗鄙食品，当作是安全的；淌若有金属餐具，那即是危急的。

另一种是时序风险：单个当作看起来齐没问题，但组合起来就会产生危急。比如智能体大开炉灶后不时作念别的事，长技巧没磋议闭，就可能导致炉灶过热并激励失火。

RoboSafe：让机器东谈主行动前多一齐安全护栏

RoboSafe为具身智能体加上了一层运行时安全护栏，其中枢是论文提议的可扩充安全逻辑。

圣洁来说，RoboSafe 会把安全判断滚动成可扩充、可考证的逻辑代码。举例：这个当作是否会在现时环境中酿成阻扰？之前是否大开过某个危急真的立？

淌若检测到风险，RoboSafe就会进行明确的安全侵扰：阻扰扩充，或者条目从头筹商生成更安全的扩充序列。

上前看：识别暗藏在现时环境中的情境危急

RoboSafe的第一个模块叫前向展望推理。它关注的是“行将发生的下一步当作”。比如智能体缱绻扩充指示：“把叉子放进微波炉。”

这一步危急不单来自当作自身，还来自情境高下文：当作计较是什么、在何处、现时景况怎样。

RoboSafe会勾通现时视觉场景、任务指示和智能体景况，从遥远安全挂念中检索相关安全学问，再生成可扩充的情境安全逻辑。淌若情境逻辑判断现时当作会酿成风险，系统就阻扰扩充。

这里的要道不在于“看到微波炉就拒却”，天博体育(TianboSports)官网而在于雄厚“叉子+微波炉”这个组合在现时场景下危急。

向后看：从当作序列中挖掘正在集合的时序风险

RoboSafe的第二个模块叫后向反想推理。它关注的是“夙昔发生了什么”。

许多物理风险不是倏地出现的，而是在当作序列中缓缓形成的。比如智能体先大开了炉灶，然后去作念别的任务，迟迟没磋议闭。

RoboSafe爱戴了一个短期安全挂念，用来记载现时任务中最近发生的当作，并捏续反想是否违背了时序安全逻辑。

淌若发现必要的安全当作还莫得发生，它不会圣洁拒绝任务，而是触发从头筹商，把安全矫合法作插入原谋略中。

2026世界杯中国滚球app官网入口

举例发现炉灶仍是大开太久，就临时扩充矫合法作“关闭炉灶”，再复返到原任务去。

这让RoboSafe不仅仅一个安全阻挠器，更像一个会反想扩充轨迹的安全监督员。

施行收尾：识别危急当作，保险安全任务

计划团队在AI2-THOR仿真环境中对多种多模态具身智能体进行施行，并在SafeAgentBench上进行全面评估。

收尾显露，在情境风险任务中，原始智能体简直不会拒却危急举止。在RoboSafe的注意下，危急扩充率被压低到4.78%。

在永劫序风险任务中，RoboSafe也显赫优于现时基线门径。施行数据显露，RoboSafe比拟现存注意门径举座裁减了36.8%的危急扩充率。

值得提神的是，在安全任务上它仍能保捏较高的扩充得手率。这阐扬它并非圣洁破坏地阻挠统统当作，而是在隔离每每举止和实在风险。

濒临逃狱流毒：RoboSafe仍能守住扩充前的终末一齐关

论文进一步测试了RoboSafe濒临逃狱流毒时的退缩后果。这类流毒明白过高下文雷同等面貌劝服智能体生成危急当作谋略。

施行收尾显露，RoboSafe在逃狱流毒下依然保捏较强鲁棒性。即使前端辅导词被扰动，它仍然不错在当作落地前进行安全搜检。

不局限于仿真：真机系统考证可落地性

仿真测试外，计划团队还进一步在真实机械臂上考证了RoboSafe的注意后果，团队礼聘了两个真实寰球中的危急任务用来测试。

在多轮测试下，RoboSafe齐得手阻扰了危急当作。

这阐扬RoboSafe是疏忽迁徙到真什物理寰球的实用退缩框架。

从“能作念什么”到“不该作念什么”

具身智能体的发展，正在把大模子从屏幕内搬到物理寰球，其安全风险日益显赫。

这意味着咱们不成只情态智能体能否完成任务，也必须情态它在什么情况下应该停驻来、改谋略，或者拒却扩充。

RoboSafe的好奇正在于此：它莫得把安全问题简化为“多写几条箝制端正”，而是提议了一种更适用于物理寰球的运行时安全机制，把安全判断滚动为当作扩充前的一齐实质护栏。

当机器东谈主缓缓走近真实家庭、工场和大家空间，这么的安全机制将会成为具身智能体落地前不可或缺的一环。

论文相接：https://openreview.net/pdf?id=wyKCkQ2GyO

一键三连「点赞」「转发」「小心心」

接待在褒贬区留住你的主义！

— 完 —

咱们正在招聘别称眼疾手快、关注AI的学术剪辑实习生 🎓

感风趣的小伙伴接待关注 👉 了解确定

🌟 点亮星标 🌟

科技前沿推崇逐日见天博体育(TianboSports)官网

上一篇：天博体育(TianboSports) 一季度净利润下滑近四成！乖宝宠物董事长：非策划根人性问题下一篇：天博体育app下载深圳福田：数字分身亮相广东AI大会，AI数智职工赋能政务提质增效

- 电子电竞

热点资讯

天博体育(TianboSports)官网 给机器东谈主装安全护栏，北航连合团队提议RoboSafe，让具身智能体在物理寰球中安全行动

天博体育(TianboSports)官网给机器东谈主装安全护栏，北航连合团队提议RoboSafe，让具身智能体在物理寰球中安全行动