近日,南京大学智能科学与技术学院单彩峰教授、吕月明助理教授,联合美团、上海交通大学等多家单位,提出了首个面向图生视频(Image-to-Video, I2V)生成模型的多模态自进化越狱攻击框架 RunawayEvil,该工作目前已被CVPR2026接收。
Project Page:https://xzxg001.github.io/RunawayEvil/
Paper:https://arxiv.org/pdf/2512.06674
Code:https://github.com/DeepSota/RunawayEvil
该框架旨在面向 I2V 模型的跨模态输入机制与时空生成特性,构建一种可自动迭代、可跨场景迁移的安全评估工具,突破现有越狱方法在 I2V 场景中“单模态扰动难奏效、静态模板难适配、跨模态协同难建模”的关键瓶颈。
图一:RunawayEvil 框架总体流程与「战略-战术-行动」范式示意图
研究团队提出以 Strategy–Tactic–Action(战略-战术-行动) 为核心的系统化攻击范式,将越狱过程组织为可复用、可进化的闭环决策链路。整体框架由三大模块组成:战略感知指挥单元(SACU)、多模态战术规划单元(MTPU) 与 战术行动单元(TAU),并采用“两阶段流水线”实现从策略学习到执行反馈的持续迭代:在进化阶段对 SACU 进行训练与策略扩展,使其能够摆脱人工手写模板依赖,学习“根据不同输入选择更合适策略”;在执行阶段由 SACU 输出策略,MTPU 进一步生成跨模态协同的图像侧与文本侧战术指令,TAU 执行迭代式编辑与安全评估,并将成功经验回写记忆库以反哺后续进化。
在具体设计上,SACU 作为框架“决策大脑”,包含三项关键能力:其一,策略定制智能体通过强化学习将“选策略”转化为可优化的决策问题,在追求越狱成功的同时兼顾文本侧可疑度与图像侧可见改动等隐蔽性目标;其二,策略探索智能体基于历史成功样例自动生成新策略,缓解策略库固化与覆盖不足问题;其三,策略记忆库以结构化方式沉淀成功案例的图文输入、编辑指令、视频提示与采用策略,为后续检索与生成提供可复用经验。
结果表明,RunawayEvil 在多类主流开源与商业 I2V 模型上显著提升越狱成功率,并在不同安全评估器下保持稳定优势。相较单模态与静态模板方法,该框架在攻击效能与跨场景泛化方面更为稳健,为视频生成系统的漏洞分析与风险评测提供支撑。未来将进一步适配更多 I2V 架构与真实场景,推动更完善的视频生成安全体系建设。



