OpenAI破大防,拒绝率从98%骤降2%!陈怡然团队提出全新思维链劫持攻击
新智元报道编辑:LRST【新智元导读】「思维链劫持」(H-CoT)的攻击方法,成功攻破了包括OpenAI o1o3、DeepSeek-R1等在内的多款大型推理模型的安全防线。研究表明,这些模型的安全审查过程透明化反而暴露了弱点,攻击
4小时前10
新智元报道编辑:LRST【新智元导读】「思维链劫持」(H-CoT)的攻击方法,成功攻破了包括OpenAI o1o3、DeepSeek-R1等在内的多款大型推理模型的安全防线。研究表明,这些模型的安全审查过程透明化反而暴露了弱点,攻击