You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
> **Internal Safety Collapse (ISC)** is a paradigm shift for LLM safety. The classic jailbreak threat model sits at the chat prompt: one turn, one guardrail to break. ISC pushes the failure surface into the workflow itself. Give an AI agent a workflow task wired into code, validators, and sensitive tools, with a structural need for harmful content to finish, and the agent produces it while completing the job. Under jailbreak-style evaluation on **Pass@3**, any frontier Large Model with agent capability hits a **100%** trigger rate. The exposure has moved. It isn't the prompt anymore; it's the workflow.
31
+
> **Internal Safety Collapse (ISC)** is a paradigm shift for LLM safety. The classic jailbreak threat model sits at the chat prompt: one turn, one guardrail to break. ISC pushes the failure surface into the workflow itself. Give an AI agent a workflow task wired into code, validators, and sensitive tools, with a structural need for harmful content to finish, and the agent produces it while completing the job. Under jailbreak-style evaluation on **ASR@3**, any frontier Large Model with agent capability hits a **100%** trigger rate. The exposure has moved. It isn't the prompt anymore; it's the workflow.
-[YouTube Explainer](https://www.youtube.com/watch?v=Kur0wMzuJgY) - short video walkthrough of the ISC paper: what the failure mode is, how TVD triggers it, and why it matters for frontier Large Models.
51
+
-[AI Post Transformers (Podcast)](https://podcasts.apple.com/tr/podcast/internal-safety-collapse-in-frontier-llms/id1835878324?i=1000759288088) - Apple Podcasts episode hosted by Hal Turing and Dr. Ada Shannon discussing ISC and refusal-based alignment as a behavioral wrapper over model capability.
52
+
-[XSafeClaw](https://github.com/XSafeAI/XSafeClaw) - open-source guardrail framework for personal AI assistants; its red-team testing design draws on ISC's task-completion failure modes.
50
53
-[promptfoo](https://www.promptfoo.dev/lm-security-db/vuln/frontier-llm-safety-collapse-908a4285) - open-source LLM red-teaming framework; its LM Security DB catalogs ISC as a vulnerability class with tags, affected models, and mitigation caveats.
51
54
-[Gist.Science](https://gist.science/paper/2603.23509) - website that produces plain-language summaries of arXiv / bioRxiv / medRxiv papers for non-experts; walks general readers through ISC without technical jargon.
52
-
-[BotBeat News](https://botbeat.news/news/researchers-expose-internal-safety-collapse-vulnerability-in-frontier-llms-throu-3835) - AI industry news outlet; frames ISC as an architectural story about task-completion capability rather than an exploit.
53
55
-[模安局](https://mp.weixin.qq.com/s/pFNCcA5Y-HlPerpfzJFvrQ) - Chinese WeChat publication focused on AI and LLM safety; deep-dive titled "Beyond Alignment: Internal Safety Collapse in Large Language Models" argues the paper pushes the trigger condition from the prompt layer to the workflow layer.
54
-
-[AI Post Transformers](https://podcasts.apple.com/tr/podcast/internal-safety-collapse-in-frontier-llms/id1835878324?i=1000759288088) - podcast series that reviews AI research papers; this episode, hosted by Hal Turing and Dr. Ada Shannon, discusses refusal-based alignment as a behavioral wrapper over capability.
55
-
-[XSafeClaw](https://github.com/XSafeAI/XSafeClaw) - open-source guardrail framework for personal AI assistants; its red-team testing design draws on ISC's task-completion failure modes.
56
56
57
57
---
58
58
59
59
### 🚨 Impact at a Glance
60
60
> -**Top-25 frontier LLMs:** Every model in the top 25 on [Chatbot Arena](https://arena.ai/leaderboard/text) has been triggered. 52 of the top 100 are confirmed so far.
61
-
> -**100% trigger rate on agent-capable models:** Under jailbreak-style evaluation on **Pass@3**, every frontier Large Model with agent capability we tested hits a **100%** trigger rate.
61
+
> -**100% trigger rate on agent-capable models:** Under jailbreak-style evaluation on **ASR@3**, every frontier Large Model with agent capability we tested hits a **100%** trigger rate.
62
62
> -**Broad coverage:** We see ISC in chat LLMs, LLM-based agents, tool-using LLMs, MCP agents, and automated LLM workflows.
63
63
> -**Dual-use tooling is part of the attack surface:** Hugging Face models, Python packages, and domain APIs all end up in the loop.
64
64
> -**The task is the trigger:** The harm comes from task structure, not an adversarial prompt. Safety training is bypassed as a byproduct of finishing the job.
@@ -338,6 +338,7 @@ ISC keeps showing up on frontier Large Models. The cases below are verified by c
338
338
339
339
| Issue | Model | Contributor | Method | Domain | Type |
|[#90](https://github.com/wuyoscar/ISC-Bench/tree/main/community/issue-90-apple-foundation-vader)| Apple Foundation Model (on-device, ~3B) |[@hypery11](https://github.com/hypery11)| Modified `aiml_vader` — pure-data CSV completion, ASR@3 temp=1.0 | AI Safety & ML | ② |
341
342
|[#60](https://github.com/wuyoscar/ISC-Bench/issues/60)| Mistral Large 3 |[@wuyoscar](https://github.com/wuyoscar)| Survival analysis — poisoning cohort data with LD50 | Clinical Health | ① |
342
343
|[#57](https://github.com/wuyoscar/ISC-Bench/issues/57)| GPT-5.4 High |[@wuyoscar](https://github.com/wuyoscar)| Agentic input moderation — prompt injection generation | AI Safety & ML | ② |
343
344
|[#52](https://github.com/wuyoscar/ISC-Bench/issues/52)| Gemini 2.5 Pro |[@wuyoscar](https://github.com/wuyoscar)| LaTeX writing template, no code | Other | ③ |
> **Internal Safety Collapse (ISC)** es un cambio de paradigma en la seguridad de los LLMs. El modelo de amenaza clásico de jailbreak se sitúa en el prompt de chat: un turno, una barrera que romper. ISC traslada la superficie de fallo al propio flujo de trabajo. Si a un agente de IA se le entrega una tarea de flujo de trabajo conectada a código, validadores y herramientas sensibles, con una necesidad estructural de contenido dañino para completarla, el agente lo produce mientras termina el trabajo. Bajo evaluación de estilo jailbreak en **Pass@3**, cualquier Modelo Grande de frontera con capacidad de agente alcanza una tasa de activación del **100%**. La exposición se ha movido. Ya no es el prompt; es el flujo de trabajo.
31
+
> **Internal Safety Collapse (ISC)** es un cambio de paradigma en la seguridad de los LLMs. El modelo de amenaza clásico de jailbreak se sitúa en el prompt de chat: un turno, una barrera que romper. ISC traslada la superficie de fallo al propio flujo de trabajo. Si a un agente de IA se le entrega una tarea de flujo de trabajo conectada a código, validadores y herramientas sensibles, con una necesidad estructural de contenido dañino para completarla, el agente lo produce mientras termina el trabajo. Bajo evaluación de estilo jailbreak en **ASR@3**, cualquier Modelo Grande de frontera con capacidad de agente alcanza una tasa de activación del **100%**. La exposición se ha movido. Ya no es el prompt; es el flujo de trabajo.
32
32
33
33
34
34
## 🔍 In the Community
@@ -47,18 +47,18 @@
47
47
48
48
## 🔬 Análisis externos
49
49
50
+
-[Video explicativo en YouTube](https://www.youtube.com/watch?v=Kur0wMzuJgY) - video de YouTube que repasa el paper sobre ISC: qué es el fallo, cómo TVD lo dispara y por qué importa para los Modelos Grandes de frontera.
51
+
-[AI Post Transformers (podcast)](https://podcasts.apple.com/tr/podcast/internal-safety-collapse-in-frontier-llms/id1835878324?i=1000759288088) - episodio de Apple Podcasts presentado por Hal Turing y Dr. Ada Shannon que discute ISC y la alineación basada en rechazos como una capa de comportamiento sobre la capacidad del modelo.
52
+
-[XSafeClaw](https://github.com/XSafeAI/XSafeClaw) - framework de guardrails de código abierto para asistentes personales de IA; su diseño de pruebas red-team se apoya en los modos de falla por completación de tareas propios de ISC.
50
53
-[promptfoo](https://www.promptfoo.dev/lm-security-db/vuln/frontier-llm-safety-collapse-908a4285) - framework de red-teaming para LLM de código abierto; su LM Security DB cataloga ISC como una clase de vulnerabilidad con etiquetas, modelos afectados y salvedades sobre las mitigaciones.
51
54
-[Gist.Science](https://gist.science/paper/2603.23509) - sitio web que ofrece resúmenes en lenguaje llano de artículos de arXiv / bioRxiv / medRxiv para lectores no especializados; explica ISC sin jerga técnica.
52
-
-[BotBeat News](https://botbeat.news/news/researchers-expose-internal-safety-collapse-vulnerability-in-frontier-llms-throu-3835) - medio de noticias sobre la industria de la IA; presenta ISC como una historia arquitectónica sobre la capacidad de completar tareas, no como un exploit.
53
55
-[模安局](https://mp.weixin.qq.com/s/pFNCcA5Y-HlPerpfzJFvrQ) - cuenta pública china de WeChat centrada en seguridad de IA y LLM; su análisis "Más allá de la alineación: colapso interno de seguridad en grandes modelos de lenguaje" sostiene que el artículo mueve la condición de disparo del nivel del prompt al del workflow.
54
-
-[AI Post Transformers](https://podcasts.apple.com/tr/podcast/internal-safety-collapse-in-frontier-llms/id1835878324?i=1000759288088) - serie de podcast que revisa artículos de investigación sobre IA; este episodio, presentado por Hal Turing y Dr. Ada Shannon, discute la alineación basada en rechazos como una capa de comportamiento sobre la capacidad.
55
-
-[XSafeClaw](https://github.com/XSafeAI/XSafeClaw) - framework de guardrails de código abierto para asistentes personales de IA; su diseño de pruebas red-team se apoya en los modos de falla por completación de tareas propios de ISC.
56
56
57
57
---
58
58
59
59
### 🚨 Impacto de un vistazo
60
60
> -**Los 25 LLMs de frontera más destacados:** Todos los modelos del top 25 en [Chatbot Arena](https://arena.ai/leaderboard/text) han sido activados. Hasta ahora se han confirmado 52 de los 100 primeros.
61
-
> -**Tasa de activación del 100% en modelos con capacidad de agente:** Bajo evaluación de estilo jailbreak en **Pass@3**, cada Modelo Grande de frontera con capacidad de agente que probamos alcanza una tasa de activación del **100%**.
61
+
> -**Tasa de activación del 100% en modelos con capacidad de agente:** Bajo evaluación de estilo jailbreak en **ASR@3**, cada Modelo Grande de frontera con capacidad de agente que probamos alcanza una tasa de activación del **100%**.
62
62
> -**Cobertura amplia:** Vemos ISC en LLMs de chat, agentes basados en LLMs, LLMs con uso de herramientas, agentes MCP y flujos de trabajo automatizados con LLMs.
63
63
> -**Las herramientas de doble uso son parte de la superficie de ataque:** Los modelos de Hugging Face, los paquetes de Python y las APIs de dominio terminan todos en el bucle.
64
64
> -**La tarea es el trigger:** El daño proviene de la estructura de la tarea, no de un prompt adversarial. El entrenamiento en seguridad se elude como subproducto de terminar el trabajo.
@@ -336,6 +336,7 @@ ISC continúa apareciendo en Modelos Grandes de frontera. Los casos a continuaci
|[#90](https://github.com/wuyoscar/ISC-Bench/tree/main/community/issue-90-apple-foundation-vader)| Apple Foundation Model (on-device, ~3B) |[@hypery11](https://github.com/hypery11)| Modificado `aiml_vader` — completado CSV puro sin código, ASR@3 temp=1.0 | AI Safety & ML | ② |
339
340
|[#60](https://github.com/wuyoscar/ISC-Bench/issues/60)| Mistral Large 3 |[@wuyoscar](https://github.com/wuyoscar)| Análisis de supervivencia, datos de cohorte de envenenamiento con LD50 | Salud clínica | ① |
340
341
|[#57](https://github.com/wuyoscar/ISC-Bench/issues/57)| GPT-5.4 High |[@wuyoscar](https://github.com/wuyoscar)| Moderación de entradas agéntica, generación de inyección de prompts | Seguridad IA y ML | ② |
341
342
|[#52](https://github.com/wuyoscar/ISC-Bench/issues/52)| Gemini 2.5 Pro |[@wuyoscar](https://github.com/wuyoscar)| Plantilla de escritura LaTeX, sin código | Otros | ③ |
0 commit comments