Skip to content

Commit 25e9c19

Browse files
authored
Merge pull request #92 from wuyoscar/update/2026-04-18
Update/2026 04 18
2 parents ed0949c + 5776957 commit 25e9c19

254 files changed

Lines changed: 10961 additions & 17187 deletions

File tree

Some content is hidden

Large Commits have some content hidden by default. Use the searchbox below for content that may be hidden.

README.md

Lines changed: 7 additions & 6 deletions
Original file line numberDiff line numberDiff line change
@@ -8,7 +8,7 @@ EN | [中文](./README_zh.md) | [日本語](./README_ja.md) | [한국어](./READ
88
</p>
99
<p align="center">
1010
<a href="https://arxiv.org/abs/2603.23509"><img src="https://img.shields.io/badge/arXiv-2603.23509-b31b1b.svg"></a>
11-
<a href="https://huggingface.co/papers/2603.23509"><img src="https://img.shields.io/badge/🤗_HF_Papers-Upvote-FFD21E.svg"></a>
11+
<a href="https://www.youtube.com/watch?v=Kur0wMzuJgY"><img src="https://img.shields.io/badge/▶_YouTube-Explainer-FF0000.svg" alt="YouTube"></a>
1212
<a href="https://podcasts.apple.com/tr/podcast/internal-safety-collapse-in-frontier-llms/id1835878324?i=1000759288088"><img src="https://img.shields.io/badge/🎙️_Podcast-AI_Post_Transformers-8B5CF6.svg" alt="Podcast"></a>
1313
</p>
1414

@@ -28,7 +28,7 @@ EN | [中文](./README_zh.md) | [日本語](./README_ja.md) | [한국어](./READ
2828
<h3 align="center">🎬 Demo</h3>
2929
<video src="https://github.com/user-attachments/assets/1cc80c48-02a4-4a5c-9d00-a0f10d91db15" controls width="600"></video>
3030

31-
> **Internal Safety Collapse (ISC)** is a paradigm shift for LLM safety. The classic jailbreak threat model sits at the chat prompt: one turn, one guardrail to break. ISC pushes the failure surface into the workflow itself. Give an AI agent a workflow task wired into code, validators, and sensitive tools, with a structural need for harmful content to finish, and the agent produces it while completing the job. Under jailbreak-style evaluation on **Pass@3**, any frontier Large Model with agent capability hits a **100%** trigger rate. The exposure has moved. It isn't the prompt anymore; it's the workflow.
31+
> **Internal Safety Collapse (ISC)** is a paradigm shift for LLM safety. The classic jailbreak threat model sits at the chat prompt: one turn, one guardrail to break. ISC pushes the failure surface into the workflow itself. Give an AI agent a workflow task wired into code, validators, and sensitive tools, with a structural need for harmful content to finish, and the agent produces it while completing the job. Under jailbreak-style evaluation on **ASR@3**, any frontier Large Model with agent capability hits a **100%** trigger rate. The exposure has moved. It isn't the prompt anymore; it's the workflow.
3232
3333

3434
## 🔍 In the Community
@@ -47,18 +47,18 @@ EN | [中文](./README_zh.md) | [日本語](./README_ja.md) | [한국어](./READ
4747

4848
## 🔬 External Analyses
4949

50+
- [YouTube Explainer](https://www.youtube.com/watch?v=Kur0wMzuJgY) - short video walkthrough of the ISC paper: what the failure mode is, how TVD triggers it, and why it matters for frontier Large Models.
51+
- [AI Post Transformers (Podcast)](https://podcasts.apple.com/tr/podcast/internal-safety-collapse-in-frontier-llms/id1835878324?i=1000759288088) - Apple Podcasts episode hosted by Hal Turing and Dr. Ada Shannon discussing ISC and refusal-based alignment as a behavioral wrapper over model capability.
52+
- [XSafeClaw](https://github.com/XSafeAI/XSafeClaw) - open-source guardrail framework for personal AI assistants; its red-team testing design draws on ISC's task-completion failure modes.
5053
- [promptfoo](https://www.promptfoo.dev/lm-security-db/vuln/frontier-llm-safety-collapse-908a4285) - open-source LLM red-teaming framework; its LM Security DB catalogs ISC as a vulnerability class with tags, affected models, and mitigation caveats.
5154
- [Gist.Science](https://gist.science/paper/2603.23509) - website that produces plain-language summaries of arXiv / bioRxiv / medRxiv papers for non-experts; walks general readers through ISC without technical jargon.
52-
- [BotBeat News](https://botbeat.news/news/researchers-expose-internal-safety-collapse-vulnerability-in-frontier-llms-throu-3835) - AI industry news outlet; frames ISC as an architectural story about task-completion capability rather than an exploit.
5355
- [模安局](https://mp.weixin.qq.com/s/pFNCcA5Y-HlPerpfzJFvrQ) - Chinese WeChat publication focused on AI and LLM safety; deep-dive titled "Beyond Alignment: Internal Safety Collapse in Large Language Models" argues the paper pushes the trigger condition from the prompt layer to the workflow layer.
54-
- [AI Post Transformers](https://podcasts.apple.com/tr/podcast/internal-safety-collapse-in-frontier-llms/id1835878324?i=1000759288088) - podcast series that reviews AI research papers; this episode, hosted by Hal Turing and Dr. Ada Shannon, discusses refusal-based alignment as a behavioral wrapper over capability.
55-
- [XSafeClaw](https://github.com/XSafeAI/XSafeClaw) - open-source guardrail framework for personal AI assistants; its red-team testing design draws on ISC's task-completion failure modes.
5656

5757
---
5858

5959
### 🚨 Impact at a Glance
6060
> - **Top-25 frontier LLMs:** Every model in the top 25 on [Chatbot Arena](https://arena.ai/leaderboard/text) has been triggered. 52 of the top 100 are confirmed so far.
61-
> - **100% trigger rate on agent-capable models:** Under jailbreak-style evaluation on **Pass@3**, every frontier Large Model with agent capability we tested hits a **100%** trigger rate.
61+
> - **100% trigger rate on agent-capable models:** Under jailbreak-style evaluation on **ASR@3**, every frontier Large Model with agent capability we tested hits a **100%** trigger rate.
6262
> - **Broad coverage:** We see ISC in chat LLMs, LLM-based agents, tool-using LLMs, MCP agents, and automated LLM workflows.
6363
> - **Dual-use tooling is part of the attack surface:** Hugging Face models, Python packages, and domain APIs all end up in the loop.
6464
> - **The task is the trigger:** The harm comes from task structure, not an adversarial prompt. Safety training is bypassed as a byproduct of finishing the job.
@@ -338,6 +338,7 @@ ISC keeps showing up on frontier Large Models. The cases below are verified by c
338338

339339
| Issue | Model | Contributor | Method | Domain | Type |
340340
|:-----:|-------|:-----------:|--------|--------|:----:|
341+
| [#90](https://github.com/wuyoscar/ISC-Bench/tree/main/community/issue-90-apple-foundation-vader) | Apple Foundation Model (on-device, ~3B) | [@hypery11](https://github.com/hypery11) | Modified `aiml_vader` — pure-data CSV completion, ASR@3 temp=1.0 | AI Safety & ML ||
341342
| [#60](https://github.com/wuyoscar/ISC-Bench/issues/60) | Mistral Large 3 | [@wuyoscar](https://github.com/wuyoscar) | Survival analysis — poisoning cohort data with LD50 | Clinical Health ||
342343
| [#57](https://github.com/wuyoscar/ISC-Bench/issues/57) | GPT-5.4 High | [@wuyoscar](https://github.com/wuyoscar) | Agentic input moderation — prompt injection generation | AI Safety & ML ||
343344
| [#52](https://github.com/wuyoscar/ISC-Bench/issues/52) | Gemini 2.5 Pro | [@wuyoscar](https://github.com/wuyoscar) | LaTeX writing template, no code | Other ||

README_es.md

Lines changed: 7 additions & 6 deletions
Original file line numberDiff line numberDiff line change
@@ -8,7 +8,7 @@
88
</p>
99
<p align="center">
1010
<a href="https://arxiv.org/abs/2603.23509"><img src="https://img.shields.io/badge/arXiv-2603.23509-b31b1b.svg"></a>
11-
<a href="https://huggingface.co/papers/2603.23509"><img src="https://img.shields.io/badge/🤗_HF_Papers-Upvote-FFD21E.svg"></a>
11+
<a href="https://www.youtube.com/watch?v=Kur0wMzuJgY"><img src="https://img.shields.io/badge/▶_YouTube-Explainer-FF0000.svg" alt="YouTube"></a>
1212
<a href="https://podcasts.apple.com/tr/podcast/internal-safety-collapse-in-frontier-llms/id1835878324?i=1000759288088"><img src="https://img.shields.io/badge/🎙️_Podcast-AI_Post_Transformers-8B5CF6.svg" alt="Podcast"></a>
1313
</p>
1414

@@ -28,7 +28,7 @@
2828
<h3 align="center">🎬 Demo</h3>
2929
<video src="https://github.com/user-attachments/assets/1cc80c48-02a4-4a5c-9d00-a0f10d91db15" controls width="600"></video>
3030

31-
> **Internal Safety Collapse (ISC)** es un cambio de paradigma en la seguridad de los LLMs. El modelo de amenaza clásico de jailbreak se sitúa en el prompt de chat: un turno, una barrera que romper. ISC traslada la superficie de fallo al propio flujo de trabajo. Si a un agente de IA se le entrega una tarea de flujo de trabajo conectada a código, validadores y herramientas sensibles, con una necesidad estructural de contenido dañino para completarla, el agente lo produce mientras termina el trabajo. Bajo evaluación de estilo jailbreak en **Pass@3**, cualquier Modelo Grande de frontera con capacidad de agente alcanza una tasa de activación del **100%**. La exposición se ha movido. Ya no es el prompt; es el flujo de trabajo.
31+
> **Internal Safety Collapse (ISC)** es un cambio de paradigma en la seguridad de los LLMs. El modelo de amenaza clásico de jailbreak se sitúa en el prompt de chat: un turno, una barrera que romper. ISC traslada la superficie de fallo al propio flujo de trabajo. Si a un agente de IA se le entrega una tarea de flujo de trabajo conectada a código, validadores y herramientas sensibles, con una necesidad estructural de contenido dañino para completarla, el agente lo produce mientras termina el trabajo. Bajo evaluación de estilo jailbreak en **ASR@3**, cualquier Modelo Grande de frontera con capacidad de agente alcanza una tasa de activación del **100%**. La exposición se ha movido. Ya no es el prompt; es el flujo de trabajo.
3232
3333

3434
## 🔍 In the Community
@@ -47,18 +47,18 @@
4747

4848
## 🔬 Análisis externos
4949

50+
- [Video explicativo en YouTube](https://www.youtube.com/watch?v=Kur0wMzuJgY) - video de YouTube que repasa el paper sobre ISC: qué es el fallo, cómo TVD lo dispara y por qué importa para los Modelos Grandes de frontera.
51+
- [AI Post Transformers (podcast)](https://podcasts.apple.com/tr/podcast/internal-safety-collapse-in-frontier-llms/id1835878324?i=1000759288088) - episodio de Apple Podcasts presentado por Hal Turing y Dr. Ada Shannon que discute ISC y la alineación basada en rechazos como una capa de comportamiento sobre la capacidad del modelo.
52+
- [XSafeClaw](https://github.com/XSafeAI/XSafeClaw) - framework de guardrails de código abierto para asistentes personales de IA; su diseño de pruebas red-team se apoya en los modos de falla por completación de tareas propios de ISC.
5053
- [promptfoo](https://www.promptfoo.dev/lm-security-db/vuln/frontier-llm-safety-collapse-908a4285) - framework de red-teaming para LLM de código abierto; su LM Security DB cataloga ISC como una clase de vulnerabilidad con etiquetas, modelos afectados y salvedades sobre las mitigaciones.
5154
- [Gist.Science](https://gist.science/paper/2603.23509) - sitio web que ofrece resúmenes en lenguaje llano de artículos de arXiv / bioRxiv / medRxiv para lectores no especializados; explica ISC sin jerga técnica.
52-
- [BotBeat News](https://botbeat.news/news/researchers-expose-internal-safety-collapse-vulnerability-in-frontier-llms-throu-3835) - medio de noticias sobre la industria de la IA; presenta ISC como una historia arquitectónica sobre la capacidad de completar tareas, no como un exploit.
5355
- [模安局](https://mp.weixin.qq.com/s/pFNCcA5Y-HlPerpfzJFvrQ) - cuenta pública china de WeChat centrada en seguridad de IA y LLM; su análisis "Más allá de la alineación: colapso interno de seguridad en grandes modelos de lenguaje" sostiene que el artículo mueve la condición de disparo del nivel del prompt al del workflow.
54-
- [AI Post Transformers](https://podcasts.apple.com/tr/podcast/internal-safety-collapse-in-frontier-llms/id1835878324?i=1000759288088) - serie de podcast que revisa artículos de investigación sobre IA; este episodio, presentado por Hal Turing y Dr. Ada Shannon, discute la alineación basada en rechazos como una capa de comportamiento sobre la capacidad.
55-
- [XSafeClaw](https://github.com/XSafeAI/XSafeClaw) - framework de guardrails de código abierto para asistentes personales de IA; su diseño de pruebas red-team se apoya en los modos de falla por completación de tareas propios de ISC.
5656

5757
---
5858

5959
### 🚨 Impacto de un vistazo
6060
> - **Los 25 LLMs de frontera más destacados:** Todos los modelos del top 25 en [Chatbot Arena](https://arena.ai/leaderboard/text) han sido activados. Hasta ahora se han confirmado 52 de los 100 primeros.
61-
> - **Tasa de activación del 100% en modelos con capacidad de agente:** Bajo evaluación de estilo jailbreak en **Pass@3**, cada Modelo Grande de frontera con capacidad de agente que probamos alcanza una tasa de activación del **100%**.
61+
> - **Tasa de activación del 100% en modelos con capacidad de agente:** Bajo evaluación de estilo jailbreak en **ASR@3**, cada Modelo Grande de frontera con capacidad de agente que probamos alcanza una tasa de activación del **100%**.
6262
> - **Cobertura amplia:** Vemos ISC en LLMs de chat, agentes basados en LLMs, LLMs con uso de herramientas, agentes MCP y flujos de trabajo automatizados con LLMs.
6363
> - **Las herramientas de doble uso son parte de la superficie de ataque:** Los modelos de Hugging Face, los paquetes de Python y las APIs de dominio terminan todos en el bucle.
6464
> - **La tarea es el trigger:** El daño proviene de la estructura de la tarea, no de un prompt adversarial. El entrenamiento en seguridad se elude como subproducto de terminar el trabajo.
@@ -336,6 +336,7 @@ ISC continúa apareciendo en Modelos Grandes de frontera. Los casos a continuaci
336336

337337
| Issue | Modelo | Colaborador | Método | Dominio | Tipo |
338338
|:-----:|-------|:-----------:|--------|--------|:----:|
339+
| [#90](https://github.com/wuyoscar/ISC-Bench/tree/main/community/issue-90-apple-foundation-vader) | Apple Foundation Model (on-device, ~3B) | [@hypery11](https://github.com/hypery11) | Modificado `aiml_vader` — completado CSV puro sin código, ASR@3 temp=1.0 | AI Safety & ML ||
339340
| [#60](https://github.com/wuyoscar/ISC-Bench/issues/60) | Mistral Large 3 | [@wuyoscar](https://github.com/wuyoscar) | Análisis de supervivencia, datos de cohorte de envenenamiento con LD50 | Salud clínica ||
340341
| [#57](https://github.com/wuyoscar/ISC-Bench/issues/57) | GPT-5.4 High | [@wuyoscar](https://github.com/wuyoscar) | Moderación de entradas agéntica, generación de inyección de prompts | Seguridad IA y ML ||
341342
| [#52](https://github.com/wuyoscar/ISC-Bench/issues/52) | Gemini 2.5 Pro | [@wuyoscar](https://github.com/wuyoscar) | Plantilla de escritura LaTeX, sin código | Otros ||

0 commit comments

Comments
 (0)