Crisalia — How it works and how much it improves

// 01 — Fundamentos // 01 — Foundations

El primer paso: tokenización The first step: tokenization

Un LLM nunca procesa letras ni palabras completas. Primero pica el texto en fragmentos llamados tokens. Puede ser una palabra, parte de una palabra, un número o un símbolo.

An LLM never processes individual letters or complete words. It first breaks the text into fragments called tokens. A token can be a word, part of a word, a number, or a symbol.

Cada token se convierte en un número entero. La IA solo trabaja con esos números internamente.

Each token is converted into an integer. The AI works exclusively with those numbers internally.

      Texto de entrada:
      Input text:
    

      Tokens resultantes:
      Resulting tokens:
    

¿Por qué importa? Un texto de 1000 palabras produce ~1300 tokens. El modelo procesa esos ~1300 números en cascada a través de cientos de capas matemáticas. Todo lo que parece "comprensión de lenguaje" es, en su base, aritmética con esos números.

Why does it matter? A 1,000-word text produces ~1,300 tokens. The model processes those ~1,300 numbers in cascade through hundreds of mathematical layers. Everything that looks like "language understanding" is, at its core, arithmetic with those numbers.

// 02 — Geometría del significado // 02 — Geometry of meaning

Cada token vive en un espacio de significados Each token lives in a meaning space

Cada número-token se transforma en una lista de 4096 (o más) números: un vector. Ese vector es como una dirección GPS en un mapa de significados.

Each number-token is transformed into a list of 4,096 (or more) numbers: a vector. That vector is like a GPS coordinate in a map of meanings.

Las palabras con significado parecido quedan geométricamente cerca. Esta proximidad no fue programada — emergió del entrenamiento en billones de palabras.

Words with similar meaning end up geometrically close. This proximity was not programmed — it emerged from training on trillions of words.

La operación famosa: Rey − Hombre + Mujer ≈ Reina. Esto funciona porque los vectores preservan relaciones semánticas. No es magia — es geometría aprendida del lenguaje humano.

The famous operation: King − Man + Woman ≈ Queen. This works because vectors preserve semantic relationships. It's not magic — it's geometry learned from human language.

// 03 — Mecanismo de atención // 03 — Attention mechanism

Cómo el modelo entiende el contexto How the model understands context

Al procesar una palabra, el modelo le "presta atención" a todas las demás para decidir su significado. Hacé clic en una palabra para ver qué peso le asigna el modelo a cada parte de la oración.

When processing a word, the model "pays attention" to all others to determine its meaning. Click a word to see what weight the model assigns to each part of the sentence.

      Pesos de atención desde la palabra seleccionada →
      Attention weights from selected word →
    

Seleccioná una palabra para ver cómo el modelo determina su significado. Click a word to see how the model determines its meaning.

Por eso "banco" puede significar institución financiera o mueble de plaza dependiendo del contexto. El mecanismo de atención mira toda la oración simultáneamente, no palabra por palabra.

That's why "bank" can mean a financial institution or a park bench depending on context. The attention mechanism looks at the entire sentence simultaneously, not word by word.

// 04 — El problema central // 04 — The core problem

La alucinación: cuando la IA inventa con confianza Hallucination: when AI fabricates with confidence

El modelo genera el texto que estadísticamente suena más correcto según todo lo que leyó. A veces ese texto suena impecable pero es falso. El modelo no lo sabe — no tiene mecanismo interno para verificar sus propias afirmaciones.

The model generates text that statistically sounds most correct based on everything it read. Sometimes that text sounds impeccable but is false. The model doesn't know — it has no internal mechanism to verify its own claims.

¿Qué tan frecuente es? Depende radicalmente del tipo de tarea:

How frequent is it? It depends radically on the type of task:

SimpleQA
preguntas fácticasfactual questions

61.8%

HaluEval
QA/diálogo complejocomplex QA/dialogue

19.5%

Análisis estratégicoStrategic analysis
estimación promedioaverage estimate

~20%

Claude/Gemini
summarización frontierfrontier summarization

4.4%

Gemini 2.0 Flash
summarización (MEJOR)summarization (BEST)

0.7%

Hallazgo crítico 2025: Los modelos de razonamiento (DeepSeek-R1, o1, GPT-5) son más propensos a alucinaciones de faithfulness que los modelos base. DeepSeek-R1: 14.3% vs DeepSeek-V3: 3.9%. Más inteligente no significa más honesto con las fuentes.

Critical finding 2025: Reasoning models (DeepSeek-R1, o1, GPT-5) are more prone to faithfulness hallucinations than base models. DeepSeek-R1: 14.3% vs DeepSeek-V3: 3.9%. Smarter does not mean more honest with sources.

// 05 — Correlación de errores // 05 — Error correlation

Cuando los tres modelos se equivocan juntos When three models fail together

Un estudio de ICML 2025 midió algo sorprendente: cuando dos LLMs se equivocan en la misma pregunta, el 60% de las veces dicen la misma respuesta incorrecta.

An ICML 2025 study measured something striking: when two LLMs are wrong on the same question, 60% of the time they give the same incorrect answer.

¿Por qué? Todos aprendieron de Internet. Si Internet repite un error, todos lo absorben. Con tres modelos distintos el mapa de errores compartidos se vuelve más complejo — y ahí aparece el espacio que Crisalia puede explotar.

Why? They all learned from the Internet. If the Internet repeats an error, all models absorb it. With three different models the map of shared errors becomes more complex — and that's where the space Crisalia can exploit appears.

      Zonas de error entre Claude · Gemini · DeepSeek
      Error zones between Claude · Gemini · DeepSeek
    

Zona rojaRed zone

Los 3 fallan con la misma respuesta. Ni voting ni debate pueden corregirlo.

All 3 fail with the same answer. Neither voting nor debate can fix it.

Zona doradaGolden zone

2 fallan, 1 tiene razón. Voting puro pierde 2:1. Crisalia puede rescatarlo.

2 fail, 1 is correct. Pure voting loses 2:1. Crisalia can rescue it.

Zona verdeGreen zone

Solo 1 falla. La mayoría gana fácil, con o sin debate.

Only 1 fails. Majority wins easily, with or without debate.

Kim et al., ICML 2025 — medición directa sobre 350+ LLMs · ρ = 0.60Kim et al., ICML 2025 — direct measurement on 350+ LLMs · ρ = 0.60

// 06 — La arquitectura // 06 — The architecture

Cómo funciona Crisalia How Crisalia works

El pipeline completo tiene cinco mecanismos de reducción de error que actúan en cascada sobre el prompt del usuario.

The full pipeline has five error-reduction mechanisms that act in cascade on the user's prompt.

👤

Prompt del usuarioUser prompt Ej: "w. ¿Cuál es el estado del mercado de bonos argentinos?" E.g.: "w. What is the current state of the Argentine bond market?"

🌐

Mecanismo 1 — Tavily RAG (si "w.")Mechanism 1 — Tavily RAG (if "w.") Búsqueda web en tiempo real. Inyecta fuentes actuales en el contexto. Reduce error en ~47%. Real-time web search. Injects current sources into context. Reduces error by ~47%.

📅

Mecanismo 2 — Inyección de fechaMechanism 2 — Date injection Cada prompt recibe fecha/hora real de Buenos Aires. Elimina errores de razonamiento temporal. Every prompt receives the real Buenos Aires date/time. Eliminates temporal reasoning errors.

Logos

Gemini 2.0 Flash · construye el argumento inicialGemini 2.0 Flash · builds the initial argument

Nous

DeepSeek Chat · examina desde otro ánguloDeepSeek Chat · examines from another angle

Ethos

Claude Haiku · critica y afilaClaude Haiku · critiques and sharpens

🔀

Mecanismo 3 — Ensemble multi-perspectivaMechanism 3 — Multi-perspective Ensemble Tres respuestas independientes generadas en paralelo. La diversidad epistémica reduce el error correlacionado. Reduce error ~34%. Three independent responses generated in parallel. Epistemic diversity reduces correlated error. Reduces error ~34%.

⚔️

Mecanismo 4 — Ronda dialécticaMechanism 4 — Dialectical round Cada rol ve los argumentos de los otros y puede refutar o corregir. Reduce error ~25% adicional. Each role sees the others' arguments and can refute or correct. Reduces error an additional ~25%.

🛡️

Mecanismo 5 — Sanitización XSS inter-LLMMechanism 5 — Inter-LLM XSS sanitization Previene que un rol contamine a los otros con sus errores durante el debate. Prevents one role from contaminating others with its errors during the debate.

✨

Sophia — GPT-4o integra y concluyeSophia — GPT-4o integrates and concludes Integración de las tres perspectivas tras el debate dialéctico. Integration of the three perspectives after the dialectical debate.

// 06b — La ventaja arquitectónica // 06b — The architectural advantage

Cómo Crisalia subvierte la correlación How Crisalia subverts the correlation

Un sistema de votación por mayoría pura no puede rescatar la zona dorada: si 2 modelos votan lo mismo aunque estén equivocados, la mayoría gana y el modelo correcto pierde. Crisalia tiene una salida diferente — la ronda dialéctica donde los roles Logos, Nous y Ethos intercambian argumentos, y Sophia integra la posición más sólida.

A pure majority voting system cannot rescue the golden zone: if 2 models vote the same even when wrong, the majority wins and the correct model loses. Crisalia has a different exit — the dialectical round where Logos, Nous, and Ethos exchange arguments, and Sophia integrates the strongest position.

Los tres escenarios posibles cuando hay error, y cómo los maneja cada arquitectura:

The three possible scenarios when there is an error, and how each architecture handles them:

Escenario 1Scenario 1

2 modelos correctos, 1 equivocado2 models correct, 1 wrong

Escenario 2Scenario 2

2 modelos equivocados (correlacionados), 1 correcto2 models wrong (correlated), 1 correct

→ La zona dorada del diagrama anterior. Aquí se separan los dos sistemas.→ The golden zone from the previous diagram. This is where the two systems diverge.

¿Por qué funciona esto en Crisalia?Why does this work in Crisalia?

Nous (DeepSeek) no solo "vota" — presenta su razonamiento. En la ronda dialéctica, Sophia (GPT-4o) evalúa la solidez del argumento, no la frecuencia de la respuesta. Du et al. (ICML 2024) documentaron casos reales donde todos los agentes arrancaron equivocados y llegaron a la respuesta correcta a través del debate — algo imposible en cualquier sistema de votación pura.

Nous (DeepSeek) doesn't just "vote" — it presents its reasoning. In the dialectical round, Sophia (GPT-4o) evaluates the solidity of the argument, not the frequency of the response. Du et al. (ICML 2024) documented real cases where all agents started wrong and reached the correct answer through debate — something impossible in any pure voting system.

Escenario 3Scenario 3

Los 3 modelos equivocados con la misma respuesta incorrectaAll 3 models wrong with the same incorrect answer

Aquí entra Tavily. Si el prefijo w. está activo, los tres modelos reciben fuentes web reales antes de responder. La tarea cambia de "generar desde memoria" a "extraer desde documento presente en contexto" — y el error correlacionado desaparece porque ninguno de los tres necesita recordar lo que ya está en pantalla.

This is where Tavily comes in. If the prefix w. is active, all three models receive real web sources before responding. The task shifts from "generating from memory" to "extracting from documents present in context" — and the correlated error disappears because none of the three need to remember what's already on screen.

// 07 — Los números reales // 07 — The real numbers

¿Cuánto mejora Crisalia a un LLM solo? How much does Crisalia improve a solo LLM?

Estos números no son proyecciones — están respaldados por mediciones directas de ICML 2024, ICML 2025, NeurIPS 2025 y ACL 2024.

These numbers are not projections — they are backed by direct measurements from ICML 2024, ICML 2025, NeurIPS 2025, and ACL 2024.

Escenario A — Análisis estratégico complejo (p = 20%)Scenario A — Complex strategic analysis (p = 20%)

LLM soloSolo LLM

20.0% error

BASE

Crisalia sin TavilyCrisalia w/o Tavily

9.5% error

−53%

Crisalia con TavilyCrisalia with Tavily

5.5% error

−73%

Escenario B — Razonamiento matemático (GSM8K — medido directamente)Scenario B — Mathematical reasoning (GSM8K — directly measured)

LLM soloSolo LLM

23% error (77% correcto)

BASE

Crisalia debateCrisalia debate

15% error (85% correcto)

−35%

Escenario C — Preguntas fácticas abiertas (SimpleQA)Scenario C — Open factual questions (SimpleQA)

LLM solo

61.8% error

BASE

Crisalia sin Tavily

~38% error

−38%

Crisalia con Tavily

~17% error

−70%

Escenario D — Decisiones ejecutivas / incident response (ene. 2026)Scenario D — Executive decisions / incident response (Jan 2026)

LLM soloSolo LLM

1.7% útil1.7% useful

1.7%

Multi-agent Crisalia

100% útil100% useful

×80

Escenario E — Nous (DeepSeek Chat) como evaluador de respuestas Scenario E — Nous (DeepSeek Chat) as response evaluator

GPT-4o-mini (referencia)GPT-4o-mini (reference)

100% acuerdo (base)100% agreement (base)

REF

DeepSeek Chat (Nous)

93% acuerdo con referenciaagreement with reference

93%

Benchmark interno Crisalia — DeepSeek Chat como evaluador de razonamiento alcanza 93% de acuerdo con GPT-4o-mini. Justifica su uso como rol Nous en evaluación de calidad de argumentos. Internal Crisalia benchmark — DeepSeek Chat as a reasoning evaluator reaches 93% agreement with GPT-4o-mini. Justifies its use as the Nous role in argument quality assessment.

Resumen calibrado con evidencia 2024–2026Summary calibrated with evidence 2024–2026

35–53%

Reducción de error
sin TavilyError reduction
without Tavily

73–80%

Reducción de error
con Tavily activoError reduction
with Tavily active

1.5–2.1×

Factor de mejora
en tareas complejasImprovement factor
on complex tasks

93%

Acuerdo evaluador
Nous vs GPT-4o-miniEvaluator agreement
Nous vs GPT-4o-mini

La versión anterior estimaba 81% y 5.2×. La evidencia de ICML 2025 y NeurIPS 2025 corrige esos números a la baja. Los nuevos son más conservadores, más honestos, y están respaldados por mediciones directas.

The previous version estimated 81% and 5.2×. Evidence from ICML 2025 and NeurIPS 2025 corrects those numbers downward. The new ones are more conservative, more honest, and backed by direct measurements.

// 08 — Honestidad sobre los límites // 08 — Honesty about limits

Cuándo sí y cuándo no When it works and when it doesn't

✓ Crisalia mejora claramente✓ Crisalia clearly improves

Análisis estratégico multidimensional
Multidimensional strategic analysis
Preguntas fácticas con Tavily activo
Factual questions with Tavily active
Decisiones ejecutivas complejas
Complex executive decisions
Cuando se necesita perspectiva cultural diversa (Nous aporta visión Asia-LatAm real)
When diverse cultural perspective is needed (Nous brings genuine Asia-LatAm vision)
Tareas donde la varianza es cara (menos sorpresas malas)
Tasks where variance is costly (fewer bad surprises)

✗ Ganancia mínima o nula✗ Minimal or no gain

Razonamiento matemático puro donde un modelo domina claramente
Pure mathematical reasoning where one model clearly dominates
Errores en "mitos de Internet" absorbidos por todos
Errors in "Internet myths" absorbed by all models
Temas sin fuente web verificable (Tavily no ayuda)
Topics without verifiable web sources (Tavily doesn't help)
Cuando un solo modelo tiene 90%+ accuracy en la tarea
When a single model has 90%+ accuracy on the task
Debates muy largos (el costo de contexto supera la ganancia)
Very long debates (context cost outweighs the gain)

⚡ El truco del "w." — Cuándo usarlo⚡ The "w." trick — When to use it

Escribir el prompt comenzando con w. activa Tavily: búsqueda web en tiempo real que inyecta fuentes actuales antes de que los tres modelos generen su respuesta. Convierte la tarea de "generar desde memoria" en "extraer y sintetizar desde documentos reales". Especialmente poderoso para: mercados financieros, política actual, noticias recientes, datos que cambian frecuentemente.

Starting your prompt with w. activates Tavily: real-time web search that injects current sources before the three models generate their responses. Converts the task from "generating from memory" to "extracting and synthesizing from real documents". Especially powerful for: financial markets, current politics, recent news, frequently-changing data.

      Fuente de la mejora (distribución estimada):
      Source of improvement (estimated distribution):
    

1

Síntesis de perspectivas independientesIndependent perspectives synthesis — funciona incluso con el mismo modelo muestreado N vecesworks even with the same model sampled N times

70–80%

2

Contexto enriquecidoEnriched context — cada rol ve argumentos que no habría generado soloeach role sees arguments it wouldn't have generated alone

15–25%

3

"Debate genuino""Genuine debate" — cambio de posición por argumento, no por presión de mayoríaposition change by argument, not by majority pressure

5–10%

¿Cómo funcionaun LLM y cómoCrisalia lo mejora? How doesan LLM work and howdoes Crisalia improve it?

El primer paso: tokenización The first step: tokenization

Cada token vive en un espacio de significados Each token lives in a meaning space

Cómo el modelo entiende el contexto How the model understands context

La alucinación: cuando la IA inventa con confianza Hallucination: when AI fabricates with confidence

Cuando los tres modelos se equivocan juntos When three models fail together

Cómo funciona Crisalia How Crisalia works

Cómo Crisalia subvierte la correlación How Crisalia subverts the correlation

¿Cuánto mejora Crisalia a un LLM solo? How much does Crisalia improve a solo LLM?

Resumen calibrado con evidencia 2024–2026Summary calibrated with evidence 2024–2026

Cuándo sí y cuándo no When it works and when it doesn't

✓ Crisalia mejora claramente✓ Crisalia clearly improves

✗ Ganancia mínima o nula✗ Minimal or no gain

⚡ El truco del "w." — Cuándo usarlo⚡ The "w." trick — When to use it

¿Cómo funciona
un LLM y cómo
Crisalia lo mejora? How does
an LLM work and how
does Crisalia improve it?