Análisis técnico visual — v3.0 — Marzo 2026Visual Technical Analysis — v3.0 — March 2026
¿Cómo funciona un LLM y cómo Crisalia lo mejora?How does an LLM work and how does Crisalia improve it?
Tokenización, vectores, atención, alucinación — y por qué tres modelos en debate cometen menos errores que uno soloTokenization, vectors, attention, hallucination — and why three models in debate make fewer errors than one alone
DESPLAZÁ PARA EXPLORARSCROLL TO EXPLORE↓
// 01 — Fundamentos// 01 — Foundations
El primer paso: tokenizaciónThe first step: tokenization
Un LLM nunca procesa letras ni palabras completas. Primero pica el texto en fragmentos llamados tokens. Puede ser una palabra, parte de una palabra, un número o un símbolo.
An LLM never processes individual letters or complete words. It first breaks the text into fragments called tokens. A token can be a word, part of a word, a number, or a symbol.
Cada token se convierte en un número entero. La IA solo trabaja con esos números internamente.
Each token is converted into an integer. The AI works exclusively with those numbers internally.
Texto de entrada:Input text:
Tokens resultantes:Resulting tokens:
¿Por qué importa? Un texto de 1000 palabras produce ~1300 tokens. El modelo procesa esos ~1300 números en cascada a través de cientos de capas matemáticas. Todo lo que parece "comprensión de lenguaje" es, en su base, aritmética con esos números.
Why does it matter? A 1,000-word text produces ~1,300 tokens. The model processes those ~1,300 numbers in cascade through hundreds of mathematical layers. Everything that looks like "language understanding" is, at its core, arithmetic with those numbers.
// 02 — Geometría del significado// 02 — Geometry of meaning
Cada token vive en un espacio de significadosEach token lives in a meaning space
Cada número-token se transforma en una lista de 4096 (o más) números: un vector. Ese vector es como una dirección GPS en un mapa de significados.
Each number-token is transformed into a list of 4,096 (or more) numbers: a vector. That vector is like a GPS coordinate in a map of meanings.
Las palabras con significado parecido quedan geométricamente cerca. Esta proximidad no fue programada — emergió del entrenamiento en billones de palabras.
Words with similar meaning end up geometrically close. This proximity was not programmed — it emerged from training on trillions of words.
La operación famosa: Rey − Hombre + Mujer ≈ Reina. Esto funciona porque los vectores preservan relaciones semánticas. No es magia — es geometría aprendida del lenguaje humano.
The famous operation: King − Man + Woman ≈ Queen. This works because vectors preserve semantic relationships. It's not magic — it's geometry learned from human language.
// 03 — Mecanismo de atención// 03 — Attention mechanism
Cómo el modelo entiende el contextoHow the model understands context
Al procesar una palabra, el modelo le "presta atención" a todas las demás para decidir su significado. Hacé clic en una palabra para ver qué peso le asigna el modelo a cada parte de la oración.
When processing a word, the model "pays attention" to all others to determine its meaning. Click a word to see what weight the model assigns to each part of the sentence.
Pesos de atención desde la palabra seleccionada →Attention weights from selected word →
Seleccioná una palabra para ver cómo el modelo determina su significado.Click a word to see how the model determines its meaning.
Por eso "banco" puede significar institución financiera o mueble de plaza dependiendo del contexto. El mecanismo de atención mira toda la oración simultáneamente, no palabra por palabra.
That's why "bank" can mean a financial institution or a park bench depending on context. The attention mechanism looks at the entire sentence simultaneously, not word by word.
// 04 — El problema central// 04 — The core problem
La alucinación: cuando la IA inventa con confianzaHallucination: when AI fabricates with confidence
El modelo genera el texto que estadísticamente suena más correcto según todo lo que leyó. A veces ese texto suena impecable pero es falso. El modelo no lo sabe — no tiene mecanismo interno para verificar sus propias afirmaciones.
The model generates text that statistically sounds most correct based on everything it read. Sometimes that text sounds impeccable but is false. The model doesn't know — it has no internal mechanism to verify its own claims.
¿Qué tan frecuente es? Depende radicalmente del tipo de tarea:
How frequent is it? It depends radically on the type of task:
Hallazgo crítico 2025: Los modelos de razonamiento (DeepSeek-R1, o1, GPT-5) son más propensos a alucinaciones de faithfulness que los modelos base. DeepSeek-R1: 14.3% vs DeepSeek-V3: 3.9%. Más inteligente no significa más honesto con las fuentes.
Critical finding 2025:Reasoning models (DeepSeek-R1, o1, GPT-5) are more prone to faithfulness hallucinations than base models. DeepSeek-R1: 14.3% vs DeepSeek-V3: 3.9%. Smarter does not mean more honest with sources.
// 05 — Correlación de errores// 05 — Error correlation
Cuando los tres modelos se equivocan juntosWhen three models fail together
Un estudio de ICML 2025 midió algo sorprendente: cuando dos LLMs se equivocan en la misma pregunta, el 60% de las veces dicen la misma respuesta incorrecta.
An ICML 2025 study measured something striking: when two LLMs are wrong on the same question, 60% of the time they give the same incorrect answer.
¿Por qué? Todos aprendieron de Internet. Si Internet repite un error, todos lo absorben. Con tres modelos distintos el mapa de errores compartidos se vuelve más complejo — y ahí aparece el espacio que Crisalia puede explotar.
Why? They all learned from the Internet. If the Internet repeats an error, all models absorb it. With three different models the map of shared errors becomes more complex — and that's where the space Crisalia can exploit appears.
Zonas de error entre Claude · Gemini · DeepSeekError zones between Claude · Gemini · DeepSeek
Zona rojaRed zone
Los 3 fallan con la misma respuesta. Ni voting ni debate pueden corregirlo.
All 3 fail with the same answer. Neither voting nor debate can fix it.
Zona doradaGolden zone
2 fallan, 1 tiene razón. Voting puro pierde 2:1. Crisalia puede rescatarlo.
2 fail, 1 is correct. Pure voting loses 2:1. Crisalia can rescue it.
Zona verdeGreen zone
Solo 1 falla. La mayoría gana fácil, con o sin debate.
Only 1 fails. Majority wins easily, with or without debate.
Kim et al., ICML 2025 — medición directa sobre 350+ LLMs · ρ = 0.60Kim et al., ICML 2025 — direct measurement on 350+ LLMs · ρ = 0.60
// 06 — La arquitectura// 06 — The architecture
Cómo funciona CrisaliaHow Crisalia works
El pipeline completo tiene cinco mecanismos de reducción de error que actúan en cascada sobre el prompt del usuario.
The full pipeline has five error-reduction mechanisms that act in cascade on the user's prompt.
👤
Prompt del usuarioUser promptEj: "w. ¿Cuál es el estado del mercado de bonos argentinos?"E.g.: "w. What is the current state of the Argentine bond market?"
🌐
Mecanismo 1 — Tavily RAG (si "w.")Mechanism 1 — Tavily RAG (if "w.")Búsqueda web en tiempo real. Inyecta fuentes actuales en el contexto. Reduce error en ~47%.Real-time web search. Injects current sources into context. Reduces error by ~47%.
📅
Mecanismo 2 — Inyección de fechaMechanism 2 — Date injectionCada prompt recibe fecha/hora real de Buenos Aires. Elimina errores de razonamiento temporal.Every prompt receives the real Buenos Aires date/time. Eliminates temporal reasoning errors.
Logos
Gemini 2.0 Flash · construye el argumento inicialGemini 2.0 Flash · builds the initial argument
Nous
DeepSeek Chat · examina desde otro ánguloDeepSeek Chat · examines from another angle
Ethos
Claude Haiku · critica y afilaClaude Haiku · critiques and sharpens
🔀
Mecanismo 3 — Ensemble multi-perspectivaMechanism 3 — Multi-perspective EnsembleTres respuestas independientes generadas en paralelo. La diversidad epistémica reduce el error correlacionado. Reduce error ~34%.Three independent responses generated in parallel. Epistemic diversity reduces correlated error. Reduces error ~34%.
⚔️
Mecanismo 4 — Ronda dialécticaMechanism 4 — Dialectical roundCada rol ve los argumentos de los otros y puede refutar o corregir. Reduce error ~25% adicional.Each role sees the others' arguments and can refute or correct. Reduces error an additional ~25%.
🛡️
Mecanismo 5 — Sanitización XSS inter-LLMMechanism 5 — Inter-LLM XSS sanitizationPreviene que un rol contamine a los otros con sus errores durante el debate.Prevents one role from contaminating others with its errors during the debate.
✨
Sophia — GPT-4o integra y concluyeSophia — GPT-4o integrates and concludesIntegración de las tres perspectivas tras el debate dialéctico.Integration of the three perspectives after the dialectical debate.
// 06b — La ventaja arquitectónica// 06b — The architectural advantage
Cómo Crisalia subvierte la correlaciónHow Crisalia subverts the correlation
Un sistema de votación por mayoría pura no puede rescatar la zona dorada: si 2 modelos votan lo mismo aunque estén equivocados, la mayoría gana y el modelo correcto pierde. Crisalia tiene una salida diferente — la ronda dialéctica donde los roles Logos, Nous y Ethos intercambian argumentos, y Sophia integra la posición más sólida.
A pure majority voting system cannot rescue the golden zone: if 2 models vote the same even when wrong, the majority wins and the correct model loses. Crisalia has a different exit — the dialectical round where Logos, Nous, and Ethos exchange arguments, and Sophia integrates the strongest position.
Los tres escenarios posibles cuando hay error, y cómo los maneja cada arquitectura:
The three possible scenarios when there is an error, and how each architecture handles them:
→ La zona dorada del diagrama anterior. Aquí se separan los dos sistemas.→ The golden zone from the previous diagram. This is where the two systems diverge.
¿Por qué funciona esto en Crisalia?Why does this work in Crisalia?
Nous (DeepSeek) no solo "vota" — presenta su razonamiento. En la ronda dialéctica, Sophia (GPT-4o) evalúa la solidez del argumento, no la frecuencia de la respuesta. Du et al. (ICML 2024) documentaron casos reales donde todos los agentes arrancaron equivocados y llegaron a la respuesta correcta a través del debate — algo imposible en cualquier sistema de votación pura.
Nous (DeepSeek) doesn't just "vote" — it presents its reasoning. In the dialectical round, Sophia (GPT-4o) evaluates the solidity of the argument, not the frequency of the response. Du et al. (ICML 2024) documented real cases where all agents started wrong and reached the correct answer through debate — something impossible in any pure voting system.
Escenario 3Scenario 3
Los 3 modelos equivocados con la misma respuesta incorrectaAll 3 models wrong with the same incorrect answer
Aquí entra Tavily. Si el prefijo w. está activo, los tres modelos reciben fuentes web reales antes de responder. La tarea cambia de "generar desde memoria" a "extraer desde documento presente en contexto" — y el error correlacionado desaparece porque ninguno de los tres necesita recordar lo que ya está en pantalla.
This is where Tavily comes in. If the prefix w. is active, all three models receive real web sources before responding. The task shifts from "generating from memory" to "extracting from documents present in context" — and the correlated error disappears because none of the three need to remember what's already on screen.
// 07 — Los números reales// 07 — The real numbers
¿Cuánto mejora Crisalia a un LLM solo?How much does Crisalia improve a solo LLM?
Estos números no son proyecciones — están respaldados por mediciones directas de ICML 2024, ICML 2025, NeurIPS 2025 y ACL 2024.
These numbers are not projections — they are backed by direct measurements from ICML 2024, ICML 2025, NeurIPS 2025, and ACL 2024.
Escenario A — Análisis estratégico complejo (p = 20%)Scenario A — Complex strategic analysis (p = 20%)
LLM soloSolo LLM
20.0% error
BASE
Crisalia sin TavilyCrisalia w/o Tavily
9.5% error
−53%
Crisalia con TavilyCrisalia with Tavily
5.5% error
−73%
Escenario B — Razonamiento matemático (GSM8K — medido directamente)Scenario B — Mathematical reasoning (GSM8K — directly measured)
LLM soloSolo LLM
23% error (77% correcto)
BASE
Crisalia debateCrisalia debate
15% error (85% correcto)
−35%
Escenario C — Preguntas fácticas abiertas (SimpleQA)Scenario C — Open factual questions (SimpleQA)
LLM solo
61.8% error
BASE
Crisalia sin Tavily
~38% error
−38%
Crisalia con Tavily
~17% error
−70%
Escenario D — Decisiones ejecutivas / incident response (ene. 2026)Scenario D — Executive decisions / incident response (Jan 2026)
LLM soloSolo LLM
1.7% útil1.7% useful
1.7%
Multi-agent Crisalia
100% útil100% useful
×80
Escenario E — Nous (DeepSeek Chat) como evaluador de respuestasScenario E — Nous (DeepSeek Chat) as response evaluator
GPT-4o-mini (referencia)GPT-4o-mini (reference)
100% acuerdo (base)100% agreement (base)
REF
DeepSeek Chat (Nous)
93% acuerdo con referenciaagreement with reference
93%
Benchmark interno Crisalia — DeepSeek Chat como evaluador de razonamiento alcanza 93% de acuerdo con GPT-4o-mini. Justifica su uso como rol Nous en evaluación de calidad de argumentos.Internal Crisalia benchmark — DeepSeek Chat as a reasoning evaluator reaches 93% agreement with GPT-4o-mini. Justifies its use as the Nous role in argument quality assessment.
Resumen calibrado con evidencia 2024–2026Summary calibrated with evidence 2024–2026
35–53%
Reducción de error sin TavilyError reduction without Tavily
73–80%
Reducción de error con Tavily activoError reduction with Tavily active
1.5–2.1×
Factor de mejora en tareas complejasImprovement factor on complex tasks
93%
Acuerdo evaluador Nous vs GPT-4o-miniEvaluator agreement Nous vs GPT-4o-mini
La versión anterior estimaba 81% y 5.2×. La evidencia de ICML 2025 y NeurIPS 2025 corrige esos números a la baja. Los nuevos son más conservadores, más honestos, y están respaldados por mediciones directas.
The previous version estimated 81% and 5.2×. Evidence from ICML 2025 and NeurIPS 2025 corrects those numbers downward. The new ones are more conservative, more honest, and backed by direct measurements.
// 08 — Honestidad sobre los límites// 08 — Honesty about limits
Cuándo sí y cuándo noWhen it works and when it doesn't
Cuando se necesita perspectiva cultural diversa (Nous aporta visión Asia-LatAm real)
When diverse cultural perspective is needed (Nous brings genuine Asia-LatAm vision)
Tareas donde la varianza es cara (menos sorpresas malas)
Tasks where variance is costly (fewer bad surprises)
✗ Ganancia mínima o nula✗ Minimal or no gain
Razonamiento matemático puro donde un modelo domina claramente
Pure mathematical reasoning where one model clearly dominates
Errores en "mitos de Internet" absorbidos por todos
Errors in "Internet myths" absorbed by all models
Temas sin fuente web verificable (Tavily no ayuda)
Topics without verifiable web sources (Tavily doesn't help)
Cuando un solo modelo tiene 90%+ accuracy en la tarea
When a single model has 90%+ accuracy on the task
Debates muy largos (el costo de contexto supera la ganancia)
Very long debates (context cost outweighs the gain)
⚡ El truco del "w." — Cuándo usarlo⚡ The "w." trick — When to use it
Escribir el prompt comenzando con w. activa Tavily: búsqueda web en tiempo real que inyecta fuentes actuales antes de que los tres modelos generen su respuesta. Convierte la tarea de "generar desde memoria" en "extraer y sintetizar desde documentos reales". Especialmente poderoso para: mercados financieros, política actual, noticias recientes, datos que cambian frecuentemente.
Starting your prompt with w. activates Tavily: real-time web search that injects current sources before the three models generate their responses. Converts the task from "generating from memory" to "extracting and synthesizing from real documents". Especially powerful for: financial markets, current politics, recent news, frequently-changing data.
Fuente de la mejora (distribución estimada):Source of improvement (estimated distribution):
1
Síntesis de perspectivas independientesIndependent perspectives synthesis — funciona incluso con el mismo modelo muestreado N vecesworks even with the same model sampled N times
70–80%
2
Contexto enriquecidoEnriched context — cada rol ve argumentos que no habría generado soloeach role sees arguments it wouldn't have generated alone
15–25%
3
"Debate genuino""Genuine debate" — cambio de posición por argumento, no por presión de mayoríaposition change by argument, not by majority pressure