Datos empíricos — n=225 — Abril 2026

Empirical data — n=225 — April 2026

LLM Solo
vs
LLM + Crisalia

LLM Alone
vs
LLM + Crisalia

Benchmark empírico de razonamiento complejo: análisis causal, dilemas éticos, estrategia, falacias lógicas y razonamiento científico.

Empirical benchmark on complex reasoning: causal analysis, ethical dilemmas, strategy, logical fallacies, and scientific reasoning.

4.87 Gemini solo /10 Gemini alone /10

7.47 Crisalia corrector /10 Crisalia as corrector /10

+53% mejora promedio average improvement

// 01

Los cuatro grupos medidos

The four groups measured

Cada prompt fue respondido por los cuatro grupos de forma independiente. Un juez ciego evaluó cada respuesta con una rúbrica de 4 dimensiones (0–10) sin saber qué grupo la generó.

Each prompt was answered independently by all four groups. A blind judge scored each response using a 4-dimension rubric (0–10) without knowing which group produced it.

GPT-4o solo

GPT-4o alone

4.53 / 10

BASE

Gemini solo

Gemini alone

4.87 / 10

BASE

Crisalia corrector
(recibe respuesta Gemini)

Crisalia corrector
(receives Gemini response)

7.47 / 10

+53%

DeepSeek solo
(sin corrección)

DeepSeek alone
(no correction)

5.20 / 10

BASE

Crisalia mejoró la respuesta en 208 de 225 prompts (92.5%). En 0 casos produjo una degradación ≥ 3 puntos. Los tres LLMs sin corrección (Gemini 4.87, GPT-4o 4.53, DeepSeek 5.20) mejoraron a 7.47 / 10 con Crisalia como corrector.

Crisalia improved the response in 208 out of 225 prompts (92.5%). In 0 cases did it produce a degradation of ≥ 3 points. All three solo LLMs (Gemini 4.87, GPT-4o 4.53, DeepSeek 5.20) improved to 7.47 / 10 with Crisalia as corrector.

// 02

Mejora por categoría

Improvement by category

La ventaja de Crisalia no es uniforme. Es mayor donde el razonamiento es más complejo y el error del LLM base es más sistémático.

Crisalia's advantage is not uniform. It is greatest where reasoning is most complex and the base LLM's error is most systematic.

Razonamiento
Estratégico

Strategic
Reasoning

LLM solo LLM alone 3.63

Crisalia 7.38

+3.75 pts

Razonamiento
Científico

Scientific
Reasoning

LLM solo LLM alone 4.29

Crisalia 7.43

+3.14 pts

Dilemas
Éticos

Ethical
Dilemmas

LLM solo LLM alone 5.00

Crisalia 7.50

+2.50 pts

Análisis
Causal

Causal
Analysis

LLM solo LLM alone 5.44

Crisalia 7.44

+2.00 pts

Falacias
Lógicas

Logical
Fallacies

LLM solo LLM alone 5.88

Crisalia 7.63

+1.75 pts

Patrón clave: cuanto más bajo el score base de Gemini, mayor el delta de Crisalia. El sistema aporta más donde el LLM solo más falla.

Key pattern: the lower Gemini's base score, the larger Crisalia's delta. The system contributes most precisely where the solo LLM fails most.

// 03

Mejoras más significativas

Most significant improvements

Prompts donde la diferencia entre el LLM solo y Crisalia fue ≥ 5 puntos. En todos los casos, Gemini producía un análisis superficial o directamente incorrecto.

Prompts where the gap between solo LLM and Crisalia was ≥ 5 points. In all cases, Gemini produced a shallow or outright incorrect analysis.

Estrategia

Strategy

Supermercado tradicional pierde 3% market share anual vs apps de delivery. 200 locales, 15k empleados.

Traditional supermarket losing 3% annual market share to delivery apps. 200 locations, 15k employees.

0 → 10 +10

Ciencia

Science

Nueva terapia psicológica reduce ansiedad 40% vs lista de espera (p<0.001). ¿Qué conclusiones son válidas?

New psychological therapy reduces anxiety 40% vs waitlist (p<0.001). Which conclusions are valid?

0 → 10 +10

Ética

Ethics

Farmacéutica con cura para enfermedad rara a $2M por tratamiento. El equipo argumenta necesidad de recuperar I+D.

Pharma company with cure for rare disease priced at $2M per treatment. Team argues R&D cost recovery.

0 → 4 +4 (mejora)

Estrategia

Strategy

Kodak inventó la cámara digital en 1975 y no la comercializó. Terminó en bancarrota. ¿Qué lecciones estratégicas concretas?

Kodak invented the digital camera in 1975 and didn't commercialize it. Filed for bankruptcy. What are the concrete strategic lessons?

4 → 8 +4

Causal

Países más desiguales tienen más criminalidad. Economista concluye: redistribuir ingreso reduciría el crimen.

More unequal countries have higher crime. Economist concludes: redistributing income would reduce crime.

1 → 6 +5

// 04

Cuándo sí y cuándo no

When it works and when it doesn't

✓ Crisalia mejora claramente

✓ Crisalia clearly improves

Análisis estratégico complejo · Razonamiento científico con datos · Dilemas éticos multi-perspectiva · Análisis causal con variables confusoras · Falacias lógicas no triviales

Complex strategic analysis · Scientific reasoning with data · Multi-perspective ethical dilemmas · Causal analysis with confounders · Non-trivial logical fallacies

✗ Crisalia no mejora

✗ Crisalia does not improve

Trivia factual puntual: Run 1 (n=50) mostró 0% de ganancia neta en preguntas tipo SimpleQA. Crisalia no está diseñado para reemplazar a Google.

Pinpoint factual trivia: Run 1 (n=50) showed 0% net gain on SimpleQA-type questions. Crisalia is not designed to replace a search engine.

⚠ Costo y latencia

⚠ Cost and latency

~$0.015 por prompt y 25–65 segundos vs $0.001 y 1.5s de un LLM solo. Justificado solo para decisiones donde el error es caro.

~$0.015 per prompt and 25–65 seconds vs $0.001 and 1.5s for a solo LLM. Only justified for decisions where errors are costly.

✓ Robustez estadística

✓ Statistical robustness

n=225, σ≈1.8 puntos, potencia estadística suficiente para detectar diferencias de 1.0 punto (α=0.05). Los resultados son reproducibles.

n=225, σ≈1.8 points, sufficient statistical power to detect differences of 1.0 point (α=0.05). Results are reproducible.

// 05

Metodología

Methodology

Diseño del experimento

Experiment design

Prompts Prompts 225 preguntas de razonamiento complejo (causal, ética, estrategia, falacias, científico) 225 complex reasoning questions (causal, ethics, strategy, fallacies, scientific)

Grupos Groups Gemini solo · GPT-4o solo · DeepSeek solo · Crisalia corrector Gemini alone · GPT-4o alone · DeepSeek alone · Crisalia corrector

Juez Judge GPT-4o-mini — ciego a la condición — rúbrica de 4 dimensiones, evaluación ciega GPT-4o-mini — blind to condition — 4-dimension rubric, blind evaluation

Rúbrica D1 Precisión factual (0–3) · D2 Razonamiento (0–3) · D3 Perspectivas (0–2) · D4 Accionabilidad (0–2) = 0–10 D1 Factual accuracy (0–3) · D2 Reasoning (0–3) · D3 Perspectives (0–2) · D4 Actionability (0–2) = 0–10

Fecha Date 2026-04-03

Modelos Models Gemini 2.0 Flash · GPT-4o · DeepSeek-chat · Claude (Crisalia)

Limitación conocida: el juez puede tener sesgo hacia respuestas más elaboradas — lo que favorece a Crisalia por diseño. Run 3 (pendiente) medirá el efecto de búsqueda web (Tavily ON vs OFF) con grupo control adicional.

Known limitation: the judge may be biased toward more elaborated responses — which structurally favors Crisalia. Run 3 (pending) will measure the web search effect (Tavily ON vs OFF) with an additional control group.

LLM SolovsLLM + Crisalia

LLM AlonevsLLM + Crisalia

Los cuatro grupos medidos

The four groups measured

Mejora por categoría

Improvement by category

Mejoras más significativas

Most significant improvements

Cuándo sí y cuándo no

When it works and when it doesn't

✓ Crisalia mejora claramente

✓ Crisalia clearly improves

✗ Crisalia no mejora

✗ Crisalia does not improve

⚠ Costo y latencia

⚠ Cost and latency

✓ Robustez estadística

✓ Statistical robustness

Metodología

Methodology

Diseño del experimento

Experiment design

LLM Solo
vs
LLM + Crisalia

LLM Alone
vs
LLM + Crisalia