Cada prompt fue respondido por los cuatro grupos de forma independiente. Un juez ciego evaluó cada respuesta con una rúbrica de 4 dimensiones (0–10) sin saber qué grupo la generó.
Each prompt was answered independently by all four groups. A blind judge scored each response using a 4-dimension rubric (0–10) without knowing which group produced it.
GPT-4o solo
GPT-4o alone
BASE
Gemini solo
Gemini alone
BASE
Crisalia corrector
(recibe respuesta Gemini)
Crisalia corrector
(receives Gemini response)
+53%
DeepSeek solo
(sin corrección)
DeepSeek alone
(no correction)
BASE
Crisalia mejoró la respuesta en 208 de 225 prompts (92.5%).
En 0 casos produjo una degradación ≥ 3 puntos. Los tres LLMs sin corrección
(Gemini 4.87, GPT-4o 4.53, DeepSeek 5.20) mejoraron a
7.47 / 10 con Crisalia como corrector.
Crisalia improved the response in 208 out of 225 prompts (92.5%).
In 0 cases did it produce a degradation of ≥ 3 points. All three solo LLMs
(Gemini 4.87, GPT-4o 4.53, DeepSeek 5.20) improved to
7.47 / 10 with Crisalia as corrector.