Horizon Nexus Journal | Vol . 0 4 | Núm . 0 2 | Abr Jun | 202 6 | www.horizonnexusjournal.editorialdoso.com ISSN: 3073 - 1275 171 Artículo Evaluación comparativa de Claude y ChatGPT en la generación de consultas SQL Comparative evaluation of Claude and ChatGPT in the generation of SQL queries David Fabián Zúñiga Ortiz 1 * , María José Cobeña Ureta 2 , Victor Franklin Sánchez Alvarado 3 * , Josselyn Valeria Flores Peña 4 y Jeannette Alexandra Laverde Mena 5 1 Escuela Politécnica Nacional , Ecuador , Quito ; https://orcid.org/0000 - 0001 - 7541 - 0627 2 Investigador a independiente , Ecuador , El Empalme ; https://orcid.org/0009 - 0003 - 0891 - 8510 , mariajose941@hotmail.es 3 Ministerio de Educación, Deporte y Cultura , Ecuador , Quevedo ; https://orcid.org/0009 - 0004 - 6567 - 4687 , vito_frank@hotmail.com 4 Unidad Educativa San Francisco de Asis , Ecuador , Valencia ; https://orcid.org/0009 - 0001 - 8435 - 4425 , jfloresp16@unemi.edu.ec 5 Centro de Revisión Técnica Vehicular de Balzar , Ecuador , Balzar ; https://orcid.org/0000 - 0002 - 1721 - 5679 , jlaverde@asogrup.org * Correspondencia: davidzunigaortiz92@gmail.com https://doi.org/10.70881/hnj/v4/n2/1 38 Resumen: La inteligencia artificial generativa ha cambiado la forma en la que funciona el desarrollo de software, sin embargo, la capacidad que tienen estos modelos para generar consultas SQL que sean correctas, optimizadas y robustas todavía no ha sido evaluada si stemáticamente en la literatura académica en español. Con el objetivo de llenar este vacío , se realizó una evaluación experimental comparativa entre dos asistentes de inteligencia artificial, Claude 4.6 Sonnet (Anthropic) y ChatGPT - 4o (OpenAI), utilizando un esquema de base de datos relacional orientado a la gestión universitaria el cual se estandarizó y se crearon 12 casos de prueba los cuales se distribuyeron en tres niveles de complejidad: básico, intermedio y avanzado. Para la evaluación s e aplicó una r úbrica de cinco dimensiones , corrección sintáctica, corrección lógica, optimización, manejo de casos borde y claridad de la explicación , con un puntaje máximo de 120 puntos. Los resultados obtenidos mostraron diferencias significativas entre ambos asistent es, más en las dimensiones de corrección lógica y en el manejo de casos borde, con diferencias que se notaron de forma progresiva en los niveles de mayor complejidad . Se concluye que ninguna herramienta es superior , y que la selección de estas herramientas debe de realizarse en función a los requerimientos . Palabras clave: inteligencia artificial generativa; modelos de lenguaje de gran escala; generación de consultas SQL; evaluación comparativa; bases de datos relacionales. Abstract: Generative artificial intelligence has changed the way software development works; however, the ability of these models to generate SQL queries that are correct, optimized, and robust has not yet been systematically evaluated in the Spanish - language academ ic literature. With the aim of filling this gap, a comparative experimental evaluation was conducted between two artificial intelligence assistants, Claude 4.6 Sonnet (Anthropic) and ChatGPT - 4o (OpenAI), using a relational database schema oriented toward u niversity management, which was standardized, and 12 test cases were created and distributed across three levels of complexity: basic, intermediate, and advanced. For the evaluation, a five - dimension rubric was applied syntactic correctness, logical correc tness, optimization, edge case handling, and clarity of explanation with a maximum score Cita: Zúñiga Ortiz, D. F., Cobeña Ureta, M. J., Sánchez Alvarado, V. F., Flores Peña, J. V., & Laverde Mena, J. A. (2026). Evaluación comparativa de Claude y ChatGPT en la generación de consultas SQL. Horizon Nexus Journal , 4 (2), 171 - 190. https://doi.org/10.70881/hnj/ v4/n2/138 Recibido: 04 / 05 /20 26 Revisado: 21 / 06 /20 26 Aceptado: 23 / 06 /20 26 Publicado: 2 4 / 06 /20 26 Copyright: © 202 6 por los autores . Este artículo es un artículo de acceso abierto distribuido bajo los términos y condiciones de la Licencia Creative Commons, Atribución - NoComercial 4.0 Internacional. ( CC BY - NC ) . ( https://creativecommons.org/lice nses/by - nc/4.0/ )
Horizon Nexus Journal Horizon Nexus Journal | Vol.0 4 | Núm 0 2 | Abr Jun | 202 6 | www.horizonnexusjournal.editorialdoso.com 172 of 120 points. The results obtained showed significant differences between the two assistants, particularly in the dimensions of logical correctness and edge case hand ling, with differences that became progressively more noticeable at higher levels of complexity. It is concluded that neither tool is superior, and that the selection of these tools should be made based on specific requirements. Keywords: generative artificial intelligence; large language models; SQL query generation; comparative evaluation; relational databases. 1. Introducción La inteligencia artificial generativa es una de las transformaciones más importantes en el ámbito del desarrollo de software actual. Los modelos de lenguaje de gran escala (LLM) tienen gran capacidad para asistir en tareas que comprenden desde la escritura de código hasta la generación de documentación técnica, cambiando y optimizando los métodos y flujos de trabajo de los desarrolladores a nivel mundial (Brown et al., 2020; Zhao et al., 2023; Hou et al., 2023) . Considerando este contexto, el lenguaje de consulta estructurado (SQL) es uno de los campos en el cual se realiza mayormente la aplicación práctica , debido a que prácticamente todo sistema de información actual necesita interacción con bases de datos , en su gran mayoría re lacionales (Ramakrishnan & Gehrke, 2003; Codd, 1970) . Traducir lenguaje natural a consultas SQL, lo cual es conocido como text - toSQL sigue siendo uno de los problemas abiertos más importantes en el procesamiento de lenguaje natural. Conocer la sintaxis del lenguaje es solo el punto de p artida; el principal obstáculo aparece cuando hay que interpretar cómo está organizada la base de datos, cuáles son las reglas de negocio y bajo qué criterios una consulta resulta más eficiente en la práctica (Deng et al., 2022; Qin et al., 2022) . Los LLM han dado señales prometedoras en pruebas controladas, pero ese rendimiento cambia cuando el esquema se complica o cuando la consulta exige encadenar varias condiciones lógicas al mismo tiempo, ahí es donde los modelos empiezan a tener fallas. (Guo et al., 2019; Shi et al., 2024; Yu et al., 2018) . El recorrido por la literatura muestra un campo que crece rápido, pero que todavía tiene vacíos difíciles de ignorar . Por ejemplo, Guo et al. ( 2019) proponen el benchmark Spider, evidenciando algo que muchos sospechaban; cuando los esquemas involucran varias tablas relacionadas, la precisión de los sistemas text - to - SQL cae de forma bastante notoria. Años después , Rajkumar et al. ( 2022) pusieron a prueba GPT - 3 en esa misma tarea y los resultados confirmaron el patrón, las consultas con JOIN
Horizon Nexus Journal Horizon Nexus Journal | Vol.0 4 | Núm 0 2 | Abr Jun | 202 6 | www.horizonnexusjournal.editorialdoso.com 173 entre múltiples tablas s eguían siendo un punto de inflación para el modelo. Por otra parte, Poesia et al. ( 2022) aportaron algo distinto: en lug ar de quedarse con la corrección sintáctica como único criterio, propusieron verificar también si el código generado era lógicamente válido al ejecutarlo, lo que abrió una forma más honesta de medir el desempeño real. Este trabajo parte precisamente de ese vacío. La idea principal fue diseñar un protocolo experimental que sea reproducible y verificable, y desde ahí comparar como se desempeña n los modelos Claude y ChatGPT - 4 cuando se les pide generar consultas SQL sobre un mismo esquema relacional. La evalua ción y comparación no estuvo limitada a revisar la correcta ejecución o no de la consulta obtenida por estos modelos; se evaluaron cinco aspectos en concretos, corrección sintáctica, corrección lógica, optimización, manejo de casos borde y claridad en la e xplicación entregada por cada modelo al usuario. La hipótesis de este trabajo sostiene que los dos asistentes no se comportan igual a medida que la complejidad de lo que se les pide aumenta, y que esas diferencias son suficientemente consistentes como para ser medidas . El artículo está organizado de la siguiente forma : la sección 2 describe los materiales y el método seguido ; la sección 3 reporta los resultados obtenidos ; la sección 4 discute su significado ; y la sección 5 cierra con las conclusiones y algu nas recomendaciones prácticas . 2. Materiales y Métodos 2.1. Diseño del estudio Para este estudio se optó por un diseño experimental comparativo - descriptivo, donde cada asistente de IA actuó como unidad independiente de análisis (Hernández - Sampieri et al., 2014; Creswell & Creswell, 2018) . El enfoque fue cuantitativ o con alcance explicativo - comparativo , lo que se buscaba, era detectar si existían diferencias reales en como respondía cada modelo cuando las condiciones de pruebas se mantenían fijas . Todo se ejecutó bajo un entorno computacional controlado, sin participaciones externas que pudieran alterar los resultados, en términos metodológicos esto corresponde a una investigación de laboratorio.
Horizon Nexus Journal Horizon Nexus Journal | Vol.0 4 | Núm 0 2 | Abr Jun | 202 6 | www.horizonnexusjournal.editorialdoso.com 174 Dado que en el presente estudio no se involucró personas como sujetos de análisis, no fue necesario tramitar consentimientos informado ni someter el protocolo a un comité de ética. Lo que si se cuidó fue que en cada una de las etapas el proceso fuera completamente transparente: los prompts utilizados, los criterios de evaluación y los datos obtenidos quedaron di sponibles en un repositorio público de GitHub, de modo que cualquier investigador pueda revisar, auditar o replicar este experimento si lo considera pertinente. 2.2. Herramientas evaluadas y período de pruebas Para el desarrollo de este estudio se emplear on dos asistentes de inteligencia artificial de uso general: Claude Sonnet 4.6, desarrollado por Anthropic, y GPT - 4 o , desarrollado por OpenAI. Ambas herramientas fueron consultadas únicamente a través de sus plataformas web oficiales, Claude.ai y chatgpt.c om respectivamente. Con el objetivo de asegurar que cada interacción partiera sin información contextual previa, todas las sesiones fueron iniciadas desde cero. La recolección de datos estuvo a cargo de cinco evaluadores independientes, quienes operaron b ajo condiciones técnicas homogéneas: un único equipo de cómputo, la misma versión del sistema gestor de bases de datos y una conexión de red compartida. Esta estandarización del entorno buscó disminuir las variaciones atribuibles a factores externos como e l sesgo propio de las apreciaciones individuales. Las pruebas fueron realizadas el 9 de junio de 2026, momento en que ambos asistentes se encontraban disponibles en las versiones públicas descritas previamente. Para el desarrollo de la investigación se con tó con dos ordenadores de escritorios de idénticas características: procesador Intel Core i7 - 11700 a 2,50 GHz, 16 GB de memoria RAM DDR4 a 2133 MT/s, una tarjeta gráfica NVIDIA GeForce GTX 1650 con 4 GB de memoria dedicada, y el sistema operativo Windows 1 1 Home de 64 bits (versión 25H2, compilación 26200.8457). Como sistema gestor de bases de datos se utilizó Microsoft SQL Server 2019 Express Edition arquitectura de 64 bits (build 15.0.2000.5), cuya administración se la realizó mediante SQL Server Manageme nt Studio en su versión 19.3.
H}]}v N˘ J}vo H}]}v N˘ J}vo n V}o X n N•u n A t Jv n n ``` XZ}]}vv˘i}vo X]}]o}} X}u æ 2.3. Esquema de base de datos Con el objetivo de asegurar condiciones equitativas para ambos asistentes y que los resultados puedan ser replicables por cualquier investigador, se elaboró un esquema relacional propio basado en un entorno académico universitario. El esquema quedó conformado por cinco tablas vinculadas entre sí a través de claves foráneas. ESTUDIANTE (id_estudiante, nombre, apellido, cedula, fecha_nacimiento, id_carrera); CARRERA (id_carrera, nombre_carrera, facul tad, creditos_totales); MATERIA (id_materia, nombre_materia, creditos, id_carrera); MATRICULA (id_matricula, id_estudiante, id_materia, periodo, nota_final, estado); DOCENTE (id_docente, nombre, apellido, titulo, id_materia). Las relaciones de clave foránea entre las tablas permitieron evaluar consultas que requerían operaciones JOIN, subconsultas y funciones de ventana, incrementando la complejidad progresiva del esquema. 2.4. Casos de prueba Se elaboraron un total de 12 casos de prueba para esta evaluación, agrupados en tres niveles de dificultad: básico (C1 C4), intermedio (C5 C8) y avanzado (C9 C12). Para cada caso se definió un prompt estandarizado en español, enviado a ambos asistentes sin contexto adicional. El diseño de prompts estandarizados en lenguaje natural sigue las recomendaciones de ingeniería de prompts documentadas para tareas de generación de código (White et al., 2023) . El prompt siguió el siguiente formato: "Dado el siguiente esquema de base de datos [esquema], genera una consulta SQL que [requerimiento]. Explica brevemente cómo funciona la consulta." Los casos de prueba se presentan en la Tabla 1. Tabla 1. Casos de prueba por nivel de complejidad # Requerimiento de la consulta Nivel 1 Listar todos los estudiantes con su nombre completo y carrera. Básico 2 Obtener los estudiantes que aprobaron todas sus materias (nota >= 7). Básico 3 Contar cuántos estudiantes hay por carrera. Básico 4 Mostrar las materias con más de 3 créditos ordenadas de mayor a menor. Básico 5 Obtener el promedio de notas por materia usando JOIN entre tablas. Intermedio 6 Listar los 5 estudiantes con mejor promedio general. Intermedio
H}]}v N˘ J}vo H}]}v N˘ J}vo n V}o X n N•u n A t Jv n n ``` XZ}]}vv˘i}vo X]}]o}} X}u 7 Encontrar estudiantes matriculados en más de 3 materias el mismo periodo. Intermedio 8 Obtener docentes que enseñan materias sin estudiantes matriculados. Intermedio 9 Calcular el porcentaje de aprobación por carrera con subconsulta. Avanzado 10 Listar estudiantes que reprobaron la misma materia más de una vez. Avanzado 11 Obtener la materia con mayor variación de notas (desviación estándar). Avanzado 12 Generar un ranking de estudiantes por facultad usando funciones de ventana. Avanzado 2.5. Métricas de evaluación Para cada caso de prueba se aplicó una rúbrica de evaluación conformada por cinco dimensiones, calificadas individualmente en una escala de 0 a 2 puntos, lo que equivale a un máximo de 10 puntos por caso y a un total de 120 puntos para el conjunto de los 1 2 casos evaluados. Esta forma de construcción de rúbricas analíticas constituye un método ampliamente utilizado para la evaluación objetiva en el ámbito de la investigación educativa y de sistemas (Brookhart, 2013) . Las dimensiones evaluadas fueron las siguientes: Corr ección sintáctica (CS): se verificó que la consulta SQL fuera ejecutable sin errores de sintaxis en el motor de base de datos (0 = error grave, 1 = error menor corregible, 2 = ejecución sin errores); Corrección lógica (CL): se comprobó que la consulta devolviera el resultado esperado al ejecutarse con datos de prueba reales (0 = resultado incorrecto, 1 = parcialmente correcto, 2 = completamente correcto); Optimización (OP): se evaluó que la consulta evitara redundancias, emp leara índices apropiados y no realizara operaciones innecesarias (0 = muy ineficiente, 1 = aceptable, 2 = optimizada); Manejo de casos borde (CB): se verificó el comportamiento de la consulta ante valores NULL, tablas vacías o condiciones extremas (0 = no considera casos borde, 1 = considera algunos, 2 = manejo completo); Claridad de explicación (CE): se valoró que la explicación generada por la IA fuera correcta, comprensible y útil para el aprendizaje (0 = incorrecta o ausente, 1 = parcial, 2 = completa y correcta). La rúbrica completa con los criterios por dimensión se presenta en la Tabla 2.
H}]}v N˘ J}vo H}]}v N˘ J}vo n V}o X n N•u n A t Jv n n ``` XZ}]}vv˘i}vo X]}]o}} X}u Tabla 2. Rúbrica de evaluación por dimensión Dimensión 0 puntos 1 punto 2 puntos Peso CS - Corrección sintáctica Error que impide ejecución Error menor, fácil de corregir Ejecuta sin errores 20% CL - Corrección lógica Resultado completamente erróneo Resultado parcialmente correcto Resultado 100% correcto 20% OP - Optimización Consulta redundante o muy lenta Aceptable pero mejorable Uso eficiente de joins e índice s 20% CB - Casos borde No considera NULL ni vacíos Considera algunos casos Manejo completo y robusto 20% CE - Claridad explicación Incorrecta o ausente Parcial o confusa Clara, correcta y completa 20% 2.6. Procedimiento El procedimiento experimental siguió los siguientes pasos: (1) se presentó el esquema completo de la base de datos al inicio de cada sesión nueva con cada asistente; (2) se envió el prompt estandarizado para cada caso de prueba; (3) se copió la consulta SQ L generada y se ejecutó en un entorno SQL SERVER con datos de prueba precargados; (4) se registraron los resultados en la rúbrica de evaluación; (5) se repitió el proceso de forma independiente para el segundo asistente. Las pruebas fueron realizadas por c inco evaluadores independientes bajo el mismo entorno computacional durante un periodo de 3 días consecutivos . 3. Resultados El análisis de los resultados se estructuró en torno a cinco criterios de evaluación, aplicadas sobre el conjunto de 12 casos de pruebas diseñados previamente. En cada una de estas dimensiones, las consultas generadas recibieron una puntuación de 0 a 2, lo que permitió alcanzar un total acumulado de 120 puntos. En los apartados siguientes se describen los resultados obtenidos para c ada dimensión, considerando además los distintos niveles de complejidad establecidos. 3.1. Corrección sintáctica Esta dimensión permitió determinar si las consultas SQL generadas por cada asistente podían ejecutarse correctamente en el motor de SQL Server, sin presentar errores. La
Horizon Nexus Journal Horizon Nexus Journal | Vol.0 4 | Núm 0 2 | Abr Jun | 202 6 | www.horizonnexusjournal.editorialdoso.com 180 C6 Intermedio 2 1 Claude Claude optimiza la consulta agrupando por el ID indexado (no por texto como ChatGPT) y filtra con WHERE los nulos antes de calcular, agilizando el promedio y el TOP 5. C7 Intermedio 2 1 Claude Claude optimiza la consulta agrupando por el ID indexado del estudiante, reduciendo el consumo de CPU al evitar comparar texto y evitando mezclar datos de alumnos con nombres idénticos. C8 Intermedio 1 2 ChatGPT ChatGPT gana: NOT EXISTS se detiene en la primera coincidencia, mientras que el NOT IN con DISTINCT de Claude procesa toda la tabla, es más lento y falla con nulos. C9 Avanzado 1 2 ChatGPT Ganó ChatGPT: calcula los porcentajes de forma directa con NULLIF, mientras que Claude usa subconsultas anidadas innecesarias y comete un error lógico al buscar la carrera en la tabla de materias. C10 Avanzado 2 1 Claude Ganó Claude: agrupa por las llaves primarias (id_estudiante, id_materia), permitiendo a SQL Server usar índices numéricos en vez de texto, y su WHERE descarta nulos antes de agrupar. C11 Avanzado 2 1 Claude Ganó Claude: usa HAVING COUNT(*) >= 2 para evitar que STDEV falle con menos de dos notas, y agrupa eficientemente por la llave primaria id_materia. C12 Avanzado 2 1 Claude Ganó Claude: agrupa por el ID indexado del estudiante para mayor rendimiento, y su WHERE filtra notas nulas antes de aplicar RANK, evitando procesarlas innecesariamente. TOTAL 22 /24 16/ 24
Tabla 6. Puntuación de manejo de casos borde por caso de prueba Caso Nivel Claude (0 - 2) ChatGPT (0 - 2) Ganador Observación C1 Básico 2 1 Claude Ganó Claude: incluir id_estudiante en el SELECT permite usar el índice clúster, útil si la consulta se reutiliza como vista o subconsulta. C2 Básico 2 1 Claude Ganó Claude: maneja bien a estudiantes sin notas, mientras que ChatGPT los muestra erróneamente como si hubieran aprobado todo. C3 Básico 2 1 Claude Ganó Claude: COUNT(E.id_estudiante) da 0 para carreras sin alumnos, mientras que COUNT(*) de ChatGPT genera falsamente 1. C4 Básico 2 2 Empate C5 Intermedio 2 1 Claude Ganó Claude: su filtro WHERE nota_final IS NOT NULL evita que materias sin calificación distorsionen el promedio. C6 Intermedio 2 1 Claude Ganó Claude: evita promediar nulos, resuelve empates por apellido, y ChatGPT mezcla homónimos al no validar el ID. C7 Intermedio 2 1 Claude Ganó Claude: agrupar por ID evita fusionar alumnos homónimos y sumar materias erróneamente. C8 Intermedio 1 2 ChatGPT Ganó ChatGPT: NOT EXISTS maneja bien los nulos, mientras que el NOT IN de Claude falla y devuelve cero registros si hay un solo nulo. C9 Avanzado 1 2 ChatGPT Ganó ChatGPT: usa NULLIF para evitar división por cero, mientras Claude no se protege y hereda errores lógicos. C10 Avanzado 2 1 Claude Ganó Claude: su filtro IS NOT NULL limpia
registros vacíos y agrupar por ID evita que alumnos homó nimos alteren las estadísticas del otro. C11 Avanzado 2 1 Claude Ganó Claude: usa HAVING COUNT(*) >= 2 para evitar que STDEV falle si una materia tiene solo una nota. C12 Avanzado 2 1 Claude Ganó Claude: su filtro de nulos evita que alumnos sin notas aparezcan en el ranking, y maneja bien homónimos. TOTAL 22 /24 16 /24 P untuación de claridad de explicación por caso de prueba C1 sico 2 1 Claude Claude gana por estructurar la explicación con tablas y un diagrama relacional muy didáctico. C2 Básico 2 1 Claude Claude gana por incluir alertas técnicas sobre nulos y una tabla comparativa didáctica entre WHERE y HAVING. C3 Básico 2 1 Claude Claude gana por contrastar didácticamente los JOINs y alertar del peligro de usar COUNT(*) con nulos. C4 Básico 2 1 Claude Claude gana al justificar el ordenamiento determinista y explicar conceptualmente la diferencia entre WHERE y HAVING. C5 Intermedio 2 1 Claude Claude gana por incluir alertas de diseño relacional, comportamiento de nulos y un diagrama de flujo. C6 Intermedio 2 1 Claude Claude gana por detallar el orden de ejecución de TOP, el uso de WITH TIES y portabilidad. C7 Intermedio 2 1 Claude Claude gana por ejemplificar visualmente con una tabla el comportamiento de la agrupación combinada.
Horizon Nexus Journal Horizon Nexus Journal | Vol.0 4 | Núm 0 2 | Abr Jun | 202 6 | www.horizonnexusjournal.editorialdoso.com 184 3.5. Análisis por nivel de complejidad La Tabla 9 desagrega el score global según el nivel de complejidad de la consulta (básico, intermedio, avanzado), con el objetivo de identificar si las diferencias entre asistentes se acentúan o disminuyen a medida que aumenta la complejidad del requerimiento. Tabla 9. Score por nivel de complejidad (puntos sobre 40 por nivel) Nivel Claude (pts/ 40) ChatGPT (pts/40) Diferencia Básico (C1 C4) 38 31 +7 Intermedio (C5 C8) 38 30 +8 Avanzado (C9 C12) 38 30 + 8 4. Discusión Los resultados obtenidos evidencian que Claude 4.6 Sonnet y ChatGPT - 4o presentan un patrón distinto de aciertos y limitaciones en la elaboración de consultas SQL . Respecto a la corrección sintáctica, ambos modelos alcanzan un rendimiento igual (24/24) en los casos de nivel básico, lo cual concuerda con lo señalado por Brown et al. ( 2020) , quienes indican que los modelos de lenguaje de gran escala han alcanzado un dominio sólido en la generac ión de código con estructuras sencillas. No obstante, tal como se evidencia en la Tabla 8, la brecha entre ambos asistentes se sostiene de manera constante conforme aumenta la complejidad de las consultas, lo cual coincide con lo planteado por Guo et al. ( 2019) , quienes señalan que la exactitud de los sistemas text - to - SQL se reduce de forma considerable frente a esquemas con múltiples tablas y condiciones lógicas combinadas. Al observar la Tabla 8, se aprecia que la correlación lógica fue el aspecto donde ambas herramientas mostraron mayor distancia entre sí, con 2 puntos de diferencia sobre un total de 24 . Este resultado da soporte parcial a la hipótesis planteada inicialmente en esta investigación, según la cual cabía esperar diferencias not ables entre los dos asistentes dependiendo del grado de complejidad de las tareas. Tal dificultad para llevar un requerimiento de negocio, formulado en lenguaje natural, hacia una consulta SQL correcta en términos lógicos, va en línea con lo planteado por Deng et al. ( 2022) , quienes indican que los principales desafíos del problema text - to - SQL residen
Horizon Nexus Journal Horizon Nexus Journal | Vol.0 4 | Núm 0 2 | Abr Jun | 202 6 | www.horizonnexusjournal.editorialdoso.com 185 precisamente en la fase de comprensión semántica del enunciado, no en la generación sintáctica (Zhong et al., 2017) . En cuanto a la optimización , los resultados obtenidos muestran que Claude es más eficiente principalmente en los niveles intermedio y avanzado . Esta característica es importante especialmente en entornos de producción ya que ahí se manejan grandes volúmenes de datos, ya que una consulta poco eficiente puede afectar negativamente el rendimiento general del sistema (Ramakrishnan & Gehrke, 2003; Date, 2019) . Prec isamente, la capacidad de recomendar el correcto uso de índices, suprimir subconsultas, relaciones innecesarias y recurrir a funciones cuando es pertinente, marca una diferencia entre una respuesta funcional y una respuesta de calidad profesional, distinci ón que este estudio logra medir de forma objetiva. Respecto al manejo de casos de borde, los resultados presentados en la Tabla 8 evidencian una considerable diferencia entre ambos asistentes en este punto: Claude obtuvo 22 puntos y ChatGPT 16 puntos, sobre un total posible de 24, lo que nos indica que este último presenta algunas dificultadas en este criterio. Este resultado toma importancia considerando que en base de datos los valores NULL y las tablas vacías son situaciones habituales y real es, y que una consulta que no maneja de forma adecuada esto puede generar resultados incorrectos de forma silenciosa, sin que el desarrollador note un error evidente . Por último, la dimensión de claridad en la explicación toma una relevancia bastante espec ial en contextos educativos debido a que estudiantes de programación hacen uso de estas herramientas no solo para obtener código, sino también para comprender los fundamentos teóricos detrás de cada consulta (Rajkumar et al., 2022; Kasneci et al., 2023) . Los resultados obtenidos señalan que Claude ofrece explicaciones más completas y precisas, lo que apunta a una ventaja diferencial en su uso como apoyo al aprendizaje en cursos de bases de d atos. Cabe destacar que una explicación incorrecta puede causar confusiones sobre el funcionamiento de SQL, riesgo que también es señalado por Shi et al. ( 2024) . En cuanto a limitaciones, este estudio contó con la participación de 5 evaluadores independientes que trabajaron bajo un entorno computacional estandarizado, esto contribuye a reducir sesgos subjetivos en las diferentes dimensiones como la claridad y la op timización. Sin embargo, las pruebas se realizaron exclusivamente usando el
Horizon Nexus Journal Horizon Nexus Journal | Vol.0 4 | Núm 0 2 | Abr Jun | 202 6 | www.horizonnexusjournal.editorialdoso.com 186 sistema gestor de base de datos SQL Server y con prompts en español, teniendo en cuenta esto lo resultados obtenidos no pueden generalizarse de manera directa con otros motores de bases de datos ni otros idiomas. Para futuras investigaciones se recomienda que realizar evaluación por múltiples jueces , junto con el cálculo de nivel de concordancia entre ellos, esto constituye una práctica recomendada para garantizar la validez de este tipo de instrumentos (Landis & Koch, 1977) 5. Conclusiones El presente estudio logró su objetivo principal al realizar una evaluación comparativa del rendimiento de los asistentes de inteligencia artificial Claude 4.6 Sonnet y ChatGPT - 4o en la creación de consultas SQL, utilizando un protocolo experimental controlado, reproducible y aplicado en español, un aspecto que no había sido abordada sistemáticamente en la literatura académica previa. La contribución clave de la presente investigación radica en el desarrollo y validación de una rubrica de evaluación que abarca cinco dimensiones: corrección sintáctica, corre cción lógica, optimización, manejo de casos borde y claridad de explicación , aplicada sobre un esquema relacional estandarizado con 12 casos de prueba de 3 niveles y diferentes complejidades que van creciendo a medida que suben de nivel . Este instrumento r epresenta una aportación metodológica replicable para investigaciones futuras que busquen evaluar asistentes de inteligencia artificial en tareas de generación de código técnico. Los resultados obtenidos permiten concluir que ambas herramientas presentan u n desempeño alto y bastante similar en las dimensiones de evaluación de nivel básico (38/40 ambas) , pero las diferencias se evidencian a medi d a que la complejidad incrementa . La corrección lógica y el manejo de casos borde resultan ser las dimensiones con más diferencias entre ambos asistentes, lo que implica que la elección de la herramienta debe de considerar el tipo de tarea a realizar y no asumir equivalencia de desempeño para todos los contextos . Des de un punto de vista práctico , los resultados orientan a tres perfiles de usuarios. Los programadores en entornos de producción , se debería de priorizar la dimensión de optimización al evaluar qué asistente utilizar, teniendo en cuenta que la ineficiencia de una consulta con grandes volúmenes de datos puede llegar a comprometer el rendimiento del sistema . Los estudiantes de informática se benefician especialmente
Horizon Nexus Journal Horizon Nexus Journal | Vol.0 4 | Núm 0 2 | Abr Jun | 202 6 | www.horizonnexusjournal.editorialdoso.com 187 de la dimensión de claridad de explicación , está dimensión es útil ya que les permite a los estud iantes a determinar si el asistente de inteligencia artificial contribuye efectivamente a su aprendizaje o simplemente entrega código sin comprensión. Mientras que los docentes, disponen de un marco de evaluación de objetivos para incorporar o comparar est as herramientas en sus entornos de enseñanza de base de datos. Entre las limitaciones del presente estudio se reconoce que, si bien la evaluación fue realizada por cinco evaluadores de forma independiente, todas las pruebas fueron ejecutadas utilizando exc lusivamente SQL Server y con prompts completamente en español. Estas condiciones limitan la posibilidad de extender los resultados a otros motores de bases de datos, otros idiomas, o versiones de modelos analizados posteriormente. Como líneas de investigac ión futura se sugiere ampliar a otros motores de bases de datos como PostgreSQL , Oracle y MySQL, incrementar el número de evaluadores agregando un cálculo formal. Incluir otros asistentes de inteligencia artificial como Gemini o GitHub Copilot para fortalecer la comparación, y analizar de forma más profunda como influye el idioma del prompt en la calidad de las consultas generadas por cada una de las herramientas. Contribución de los autores: Conceptualización, DFZO ; metodología, MJCU y VFSA ; análisis formal, JALM y JVFP ; investigación, DFZO y JVFP ; redacción del borrador original, D FZO ; redacción, revisión y edición, DFZO y JALM ; supervisión, MJCU y VFSA . Todos los autores han leído y aceptado la versión final del manuscrito. Financiamiento: El proceso investigativo no ha recibido financiación externa. Conflicto de intereses : Los au tores declaran no tener ningún conflicto de intereses Declaración de disponibilidad de los datos: Los datos están disponibles previa solicitud a los autores de correspondencia: davidzunigaortiz92@gmail.c om
Horizon Nexus Journal Horizon Nexus Journal | Vol.0 4 | Núm 0 2 | Abr Jun | 202 6 | www.horizonnexusjournal.editorialdoso.com 188 Referencias Bibliográficas Brookhart, S. M. (2013). How to Create and Use Rubrics for Formative Assessment and Grading. ASCD. Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., Neelakantan, A., Shyam, P., Sastry, G., Askell, A., Agarwal, S., Herbert - Voss, A., Krueger, G., Henighan, T., Child, R., Ramesh, A., Ziegler, D. M., Wu, J., Winter, C., … Amodei, D. (2020). Language Models are Few - Shot Learners (Versión 4). arXiv. https://doi.org/10.48550/ARXIV.2005.14165 Codd, E. F. (1970). A relational model of data for large shared data banks. Communications of the ACM, 13(6), 377 - 387. https://doi.org/10.1145/362384 .362685 Creswell, J. W., & Creswell, J. D. (2018). Research design: Qualitative, quantitative, and mixed methods approaches (Fifth edition). SAGE. Date, C. J. (2019). Database Design and Relational Theory: Normal Forms and All That Jazz. Apress. https://doi.org/10.1007/978 - 1 - 4842 - 5540 - 7 Deng, N., Chen, Y., & Zhang, Y. (2022). Recent Advances in Text - to - SQL: A Survey of What We Have and What We Expect (Versión 1). arXiv. https://doi.org/10.48550/ARXIV.2208.10099 Guo, J., Zhan, Z., Gao, Y., Xiao, Y., Lou, J. - G., Liu, T., & Zhang, D. (2019). Towards Complex Text - to - SQL in Cross - Domain Database with Intermediate Representation. Proceedings of th e 57th Annual Meeting of the Association for Computational Linguistics, 4524 - 4535. https://doi.org/10.18653/v1/P19 - 1444 Hernández - Sampieri, R., Fernández - Collado, C., & Baptista - Lucio, P. (2014). Metodo logía de la investigación (6.a ed.). McGraw - Hill. Hou, X., Zhao, Y., Liu, Y., Yang, Z., Wang, K., Li, L., Luo, X., Lo, D., Grundy, J., & Wang, H. (2023). Large Language Models for Software Engineering: A Systematic Literature Review (Versión 6). arXiv. https://doi.org/10.48550/ARXIV.2308.10620 Kasneci, E., Sessler, K., Küchemann, S., Bannert, M., Dementieva, D., Fischer, F., Gasser, U., Groh, G., Günnemann, S., Hüllermeier, E., Krusche, S., Kutyniok ,
Horizon Nexus Journal Horizon Nexus Journal | Vol.0 4 | Núm 0 2 | Abr Jun | 202 6 | www.horizonnexusjournal.editorialdoso.com 189 G., Michaeli, T., Nerdel, C., Pfeffer, J., Poquet, O., Sailer, M., Schmidt, A., Seidel, T., … Kasneci, G. (2023). ChatGPT for good? On opportunities and challenges of large language models for education. Learning and Individual Differences, 103, 102274. https://doi.org/10.1016/j.lindif.2023.102274 Landis, J. R., & Koch, G. G. (1977). The Measurement of Observer Agreement for Categorical Data. Biometrics, 33(1), 159. https://doi.org/10.2307/2529310 Poesia, G., Polozov, O., Le, V., Tiwari, A., Soares, G., Meek, C., & Gulwani, S. (2022). Synchromesh: Reliable code generation from pre - trained language models (Versión 1). arXiv. https://doi.org/10.48550/ARXIV.2201.11227 Qin, B., Hui, B., Wang, L., Yang, M., Li, J., Li, B., Geng, R., Cao, R., Sun, J., Si, L., Huang, F., & Li, Y. (2022). A Survey on Text - to - SQL Parsing: Concepts, Methods, and Futu re Directions (Versión 1). arXiv. https://doi.org/10.48550/ARXIV.2208.13629 Rajkumar, N., Li, R., & Bahdanau, D. (2022). Evaluating the Text - to - SQL Capabilities of Large Language Models (Versión 1) . arXiv. https://doi.org/10.48550/ARXIV.2204.00498 Ramakrishnan, R., & Gehrke, J. (2003). Database management systems (3. ed., internat. ed). McGraw - Hill. Shi, L., Tang, Z., Zhang, N., Zhang, X., & Yang, Z. (2024). A Survey on Employing Large Language Models for Text - to - SQL Tasks (Versión 5). arXiv. https://doi.org/10.48550/ARXIV.2407.15186 White, J. , Fu, Q., Hays, S., Sandborn, M., Olea, C., Gilbert, H., Elnashar, A., Spencer - Smith, J., & Schmidt, D. C. (2023). A Prompt Pattern Catalog to Enhance Prompt Engineering with ChatGPT (Versión 1). arXiv. https://doi.org/10.48550/ARXIV.2302.11382 Yu, T., Zhang, R., Yang, K., Yasunaga, M., Wang, D., Li, Z., Ma, J., Li, I., Yao, Q., Roman, S., Zhang, Z., & Radev, D. (2018). Spider: A Large - Scale Human - Labeled Dataset for Complex and Cross - Domain Semanti c Parsing and Text - to - SQL Task. Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, 3911 - 3921. https://doi.org/10.18653/v1/D18 - 1425
Horizon Nexus Journal Horizon Nexus Journal | Vol.0 4 | Núm 0 2 | Abr Jun | 202 6 | www.horizonnexusjournal.editorialdoso.com 190 Zhao, W. X., Zhou, K., Li, J., Tan g, T., Wang, X., Hou, Y., Min, Y., Zhang, B., Zhang, J., Dong, Z., Du, Y., Yang, C., Chen, Y., Chen, Z., Jiang, J., Ren, R., Li, Y., Tang, X., Liu, Z., … Wen, J. - R. (2023). A Survey of Large Language Models (Versión 19). arXiv. https://doi.org/10.48550/ARXIV.2303.18223 Zhong, V., Xiong, C., & Socher, R. (2017). Seq2SQL: Generating Structured Queries from Natural Language using Reinforcement Learning (Versión 7). arXiv. https://doi.org/10.48550/ARXIV.1709.00103