Evaluación comparativa de Claude y ChatGPT en la generación de consultas SQL

David Fabián Zúñiga Ortiz; María José Cobeña Ureta; Victor Franklin Sánchez Alvarado; Josselyn Valeria Flores Peña; Jeannette Alexandra Laverde Mena

doi:10.70881/hnj/v4/n2/138

Evaluación comparativa de Claude y ChatGPT en la generación de consultas SQL

Autores/as

David Fabián Zúñiga Ortiz Escuela Politécnica Nacional Autor/a https://orcid.org/0000-0001-7541-0627
María José Cobeña Ureta Investigadora independiente Autor/a https://orcid.org/0009-0003-0891-8510
Victor Franklin Sánchez Alvarado Ministerio de Educación, Deporte y Cultura Autor/a https://orcid.org/0009-0004-6567-4687
Josselyn Valeria Flores Peña Unidad Educativa San Francisco de Asis Autor/a https://orcid.org/0009-0001-8435-4425
Jeannette Alexandra Laverde Mena Centro de Revisión Técnica Vehicular de Balzar Autor/a https://orcid.org/0000-0002-1721-5679

DOI:

https://doi.org/10.70881/hnj/v4/n2/138

Palabras clave:

inteligencia artificial generativa, modelos de lenguaje de gran escala, generación de consultas SQL, evaluación comparativa, bases de datos relacionales

Resumen

La inteligencia artificial generativa ha cambiado la forma en la que funciona el desarrollo de software, sin embargo, la capacidad que tienen estos modelos para generar consultas SQL que sean correctas, optimizadas y robustas todavía no ha sido evaluada sistemáticamente en la literatura académica en español. Con el objetivo de llenar este vacío, se realizó una evaluación experimental comparativa entre dos asistentes de inteligencia artificial, Claude 4.6 Sonnet (Anthropic) y ChatGPT-4o (OpenAI), utilizando un esquema de base de datos relacional orientado a la gestión universitaria el cual se estandarizó y se crearon 12 casos de prueba los cuales se distribuyeron en tres niveles de complejidad: básico, intermedio y avanzado. Para la evaluación se aplicó una rúbrica de cinco dimensiones, corrección sintáctica, corrección lógica, optimización, manejo de casos borde y claridad de la explicación, con un puntaje máximo de 120 puntos. Los resultados obtenidos mostraron diferencias significativas entre ambos asistentes, más en las dimensiones de corrección lógica y en el manejo de casos borde, con diferencias que se notaron de forma progresiva en los niveles de mayor complejidad. Se concluye que ninguna herramienta es superior, y que la selección de estas herramientas debe de realizarse en función a los requerimientos

Descargas

Los datos de descarga aún no están disponibles.

Referencias

Brookhart, S. M. (2013). How to Create and Use Rubrics for Formative Assessment and Grading. ASCD. DOI: https://doi.org/10.4135/9781452218649.n15

Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., Neelakantan, A., Shyam, P., Sastry, G., Askell, A., Agarwal, S., Herbert-Voss, A., Krueger, G., Henighan, T., Child, R., Ramesh, A., Ziegler, D. M., Wu, J., Winter, C., … Amodei, D. (2020). Language Models are Few-Shot Learners (Versión 4). arXiv. https://doi.org/10.48550/ARXIV.2005.14165

Codd, E. F. (1970). A relational model of data for large shared data banks. Communications of the ACM, 13(6), 377-387. https://doi.org/10.1145/362384.362685 DOI: https://doi.org/10.1145/362384.362685

Creswell, J. W., & Creswell, J. D. (2018). Research design: Qualitative, quantitative, and mixed methods approaches (Fifth edition). SAGE.

Date, C. J. (2019). Database Design and Relational Theory: Normal Forms and All That Jazz. Apress. https://doi.org/10.1007/978-1-4842-5540-7 DOI: https://doi.org/10.1007/978-1-4842-5540-7

Deng, N., Chen, Y., & Zhang, Y. (2022). Recent Advances in Text-to-SQL: A Survey of What We Have and What We Expect (Versión 1). arXiv. https://doi.org/10.48550/ARXIV.2208.10099

Guo, J., Zhan, Z., Gao, Y., Xiao, Y., Lou, J.-G., Liu, T., & Zhang, D. (2019). Towards Complex Text-to-SQL in Cross-Domain Database with Intermediate Representation. Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, 4524-4535. https://doi.org/10.18653/v1/P19-1444 DOI: https://doi.org/10.18653/v1/P19-1444

Hernández-Sampieri, R., Fernández-Collado, C., & Baptista-Lucio, P. (2014). Metodología de la investigación (6.a ed.). McGraw-Hill.

Hou, X., Zhao, Y., Liu, Y., Yang, Z., Wang, K., Li, L., Luo, X., Lo, D., Grundy, J., & Wang, H. (2023). Large Language Models for Software Engineering: A Systematic Literature Review (Versión 6). arXiv. https://doi.org/10.48550/ARXIV.2308.10620

Kasneci, E., Sessler, K., Küchemann, S., Bannert, M., Dementieva, D., Fischer, F., Gasser, U., Groh, G., Günnemann, S., Hüllermeier, E., Krusche, S., Kutyniok, G., Michaeli, T., Nerdel, C., Pfeffer, J., Poquet, O., Sailer, M., Schmidt, A., Seidel, T., … Kasneci, G. (2023). ChatGPT for good? On opportunities and challenges of large language models for education. Learning and Individual Differences, 103, 102274. https://doi.org/10.1016/j.lindif.2023.102274 DOI: https://doi.org/10.1016/j.lindif.2023.102274

Landis, J. R., & Koch, G. G. (1977). The Measurement of Observer Agreement for Categorical Data. Biometrics, 33(1), 159. https://doi.org/10.2307/2529310 DOI: https://doi.org/10.2307/2529310

Poesia, G., Polozov, O., Le, V., Tiwari, A., Soares, G., Meek, C., & Gulwani, S. (2022). Synchromesh: Reliable code generation from pre-trained language models (Versión 1). arXiv. https://doi.org/10.48550/ARXIV.2201.11227

Qin, B., Hui, B., Wang, L., Yang, M., Li, J., Li, B., Geng, R., Cao, R., Sun, J., Si, L., Huang, F., & Li, Y. (2022). A Survey on Text-to-SQL Parsing: Concepts, Methods, and Future Directions (Versión 1). arXiv. https://doi.org/10.48550/ARXIV.2208.13629

Rajkumar, N., Li, R., & Bahdanau, D. (2022). Evaluating the Text-to-SQL Capabilities of Large Language Models (Versión 1). arXiv. https://doi.org/10.48550/ARXIV.2204.00498

Ramakrishnan, R., & Gehrke, J. (2003). Database management systems (3. ed., internat. ed). McGraw-Hill.

Shi, L., Tang, Z., Zhang, N., Zhang, X., & Yang, Z. (2024). A Survey on Employing Large Language Models for Text-to-SQL Tasks (Versión 5). arXiv. https://doi.org/10.48550/ARXIV.2407.15186

White, J., Fu, Q., Hays, S., Sandborn, M., Olea, C., Gilbert, H., Elnashar, A., Spencer-Smith, J., & Schmidt, D. C. (2023). A Prompt Pattern Catalog to Enhance Prompt Engineering with ChatGPT (Versión 1). arXiv. https://doi.org/10.48550/ARXIV.2302.11382

Yu, T., Zhang, R., Yang, K., Yasunaga, M., Wang, D., Li, Z., Ma, J., Li, I., Yao, Q., Roman, S., Zhang, Z., & Radev, D. (2018). Spider: A Large-Scale Human-Labeled Dataset for Complex and Cross-Domain Semantic Parsing and Text-to-SQL Task. Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, 3911-3921. https://doi.org/10.18653/v1/D18-1425 DOI: https://doi.org/10.18653/v1/D18-1425

Zhao, W. X., Zhou, K., Li, J., Tang, T., Wang, X., Hou, Y., Min, Y., Zhang, B., Zhang, J., Dong, Z., Du, Y., Yang, C., Chen, Y., Chen, Z., Jiang, J., Ren, R., Li, Y., Tang, X., Liu, Z., … Wen, J.-R. (2023). A Survey of Large Language Models (Versión 19). arXiv. https://doi.org/10.48550/ARXIV.2303.18223

Zhong, V., Xiong, C., & Socher, R. (2017). Seq2SQL: Generating Structured Queries from Natural Language using Reinforcement Learning (Versión 7). arXiv. https://doi.org/10.48550/ARXIV.1709.00103

Descargas

PDF
HTML

Publicado

2026-06-24

Número

Vol. 4 Núm. 2 (2026): Avances del Conocimiento para Retos Complejos del Siglo XXI

Sección

Artículos

Licencia

Derechos de autor 2026 David Fabián Zúñiga Ortiz, María José Cobeña Ureta, Victor Franklin Sánchez Alvarado, Josselyn Valeria Flores Peña, Jeannette Alexandra Laverde Mena (Autor/a)

Esta obra está bajo una licencia internacional Creative Commons Atribución-NoComercial 4.0.

Cómo citar

Zúñiga Ortiz, D. F., Cobeña Ureta, M. J., Sánchez Alvarado, V. F., Flores Peña, J. V., & Laverde Mena, J. A. (2026). Evaluación comparativa de Claude y ChatGPT en la generación de consultas SQL. Horizon Nexus Journal, 4(2), 171-190. https://doi.org/10.70881/hnj/v4/n2/138