Evaluación comparativa de Claude y ChatGPT en la generación de consultas SQL
DOI:
https://doi.org/10.70881/hnj/v4/n2/138Palabras clave:
inteligencia artificial generativa, modelos de lenguaje de gran escala, generación de consultas SQL, evaluación comparativa, bases de datos relacionalesResumen
La inteligencia artificial generativa ha cambiado la forma en la que funciona el desarrollo de software, sin embargo, la capacidad que tienen estos modelos para generar consultas SQL que sean correctas, optimizadas y robustas todavía no ha sido evaluada sistemáticamente en la literatura académica en español. Con el objetivo de llenar este vacío, se realizó una evaluación experimental comparativa entre dos asistentes de inteligencia artificial, Claude 4.6 Sonnet (Anthropic) y ChatGPT-4o (OpenAI), utilizando un esquema de base de datos relacional orientado a la gestión universitaria el cual se estandarizó y se crearon 12 casos de prueba los cuales se distribuyeron en tres niveles de complejidad: básico, intermedio y avanzado. Para la evaluación se aplicó una rúbrica de cinco dimensiones, corrección sintáctica, corrección lógica, optimización, manejo de casos borde y claridad de la explicación, con un puntaje máximo de 120 puntos. Los resultados obtenidos mostraron diferencias significativas entre ambos asistentes, más en las dimensiones de corrección lógica y en el manejo de casos borde, con diferencias que se notaron de forma progresiva en los niveles de mayor complejidad. Se concluye que ninguna herramienta es superior, y que la selección de estas herramientas debe de realizarse en función a los requerimientos
Descargas
Referencias
Brookhart, S. M. (2013). How to Create and Use Rubrics for Formative Assessment and Grading. ASCD. DOI: https://doi.org/10.4135/9781452218649.n15
Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., Neelakantan, A., Shyam, P., Sastry, G., Askell, A., Agarwal, S., Herbert-Voss, A., Krueger, G., Henighan, T., Child, R., Ramesh, A., Ziegler, D. M., Wu, J., Winter, C., … Amodei, D. (2020). Language Models are Few-Shot Learners (Versión 4). arXiv. https://doi.org/10.48550/ARXIV.2005.14165
Codd, E. F. (1970). A relational model of data for large shared data banks. Communications of the ACM, 13(6), 377-387. https://doi.org/10.1145/362384.362685 DOI: https://doi.org/10.1145/362384.362685
Creswell, J. W., & Creswell, J. D. (2018). Research design: Qualitative, quantitative, and mixed methods approaches (Fifth edition). SAGE.
Date, C. J. (2019). Database Design and Relational Theory: Normal Forms and All That Jazz. Apress. https://doi.org/10.1007/978-1-4842-5540-7 DOI: https://doi.org/10.1007/978-1-4842-5540-7
Deng, N., Chen, Y., & Zhang, Y. (2022). Recent Advances in Text-to-SQL: A Survey of What We Have and What We Expect (Versión 1). arXiv. https://doi.org/10.48550/ARXIV.2208.10099
Guo, J., Zhan, Z., Gao, Y., Xiao, Y., Lou, J.-G., Liu, T., & Zhang, D. (2019). Towards Complex Text-to-SQL in Cross-Domain Database with Intermediate Representation. Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, 4524-4535. https://doi.org/10.18653/v1/P19-1444 DOI: https://doi.org/10.18653/v1/P19-1444
Hernández-Sampieri, R., Fernández-Collado, C., & Baptista-Lucio, P. (2014). Metodología de la investigación (6.a ed.). McGraw-Hill.
Hou, X., Zhao, Y., Liu, Y., Yang, Z., Wang, K., Li, L., Luo, X., Lo, D., Grundy, J., & Wang, H. (2023). Large Language Models for Software Engineering: A Systematic Literature Review (Versión 6). arXiv. https://doi.org/10.48550/ARXIV.2308.10620
Kasneci, E., Sessler, K., Küchemann, S., Bannert, M., Dementieva, D., Fischer, F., Gasser, U., Groh, G., Günnemann, S., Hüllermeier, E., Krusche, S., Kutyniok, G., Michaeli, T., Nerdel, C., Pfeffer, J., Poquet, O., Sailer, M., Schmidt, A., Seidel, T., … Kasneci, G. (2023). ChatGPT for good? On opportunities and challenges of large language models for education. Learning and Individual Differences, 103, 102274. https://doi.org/10.1016/j.lindif.2023.102274 DOI: https://doi.org/10.1016/j.lindif.2023.102274
Landis, J. R., & Koch, G. G. (1977). The Measurement of Observer Agreement for Categorical Data. Biometrics, 33(1), 159. https://doi.org/10.2307/2529310 DOI: https://doi.org/10.2307/2529310
Poesia, G., Polozov, O., Le, V., Tiwari, A., Soares, G., Meek, C., & Gulwani, S. (2022). Synchromesh: Reliable code generation from pre-trained language models (Versión 1). arXiv. https://doi.org/10.48550/ARXIV.2201.11227
Qin, B., Hui, B., Wang, L., Yang, M., Li, J., Li, B., Geng, R., Cao, R., Sun, J., Si, L., Huang, F., & Li, Y. (2022). A Survey on Text-to-SQL Parsing: Concepts, Methods, and Future Directions (Versión 1). arXiv. https://doi.org/10.48550/ARXIV.2208.13629
Rajkumar, N., Li, R., & Bahdanau, D. (2022). Evaluating the Text-to-SQL Capabilities of Large Language Models (Versión 1). arXiv. https://doi.org/10.48550/ARXIV.2204.00498
Ramakrishnan, R., & Gehrke, J. (2003). Database management systems (3. ed., internat. ed). McGraw-Hill.
Shi, L., Tang, Z., Zhang, N., Zhang, X., & Yang, Z. (2024). A Survey on Employing Large Language Models for Text-to-SQL Tasks (Versión 5). arXiv. https://doi.org/10.48550/ARXIV.2407.15186
White, J., Fu, Q., Hays, S., Sandborn, M., Olea, C., Gilbert, H., Elnashar, A., Spencer-Smith, J., & Schmidt, D. C. (2023). A Prompt Pattern Catalog to Enhance Prompt Engineering with ChatGPT (Versión 1). arXiv. https://doi.org/10.48550/ARXIV.2302.11382
Yu, T., Zhang, R., Yang, K., Yasunaga, M., Wang, D., Li, Z., Ma, J., Li, I., Yao, Q., Roman, S., Zhang, Z., & Radev, D. (2018). Spider: A Large-Scale Human-Labeled Dataset for Complex and Cross-Domain Semantic Parsing and Text-to-SQL Task. Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, 3911-3921. https://doi.org/10.18653/v1/D18-1425 DOI: https://doi.org/10.18653/v1/D18-1425
Zhao, W. X., Zhou, K., Li, J., Tang, T., Wang, X., Hou, Y., Min, Y., Zhang, B., Zhang, J., Dong, Z., Du, Y., Yang, C., Chen, Y., Chen, Z., Jiang, J., Ren, R., Li, Y., Tang, X., Liu, Z., … Wen, J.-R. (2023). A Survey of Large Language Models (Versión 19). arXiv. https://doi.org/10.48550/ARXIV.2303.18223
Zhong, V., Xiong, C., & Socher, R. (2017). Seq2SQL: Generating Structured Queries from Natural Language using Reinforcement Learning (Versión 7). arXiv. https://doi.org/10.48550/ARXIV.1709.00103
Publicado
Número
Sección
Licencia
Derechos de autor 2026 David Fabián Zúñiga Ortiz, María José Cobeña Ureta, Victor Franklin Sánchez Alvarado, Josselyn Valeria Flores Peña, Jeannette Alexandra Laverde Mena (Autor/a)

Esta obra está bajo una licencia internacional Creative Commons Atribución-NoComercial 4.0.
: