Dobreski, Brian, and Christopher Hastings. "AI Chatbots and Subject Cataloging: A Performance Test." Library Resources & Technical Services 69, no. 2 (2025): https://doi.org/10.5860/lrts.69n2.8440
Se examina el uso de chatbots basados en inteligencia artificial (IA) para realizar tareas de catalogación temática en bibliotecas. En un contexto donde las tecnologías basadas en modelos de lenguaje están en expansión, y las bibliotecas exploran nuevas formas de integrar herramientas digitales para optimizar sus flujos de trabajo, este estudio aporta evidencia empírica al debate sobre si los chatbots gratuitos como ChatGPT, Gemini y Copilot pueden asumir tareas complejas de catalogación, en particular la asignación de encabezamientos de materia y números de clasificación.
Los autores enmarcan su investigación en el creciente interés que ha despertado la IA en el mundo bibliotecario. Numerosos profesionales han empezado a experimentar con estas herramientas en áreas como servicios de referencia, gestión de colecciones y asesoría a lectores. Sin embargo, en el área específica de la catalogación temática, persisten dudas significativas sobre la precisión, fiabilidad y utilidad de los chatbots. La catalogación por materias implica analizar el contenido intelectual de los recursos para identificar su “aboutness” o tema central, y luego representar ese contenido mediante sistemas normativos como el Library of Congress Subject Headings (LCSH), el Library of Congress Classification (LCC) y el Dewey Decimal Classification (DDC). Estos sistemas son altamente estructurados, complejos y requieren formación especializada para ser utilizados con precisión.
Para poner a prueba las capacidades de los chatbots, los investigadores diseñaron un experimento basado en el libro didáctico Essential Classification de Vanda Broughton, una obra ampliamente reconocida en el ámbito de la catalogación. De este libro se extrajeron una serie de ejercicios reales de catalogación que fueron transformados en 98 preguntas, diseñadas para ser comprensibles incluso para estudiantes principiantes. Estas preguntas fueron clasificadas en tres categorías: 50 sobre LCSH, 25 sobre LCC y 23 sobre DDC. Las preguntas fueron presentadas directamente a los chatbots en su versión gratuita, sin uso de ingeniería de prompts ni ajustes en la formulación, con el objetivo de simular una interacción básica y accesible para cualquier bibliotecario sin experiencia técnica avanzada.
Las respuestas obtenidas por los tres chatbots fueron evaluadas minuciosamente y comparadas con las soluciones propuestas por el texto de Broughton. Para determinar su calidad, se tomaron en cuenta criterios como exactitud, validez dentro del sistema de clasificación, adecuación al tema y presencia de errores evidentes o alucinaciones (es decir, invenciones de términos o números inexistentes). Los resultados fueron reveladores. En el caso de los ejercicios de clasificación Dewey (DDC), el desempeño general fue bajo en todos los modelos. ChatGPT logró la puntuación más alta con un 26% de respuestas correctas o aceptables, mientras que Gemini obtuvo un 17% y Copilot apenas un 9%. Los errores comunes incluyeron el uso de números demasiado amplios, números correspondientes a temas incorrectos y, en algunos casos, números inexistentes.
El panorama fue aún más desalentador en la asignación de números de clasificación de la Biblioteca del Congreso (LCC). Gemini mostró un rendimiento particularmente deficiente, con una tasa de éxito del 4%, frente al 20% de ChatGPT y el 24% de Copilot. En esta categoría, los errores fueron más graves: se detectaron alucinaciones frecuentes de números inexistentes, uso incorrecto de clases generales, y asignaciones sin fundamento temático adecuado. Además, las herramientas mostraron una preocupante tendencia a reutilizar códigos ya vistos en preguntas anteriores para temas completamente diferentes, un comportamiento que pone en duda la capacidad de los chatbots para mantener consistencia temática.
En cuanto a la asignación de encabezamientos de materia LCSH, los resultados mostraron diferencias más marcadas entre los modelos. ChatGPT destacó en esta categoría, alcanzando un 54% de aciertos entre respuestas correctas, cercanas o aceptables. Gemini quedó atrás con un 26%, y Copilot tuvo el rendimiento más bajo con un 10%. Aunque la mayoría de las respuestas contenían múltiples encabezamientos sugeridos, los investigadores evaluaron el mejor de cada caso para determinar la puntuación final. ChatGPT no solo generó una mayor cantidad de encabezamientos por pregunta (promedio de 6), sino que también mostró una tasa más alta de validez semántica y estructural (63% de todos los encabezamientos sugeridos eran válidos según el sistema LCSH). Sin embargo, también cometió errores notables, como omitir subdivisiones esenciales o proponer encabezamientos demasiado generales.
Un hallazgo interesante fue la divergencia en los tipos de errores cometidos por cada chatbot. Por ejemplo, Gemini tendía a agregar subdivisiones innecesarias o inventadas, muchas veces encerradas entre corchetes, lo que indicaba inseguridad en la elección de términos. Copilot, por otro lado, proponía encabezamientos muy generales o usaba una estrategia facetada sin combinarlos en una sola cadena coherente, lo que podría hacerlo más apto para sistemas como FAST en lugar de LCSH. ChatGPT, aunque más preciso, también incurría en errores típicos de omisión o simplificación excesiva.
Los autores argumentan que, aunque ningún chatbot fue capaz de reemplazar el juicio experto del catalogador, ChatGPT mostró un nivel de rendimiento que sugiere un potencial moderado como herramienta de apoyo, especialmente en la generación de encabezamientos de materia. Sin embargo, recalcan que la intervención humana sigue siendo indispensable para verificar la existencia y pertinencia de los términos propuestos, así como para ajustar los resultados a las reglas específicas de cada sistema. De hecho, la utilidad real de estas herramientas podría residir más en su capacidad para ofrecer un punto de partida que en su aptitud para realizar tareas completas de forma autónoma.
El estudio no estuvo exento de limitaciones importantes, como el uso exclusivo de versiones gratuitas de los chatbots, la falta de interacción iterativa o de re-prompting, y el hecho de evaluar solo una respuesta por pregunta, lo cual puede dar una imagen más positiva de la real capacidad de estas herramientas. Además, los ejercicios seleccionados estaban diseñados para formar estudiantes en proceso de aprendizaje, y no necesariamente para ser evaluados bajo criterios estrictos de rendimiento profesional.
A modo de cierre, los autores señalan varias líneas prometedoras para futuras investigaciones. Entre ellas se incluyen la repetición del estudio con versiones futuras o de pago de los chatbots, la incorporación de ingeniería de prompts más compleja, y la comparación del rendimiento entre chatbots, catalogadores novatos y catalogadores que utilizan IA como apoyo. También sugieren explorar el uso de chatbots con otros sistemas de clasificación más simples o especializados, como FAST o MeSH, que podrían ser más compatibles con las limitaciones de las herramientas actuales.
En conclusión, este estudio ofrece una valiosa contribución al debate sobre el uso de IA en bibliotecas, evidenciando que aunque los chatbots no están listos para asumir tareas de catalogación temática de forma autónoma, podrían desempeñar un papel útil si son usados con criterio profesional. La clave está en combinar el potencial de la IA con el conocimiento experto del personal bibliotecario, así como en fomentar una alfabetización en IA que permita a los profesionales utilizar estas herramientas de manera crítica, efectiva y ética en el contexto de la gestión de la información.
No hay comentarios:
Publicar un comentario