¿Pueden los chatbots de inteligencia artificial dar respuestas correctas sobre el cáncer?
, por Edward Winstead
Las tecnologías de inteligencia artificial (IA) se han convertido en parte de la vida cotidiana para muchas personas, como para las compras en línea y las redes sociales. Pero ¿es posible que los chatbots de IA ofrezcan a las personas información precisa sobre el cáncer y el tratamiento?
Según dos estudios nuevos, aún no. Los investigadores observaron que, aunque los chatbots de IA son capaces de recopilar información sobre el cáncer de fuentes fiables, las respuestas que dan incluyen errores, omisiones y están en lenguaje escrito para profesionales médicos y no para pacientes.
“La IA está en su infancia”, afirmó la doctora Danielle Bitterman, del Programa de Inteligencia Artificial en Medicina del Mass General Brigham en Boston, que dirigió uno de los estudios. “Los chatbots de IA resumen la información médica, pero aún no son capaces de generar respuestas confiables a las preguntas clínicas de los pacientes de forma constante”.
Ella y sus colegas pidieron a la versión 3.5 de ChatGPT que describiera algunos métodos de tratamiento básicos para distintos tipos de cáncer (por ejemplo, “¿Cuál es el tratamiento para el cáncer de mama en estadio 1?”).
Casi todas las respuestas del chatbot incluían al menos un método de tratamiento que coincidía con las pautas clínicas de los expertos. Pero alrededor de un tercio de las respuestas incluían al menos una recomendación que no estaba en las pautas clínicas.
En el segundo estudio se ingresaron consultas a cuatro chatbots, incluso a la misma versión de ChatGPT, sobre tipos comunes de cáncer (por ejemplo, “¿Qué es el cáncer de próstata?”). Los investigadores descubrieron que, en general, los chatbots ofrecían información precisa sobre los distintos tipos de cáncer, pero muchas de las respuestas eran demasiado técnicas para el paciente promedio.
Ambos grupos publicaron sus hallazgos el 24 de agosto en la JAMA Oncology.
“Estos estudios ilustran por qué no estamos listos para depender de estas herramientas ni para sugerir a los pacientes y al público que las usen para buscar información sobre el cáncer”, comentó la doctora Wen-Ying Sylvia Chou, investigadora en comunicación de la salud de la División de Control del Cáncer y Ciencias Demográficas del Instituto Nacional del Cáncer (NCI), que no participó en los estudios.
“Pero la tecnología de IA seguirá con nosotros”, agregó la doctora Chou. “Esta investigación abre la puerta a un debate reflexivo sobre los beneficios y los daños relacionados con el uso de la IA en la comunicación y la atención oncológica”.
Evaluación de los chatbots en el mercado
La inteligencia artificial se refiere a la capacidad de una computadora para realizar funciones que se suelen relacionar con el comportamiento humano inteligente, como aprender, razonar y resolver problemas.
Los chatbots son un tipo de IA impulsada por grandes modelos de lenguaje. Interpretan preguntas y generan respuestas textuales que suenan como si las hubiera escrito una persona. Los modelos se entrenan con cantidades grandes de información, como los textos de Internet.
Los chatbots evaluados en estos estudios eran modelos disponibles que se supone que no estaban entrenados con una selección de información médica. Sin embargo, en un editorial que acompaña el estudio, el doctor y licenciado en Medicina Atul Butte, director del Instituto Bakar de Ciencias Computacionales de la Salud de la Universidad de California en San Francisco (UCSF), indicó que se están introduciendo en el mercado modelos más novedosos con entrenamiento médico específico.
En ambos estudios se destacan tanto los aspectos prometedores como las limitaciones actuales de algunos chatbots. Por ejemplo, los chatbots son capaces de combinar a la perfección las recomendaciones de tratamiento correctas e incorrectas, lo que hace que sea difícil, incluso para los expertos, detectar los errores, señaló la doctora Bitterman.
Comentó que “los grandes modelos de lenguaje se entrenan para predecir la siguiente palabra de una frase”. “El objetivo principal es responder con fluidez y coherencia lingüística, así que las respuestas incorrectas no nos sorprendieron”.
Preguntarle a un chatbot sobre los cánceres comunes
El equipo de la doctora Bitterman se centró en tres cánceres comunes: cáncer de mama (seno), cáncer de pulmón y cáncer de próstata. Redactaron cuatro preguntas o instrucciones un poco diferentes sobre las estrategias de tratamiento para 26 diagnósticos de estos cánceres, como el cáncer de mama en estadio temprano (o “localizado”) o el cáncer de pulmón avanzado.
Los investigadores compararon las respuestas con las pautas de la Red Nacional Oncológica Integral (NCCN) para esos tipos de cáncer. En el estudio se usaron las pautas de la NCCN de 2021 como referencia porque la versión de ChatGPT utilizada, GPT-3.5-turbo-0301, se creó con los datos disponibles hasta septiembre de 2021.
Tres profesionales de oncología calificaron las 104 respuestas. El chatbot ofreció al menos 1 recomendación para 102 de las 104 consultas (98 %). Pero los investigadores encontraron que 35 de 102 ( 34,3 %) de estas respuestas también recomendaban 1 o más tratamientos que no coincidían con las recomendaciones.
Además, muchas veces los profesionales de oncología no estaban de acuerdo sobre si una respuesta de ChatGPT era correcta. Los investigadores creen que el desacuerdo se debe a la complejidad de las pautas de la NCCN y al hecho de que las respuestas de ChatGPT son poco claras o difíciles de interpretar.
Cabe destacar que 13 respuestas (13 %) incluían estrategias de tratamiento que no formaban parte de ningún tratamiento recomendado. Estas respuestas incorporaban estrategias de tratamiento que no aparecían en ninguna de las pautas o que no tenían sentido, algo que los investigadores de IA llaman “alucinaciones”.
Cuatro chatbots a prueba
En el segundo estudio, se evaluaron 100 respuestas provistas por ChatGPT-3.5, Perplexity, Chatsonic y Bing AI tras ingresar texto de consulta sobre cinco de los cánceres más comunes (cáncer de piel, cáncer de pulmón, cáncer de mama, cáncer colorrectal y cáncer de próstata).
Las frases de consulta, como “examen de detección de cáncer colorrectal”, “signos de cáncer de mama” y “melanoma”, surgieron de las búsquedas principales en Google sobre estos tipos de cáncer entre 2021 y 2022.
Los investigadores encontraron que tres de los chatbots respondieron con información sobre el cáncer de fuentes fidedignas, como la Sociedad Americana contra el Cáncer (ACS), la Mayo Clinic, el Instituto Nacional del Cáncer (NCI) y los Centros para el Control y la Prevención de Enfermedades (CDC).
Pero, según los investigadores, los chatbots no siempre logran explicar conceptos médicos complejos solo mediante el texto. Señalaron que conceptos como “ganglios linfáticos inflamados”, por ejemplo, son difíciles de explicar sin diagramas o ayudas visuales.
Advirtieron además que algunas respuestas se redactaron a un nivel de lectura universitario. En estudios futuros, pondrán a prueba consultas que ayuden a obtener respuestas más fáciles de entender.
“Muchas de las respuestas del chatbot eran demasiado complejas para que el paciente promedio las entendiera”, indicó el director del estudio, el doctor Abdo Kabarriti, de la Facultad de Ciencias de la Salud Downstate de la Universidad del Estado de Nueva York (SUNY Downstate).
“Los chatbots pueden ser muy inteligentes”, agregó el doctor Kabarriti. “Pero cuando se trata de responder a las preguntas de un paciente sobre el cáncer, no sustituyen a los médicos”.
Los investigadores señalaron que, si los chatbots son más acertados en el futuro, una función más adecuada sería que sirvan como un recurso adicional para los pacientes de cáncer y sus familiares.
Muchos pacientes reciben tanta información en sus citas médicas que a veces es difícil recordarlo todo, comentó el doctor Kabarriti. Añadió que, es posible que los chatbots sirvan para “recalcar” algunas ideas generales de estas conversaciones.
Ampliación de las aplicaciones médicas de los chatbots
Los nuevos estudios “son de los primeros en explorar cómo usar los grandes modelos de lenguaje en la investigación y la atención oncológica”, comentó el doctor Butte, y añadió que espera que haya muchos más estudios.
Los chatbots ya demostraron ser prometedores en la comunicación médica. En un estudio, los investigadores encontraron que los recursos con IA escribían respuestas empáticas a las preguntas de los pacientes que se habían publicado en un foro en línea. Según los investigadores, los resultados indican que la IA podría ayudar a los médicos que están muy atareados a redactar las respuestas de correo electrónico a los pacientes.
Y ahora que ChatGPT-3.5 aprobó partes de un examen para obtener la licencia médica, algunos investigadores indicaron que es posible que los grandes modelos de lenguaje ayuden en la educación médica y, potencialmente, en la toma de decisiones clínicas.
Sin embargo, la doctora Bitterman indicó que los chatbots quizás respondan mejor a las preguntas de un examen de certificación que a las preguntas médicas de los pacientes. Le preocupa que los pacientes tomen al pie de la letra las recomendaciones de un chatbot.
Señaló que, “Es emocionante lo que promete la tecnología de IA, pero no podemos arriesgarnos con la seguridad del paciente”. “Necesitamos dedicar tiempo a optimizar estos grandes modelos de lenguaje y a evaluar su rendimiento y seguridad ahora”.
Creación de nuevos sistemas de IA para buscar información sobre el cáncer
La tecnología de IA cambia tan rápido que algunos de los chatbots que los investigadores evaluaron quizás ya estén desactualizados.
Así como la IA evoluciona, también cambian las recomendaciones para el tratamiento del cáncer. Según algunos expertos, las organizaciones y compañías que crean la tecnología de IA deben descifrar la forma de asegurar que los chatbots obtengan sus datos de los conocimientos médicos más recientes.
Saber más sobre cómo se usa hoy en día la IA para buscar información sobre el cáncer ayudaría a tomar decisiones sobre los sistemas de IA futuros, indicó la doctora Chou.
Y a medida que se elaboren estos sistemas, añadió, los desarrolladores deben tener en cuenta que las decisiones, como qué datos usar para entrenar los modelos de lenguaje, tienen repercusiones. Por ejemplo, si en esos datos se excluyen a ciertos grupos de pacientes, ese sesgo se reflejará en las respuestas.
“Como comunidad, debemos crear puntos de referencia y estándares sobre cómo vamos a evaluar estos modelos a medida que avanzamos con el uso de aplicaciones más clínicas”, comentó la doctora Bitterman.