Inteligencia artificial como soporte para la detección de casos sospechosos de Covid-19
Desde Entelai queremos hacer nuestro aporte ante la epidemia de Covid-19, y ofrecemos acceso gratuito a nuestro servicio de detección de casos sospechosos en la web
Introducción
Hola a todos. Queremos contarles la historia de nuestros últimos días trabajando día y noche para adaptar nuestro algoritmo de Inteligencia Artificial (IA) para radiografía de tórax para la detección de casos sospechosos de Covid-19.
La pandemia por el virus SARS-CoV-2 (popularmente conocido como coronavirus, y que causa una enfermedad respiratoria severa denominada Covid-19) nos ha sorprendido a todos y va a tener un impacto muy profundo en los próximos meses y años. No nos cabe duda que una vez más la humanidad ante este tipo de desafío saldrá fortalecida. Pero eso no ocurre por arte de magia, sino por el esfuerzo de toda la sociedad y en este caso de los profesionales de la salud que trabajan en la prevención, contención, y tratamiento de los casos. Para ellos y sus pacientes, ponemos a disposición nuestros algoritmos de radiografía de tórax para detección de casos sospechosos de Covid-19. Debajo resumimos un poco de información acerca de lo que produce la infección en los pulmones y se puede ver en la radiografía de tórax y luego contamos el desarrollo de nuestra herramienta.
Diagnóstico y hallazgos radiológicos en neumonía por Covid-19
La radiografía de tórax es el primer método de estudio recomendado ante la sospecha de infección por Covid-19 y su interpretación es determinante en el manejo de estos pacientes. Es un método rápido y accesible para el clínico, y disponible en centros con distintos grados de complejidad. En palabras de la Dra. Mercedes Serra, Directora Médica de Entelai: “Hasta el momento, el 77% de los pacientes con afección severa por COVID-19, y el 54% de aquellos con afección más leve, muestran alguna alteración visible en radiografía de tórax.” Esto es un dato muy importante, porque incluso en el caso de un sistema que analice radiografías de tórax que detecte el 100% de los casos con Covid-19, sólo lo haría en el 77% de los pacientes severos.
Los hallazgos más característicos son opacidades parcheadas en vidrio esmerilado que afectan en general varios lóbulos, o incluso ambos campos pulmonares, a predominio periférico. Estos hallazgos pueden permitir diferenciar la neumonía por Covid-19, de neumonías bacterianas, donde la afección segmentaria o lobar, con patrón alveolar y tendencia a la consolidación, es más frecuente. Diferenciar la neumonía por Covid-19 de otras neumonías virales o por otros gérmenes atípicos puede resultar más difícil. Sin embargo, se han descrito otras características, como la afección a predominio perihiliar (central) o la presencia de derrame pleural, que pueden ayudar a diferenciar estos casos.
Otro método utilizado para la detección de neumonía por Covid-19 es la tomografía computada (TC), que suele ser más sensible para la detección en general de neumonía, pero expone al paciente a mayor radiación, es más costosa, y no necesariamente contribuye a la diferenciación con Covid-19. Sumado a esto, se expone al paciente a mayor riesgo de contagio hospitalario si el equipo no es limpiado adecuadamente. Por estas razones, el Colegio Americano de Radiología no recomienda el uso de TC como primera línea en estos pacientes, y sugiere en cambio el uso de equipos portátiles de radiología que son más fáciles de limpiar y se evita la contaminación de salas de radiología.
Independientemente de los síntomas (tos, fiebre) y de los hallazgos en radiografía de tórax, el diagnóstico de la enfermedad por el virus SARS-CoV-2 se hace por una técnica de laboratorio llamada PCR según las recomendaciones de la Organización Mundial de la Salud. Es decir, uno no puede realizar el diagnóstico de Covid-19 únicamente con la interpretación (con o sin ayuda de IA) de la radiografía de tórax. Sin embargo, el test diagnóstico muchas veces no está disponible, o tiene demoras en la obtención de los resultados. Por tal motivo, detectar clínica y radiológicamente a los pacientes con mayor sospecha de la enfermedad, puede ser de gran utilidad al momento de decidir el manejo y el abordaje diagnóstico-terapéutico de un paciente en la emergencia. Y ahí es donde creemos que un sistema de IA entrenado para detectar casos sospechosos de Covid-19 en radiografía de tórax, puede ser de ayuda para los profesionales de la salud. Es por eso, que trabajamos muy duro en los últimos días, para poder darle a los médicos en la primera línea, una herramienta adicional, que esperamos le sea de utilidad durante el transcurso de la pandemia. Debajo les contamos brevemente como lo hicimos.
Entrenamiento del sistema
Los algoritmos de IA aprenden como los médicos, a través del estudio y el análisis de muchos casos, pueden abstraer patrones, inferir los hallazgos clave entre una y otra enfermedad y de esa manera, predecir o clasificar problemas médicos. Por ejemplo, dada una cantidad de imágenes de radiografías de tórax normales, y un conjunto de radiografías de pacientes con neumonía, los médicos y la IA pueden aprender a distinguirlos por sus características (presencia de consolidación o manchas en la radiografía, etc). Para esta tarea entonces, obtuvimos alrededor de 100 imágenes de pacientes confirmados con Covid-19 y otros pacientes con neumonías similares, así como un grupo control sin neumonía respetando la distribución de edad y género. La distribución de edad o género es importante (que en cada grupo haya cantidades similares de mujeres y hombres y de un rango etario equivalente), dado que si no el sistema puede aprender a diferenciarlo por otras características ajenas a la presencia o no de Covid-19, como por ejemplo la osificación en menores que no está presente en adultos. La Dra. Mercedes Serra armó un dataset completo basado en imágenes obtenidas principalmente de estos sitios:
- https://www.sirm.org/category/senza-categoria/covid-19/
- https://www.eurorad.org/
- https://github.com/ieee8023/covid-chestxray-dataset
- https://www.kaggle.com/kmader/pulmonary-chest-xray-abnormalities
- https://www.kaggle.com/nih-chest-xrays/data
- https://www.kaggle.com/c/rsna-pneumonia-detection-challenge
- https://github.com/BIMCV-CSUSP/BIMCV-COVID-19
- Repositorio Entelai
- https://radiopaedia.org/cases
Una vez configurada la base de datos de imágenes que el sistema va a usar para aprender, se le presentan las imágenes para que empiece a reconocer sus diferencias y eventualmente pueda hacer predicciones cada vez que se le presenta una imagen nueva. En este caso, nuestra IA ya estaba entrenada para reconocer radiografías normales de anormales, así que en este caso, se trató de un ajuste fino (normalmente para “aprender” de cero, el sistema necesita miles de imágenes). Francisco Dorr es nuestro científico de datos que estuve entrenando incansablemente a nuestra IA para que “aprenda” rápidamente a detectar estos casos utilizando un tipo de red neuronal conocida como DenseNet121. El resultado que brinda la IA es un porcentaje asociado a cada etiqueta. Por ejemplo, Neumonía por Covid-19 90%, Otras neumonías 9%, Normal / Otros hallazgos 1% es un resultado que se puede ver en un caso altamente sospechoso. En palabras de Francisco: “Los porcentajes que se brindan como resultados son una medida de que tan segura está la red a la hora de hacer una predicción sobre una enfermedad. Puede variar entre 0 y 100. Cuanto más alto, más segura se siente la red del resultado que está dando. Si tiene dudas, los porcentajes serán similares en todas las clases”.
Resultados
Inicialmente, dividimos el conjunto de datos de entrenamiento (116 casos por cada categoría) le pedimos a la IA que detecte aquellos casos sospechosos de neumonía por Covid-19. Debajo sus resultados:
- Sensibilidad: 84%
- Especificidad: 91%
- Valor predictivo positivo: 83%
- AUROC: 0.93
Haremos un comentario de cada uno de estos resultados. La sensibilidad es el porcentaje de personas que tienen la enfermedad que dan positivas con el sistema. Es decir en este caso que de 10 personas enfermas, el sistema detectaría 8.4 personas, y fallaría en detectar a 1.6 personas. La especificidad por otra parte es el porcentaje de personas que no tienen la enfermedad y que el sistema clasifica como negativos. Es decir que de 10 personas sanas o sin la enfermedad, el sistema clasifica como sanas 9.1 personas y a 0.9 personas le dice incorrectamente que tienen la enfermedad. El valor predictivo positivo o VPP es la probabilidad de tener la enfermedad si el resultado de la prueba es positivo. Y finalmente el AUROC o área bajo la curva es una medida que resume la efectividad de un clasificador, considerándose valores por encima de 0.70 como buenos y mayores a 0.90 como muy buenos o excelentes. Esto quiere decir que para el conjunto de radiografías utilizado, Entelai tuvo un buen rendimiento en la clasificación de probables neumonías Covid-19.
Ahora ¿Que pasaría si exponemos a este sistema a un conjunto de radiografías completamente diferentes (otros países, otros equipos, otros pacientes)? Dentro del conjunto de datos inicial, se separa una parte independiente que se utiliza para evaluar al sistema una vez entrenado, y realizar la validación interna. Si bien las imágenes son distintas a las utilizadas para entrenar, parten de las mismas bases y, por lo tanto, se evalúa el funcionamiento de los mismo equipos y la misma población con la cual se entrenó la red. La validación externa se realiza entonces como una segunda prueba, más exigente, con un conjunto de datos de bases completamente independientes del conjunto con el cuál se entrenó el sistema. Esto permite ver si los datos reflejados en la primera prueba son robustos y extrapolables a otros equipos y poblaciones. Esta validación con un conjunto externo de datos es fundamental para asegurar un rendimiento adecuado de cualquier sistema de IA o de predicción. Generalmente, sobre todo en este escenario de un entrenamiento con pocas imágenes, se espera una merma en el rendimiento. Debajo los resultados:
- Sensibilidad: 70%
- Especificidad: 79%
- Valor predictivo positivo: 67%
- AUROC: 0.74
Los resultados no son tan precisos porque el sistema no se siente tan seguro ante imágenes completamente nuevas o desconocidas en su entrenamiento. Es de esperar entonces, que el sistema tenga un rendimiento en la vida real más cercano a la validación externa que a los números optimistas de su entrenamiento inicial.
De cualquier manera, la evidencia sugiere que en condiciones normales la sensibilidad de los médicos clínicos o de emergencia para la detección de patologías en radiografía de tórax oscila entre el 20-69% (sin contar algo novedoso como el Covid-19).
Hoy estos profesionales son quienes están en la primera línea de esta batalla y creemos que los resultados de Entelai Covid-19 los podrían ayudar.
Alcances y limitaciones
Es muy importante tener en cuenta las limitaciones de este modelo, a saber:
- Número de imágenes utilizadas en el entrenamiento: Alrededor de 100 imágenes por categoría se usaron en este modelo para el ajuste y predicción final, y la regla en general es que mientras mayor cantidad de imágenes, mejor rendimiento del sistema. Estamos trabajando contra-reloj para ir incrementando el número de imágenes. Agradecemos y convocamos a médicos y profesionales de la salud que puedan sumar las imágenes de los pacientes para enriquecer esta herramienta. Con el correr de las semanas le daremos más imágenes al sistema para que aprenda más y mejore su rendimiento.
- Validación del sistema: este sistema fue entrenado con imágenes de adultos principalmente de China e Italia, con lo cual no necesariamente su rendimiento sea equivalente en imágenes de pacientes de otras regiones, o testeados con otros equipamientos. Por eso es siempre importante hacer pruebas locales y validaciones externas con otros conjuntos de datos, como hace Entelai siempre con sus desarrollos. Hasta que no se realicen esos experimentos, el rendimiento obtenido en el entrenamiento inicial, puede distar mucho del obtenido en la práctica y es una de la razones por la cual esta herramienta es solo para uso experimental por profesionales médicos.
- Sesgos de selección: las imágenes tomadas para este dataset no fueron recolectadas con criterios claros y específicos, con lo cual pueden existir sesgos que afecten el rendimiento del sistema. Por ejemplo, que solo se suban los casos más severos y notorios, dejando de lado los casos más moderados y con hallazgos quizás distintos en las radiografías. Así, el algoritmo estaría sesgado a solo detectar los casos severos e ignorar los más leves. Eso podría conducir a errores adicionales y menor tasa de detección.
Precisamente por estas limitaciones, Entelai siempre realiza en sus desarrollos un triple control de calidad, interno (nuestros datos), externo (otros datos y rendimientos de otros grupos de investigación) y por equipos y clientes (para asegurar el correcto rendimiento en cada equipo de cada cliente en los distintos países que operamos. Esto es significativamente más laborioso y lento, pero da una certeza única a los médicos y pacientes de la calidad con la que se trabaja. Finalmente, trabajamos con las distintas agencias regulatorias para que validen y aprueben la calidad y la seguridad de nuestros desarrollos.
¿Por qué entonces generar y ofrecer una herramienta que no cumple con ninguno de estos controles de calidad?
Esta pregunta estuvo en nuestras cabezas muchos días y fue motivo de debate interno. Estamos atravesando una situación de urgencia ante la pandemia global y es vital acelerar los tiempos de detección para lograr diagnósticos rápidos y mejores. Además, a escala mundial, existe un faltante de materiales e incluso de profesionales médicos que puedan brindar una atención de calidad a los pacientes en el pico de la demanda. Ante este panorama consideramos fundamental realizar un aporte concreto con herramientas de IA que contribuyan a mejorar la práctica sanitaria.
¿La emergencia es motivo suficiente para relajar estos controles de calidad o es mejor esperar a tener todas las validaciones y ofrecer esta ayuda en 4 o 6 meses?
Honestamente no sabemos la respuesta, no sabemos si hay una opción correcta y decidimos que sean los médicos usuarios los que finalmente “validen” la utilidad de contar ahora con esta herramienta poniendo en conocimiento sus limitaciones. En la actualidad, los tomadores de decisiones de todo el mundo están evaluando y pensando medidas en la urgencia, sin contar con experiencia y datos y seguramente aprendamos y estemos mejor preparados ante un nuevo escenario de pandemia. Si los médicos la encuentran útil, y contribuye a salvar aunque sea una vida, el esfuerzo habrá valido la pena.
El Equipo de Entelai (Mauricio Farez, Diego Fernández Slezak, Carlos Cicogna, Macarena Gonzalez, María Mercedes Serra, Hernán Chaves, Pablo Heide, Martín Elías Costa, Francisco Dorr, Joaquín Seia, Andrés Ramirez, Iván Donoso)
Accede a la página en https://www.covid.entelai.com