Importancia de variables y problemas de correlación

Para nuestro último ateneo tuvimos el placer de recibir a Pablo Brusco, Licenciado en Computación y estudiante de doctorado en el Departamento de Computación (UBA). Pablo trabaja en temas relacionados al procesamiento de lenguaje natural y en particular en el estudio del procesamiento del habla -en donde utiliza el aprendizaje automático para analizar diálogos entre personas y poder entender pistas que producimos de manera inconsciente (como pequeños cambios en el tono de voz) que permiten conversaciones fluidas y con pocas interrupciones-. Orientó su charla en el ateneo a la medición de la importancia de variables en clasificación o regresión, y nos respondió además algunas preguntas sobre el tema:

1. ¿Las prácticas de selección de atributos son aplicables a todos los dominios de problemas por igual o existen diferencias (texto, imágenes, líneas de tiempo, etc)?

En machine learning, uno realiza selección de atributos cuando quiere obtener un subconjunto de variables que contengan gran parte de la información que relaciona las instancias (X) con el valor a predecir (y). A veces, para poder buscar una explicación a un fenómeno de alta dimensión y otras veces, para facilitar el trabajo de clasificadores o regresores que no funcionan bien en dimensiones altas. Es común trabajar en dimensiones altas en todos los campos que nombraste en la pregunta. Por lo tanto, sí, estas prácticas aplican a casi cualquier tipo de problema de machine learning.

2. ¿Crees que en los próximos años la investigación en inteligencia artificial se va centrar en entender cómo es que los modelos llegan a los resultados a los que llegan?

Actualmente no está resuelto el problema de explicar qué está aprendiendo un modelo y por qué comete los errores que comete. Además, modelos que son más sencillos de explicar, generalmente implican menor poder de predicción. En la actualidad, se organizan eventos o reuniones dentro de las principales conferencias del área dedicados exclusivamente a “model interpretability”. Creo que es importante y seguirá siendo importante poder evaluar la calidad de nuestros predictores no sólo observando su performance en un dataset, sino a través de explicaciones intrínsecas o extrínsecas (modelos que explican modelos). Mientras tanto, creo que gran parte de las aplicaciones tendrán que esperar simplemente por cuestiones éticas o por falta de seguridad en los resultados.

3. Se usa Random Forest porque es un modelo fácil de interpretar, pero hoy en día dominan las redes neuronales. ¿Crees que éstas van a poder ser igual de interpretables en los próximos años?

Random Forest no es tan sencillo de interpretar. Es un punto medio en el cual se consigue una performance razonable para muchos problemas sin necesidad de grandes búsquedas de hiperparámetros y un modelo interpretable a través de técnicas para nada perfectas que tienen debilidades poco estudiadas. Dado que hay muchas más personas intentando resolver el problema de interpretación de resultados en redes neuronales, es probable que en un futuro sepamos mejor cómo funcionan estas. Pero siempre depende del problema, la cantidad de datos de entrenamiento, el tipo de atributos que se utiliza, la correlación entre atributos, etc.