Creando modelos de Machine Learning útiles en el campo clínico

A continuación, se presenta la traducción del texto original del artículo de los autores más adelante mencionados realizado por el equipo del comité editorial de MD&CO Consulting Group. Esta traducción se realiza con fines académicos para promover la revisión de la literatura disponible sobre el tema. Se advierte que la traducción puede presentar notas realizadas por el traductor con el objetivo de facilitar la comprensión del documento y disipar ambigüedades que puedan existir por las diferencias en los idiomas.

Shah, N., et al. (2019). Making Machine Learning Models Clinically Useful. Journal of American Medical Association. doi:10.1001/jama.2019.10306

En recientes avances de machine Learning se han creado algoritmos que han demostrado mejor precisión y resultados en los tratamientos que en algunos casos los realizados por los médicos. Con gran cantidad de datos el computador generaliza la información y crea como resultado una función o modelo que permite mapear el diagnóstico. Sin embargo, hay barreras para demostrar los benéficos que estas aplicaciones han traído al paciente, una de estas barrearas corresponde a las bases para determinar el rendimiento del modelo. Para cuantificar el rendimiento del modelo hay variables como la sensibilidad, la exactitud, el valor esperado, entre otras medidas.

Para determinar si se han tomado acciones que han mejorado la atención de los pacientes, hay que analizar factores como, la capacidad del médico para formular una acción receptiva, considerar sus costos beneficios y ejecutar dicha acción, así como demostrar la adherencia del paciente. Por ejemplo, hay muchos modelos para predecir las readmisiones hospitalarias de los pacientes, utilizando diagnósticos y datos demográficos. Sin embargo, el éxito de reducir readmisiones se ve limitado por factores como el tiempo de los médicos, la disponibilidad del personal y la habilidad para influenciar los determinantes sociales de la salud.

Un paso necesario para evaluar el rendimiento de la clasificación o predicción de modelos, es estimar el valor incremental neto de tomar acciones alternativas para los pacientes. Estos análisis se han realizado después de determinar el modelo con mejor rendimiento. El proceso de seleccionar el mejor modelo y luego evaluar si este es útil puede ser engañoso, dado que en machine Learning se crean cientos de modelos de los cuales solamente uno es seleccionado durante el proceso de aprendizaje.

En un ejemplo donde se muestran las curvas de característica operativa del receptor de dos modelos y cada modelo tiene un área bajo la curva diferente. Teniendo en cuenta los costos estimados y los beneficios de las posibles acciones para prevenir las readmisiones hospitalarias, se determina el área de mayor utilidad.

Sin embargo, aunque uno de los modelos tiene un área menor que el otro, es este el que al tomar acciones que prevengan las readmisiones tiene mayor utilidad, pues la curva de este pasa por el área de mayor utilidad. Sin embargo, esta opción nunca será considerada porque la selección del mejor modelo se basa en medidas como el área debajo de la curva. Este ejemplo muestra porque el proceso de dos pasos es más útil que el mejor modelo el cual se basa en el área bajo la curva.

Para evitar estas limitaciones del mejor modelo, es necesario incluir en la información a analizar, datos como, el número de actividades en salud y el costo beneficio de dichas acciones.

El Machine Learning puede identificar los patrones en los conjuntos de datos heterogéneos, que siempre están creciendo para crear modelos que precisamente clasifican el diagnóstico de un paciente o predice lo que el paciente puede experimentar en el futuro. Sin embargo, para realizar el beneficio potencial para los pacientes en la forma de mejor atención requiere repensar cómo el rendimiento del modelo es evaluado.