Los conjuntos de datos BRAINTEASER: datos clínicos, de dispositivos wearables y ambientales para la modelización de la progresión de la esclerosis lateral amiotrófica (ELA) y la esclerosis múltiple (EM)
Ref.: https://doi.org/10.1038/s41597-025-06095-1
La esclerosis lateral amiotrófica (ELA) es una enfermedad compleja que presenta una progresión impredecible, lo que supone un desafío significativo para la atención clínica y la planificación del cuidado a largo plazo. Ante esta realidad, el proyecto europeo BRAINTEASER (acrónimo traducido de "Llevando la inteligencia artificial al hogar para un mejor cuidado de la esclerosis lateral amiotrófica y la esclerosis múltiple") se estableció con el objetivo de fomentar la colaboración entre médicos e ingenieros para desarrollar herramientas de predicción automática basadas en la Inteligencia Artificial (IA). Estas herramientas buscan modelar el avance de la enfermedad, lo que podría conducir a una atención más personalizada, mejorando notablemente la calidad de vida de los pacientes y sus cuidadores.
Un obstáculo histórico para el desarrollo de estas herramientas predictivas es la escasa disponibilidad de datos de calidad. Para solventar esta necesidad, el proyecto BRAINTEASER ha recopilado un gran conjunto de información en cuatro grandes bases de datos de instituciones médicas de Italia, Portugal y España. Específicamente, para la ELA, los investigadores han filtrado y validado datos clínicos de un total de 2.290 pacientes. A diferencia de muchos recursos existentes, los datos de BRAINTEASER provienen de la práctica clínica habitual, asegurando que los modelos de IA se entrenen con información que refleje fielmente los escenarios del mundo real.
Los datos de ELA están divididos en dos grupos principales: retrospectivos (reunidos antes del inicio del proyecto) y prospectivos (recogidos durante el proyecto). El conjunto de datos retrospectivos de ELA es el más extenso, con información de 2.204 pacientes. Estos registros incluyen datos clínicos estáticos, resultados de cuestionarios como el ALSFRS-R (escala utilizada para evaluar la función motora y la progresión), pruebas de espirometría (función respiratoria), y detalles sobre exposición a contaminantes ambientales. Además, se cuenta con un conjunto de datos prospectivos de 86 pacientes, a quienes se les realizó un seguimiento con una mediana de 270 días. Este grupo proporcionó información valiosa, no solo a través de evaluaciones clínicas de la ALSFRS-R, sino también mediante la autoevaluación realizada por los propios pacientes con una aplicación móvil.
Una característica fundamental del proyecto es la inclusión de datos que van más allá del ámbito clínico tradicional. Los conjuntos de datos incluyen información obtenida mediante dispositivos wearables (como un reloj inteligente), que registraron parámetros vitales diarios como la frecuencia cardíaca y la frecuencia respiratoria. También se integraron datos ambientales detallados, como la exposición diaria a contaminantes del aire y factores meteorológicos como la temperatura y la precipitación. El valor de esta combinación radica en la posibilidad de explorar si factores externos e internos influyen en la velocidad de progresión de la enfermedad.
Para asegurar la fiabilidad y la calidad de estos datos, fueron validados por la comunidad científica a través de tres ediciones de desafíos internacionales conocidos como iDPP@CLEF (entre 2022 y 2024). Estos desafíos se enfocaron en predecir eventos cruciales para la planificación del cuidado en la ELA, tales como la necesidad de recurrir a la ventilación mecánica no invasiva (NIV), la colocación de una gastrostomía endoscópica percutánea (PEG), o la predicción de la supervivencia del paciente. La existencia y el uso de estos datos, completamente anonimizados y tratados bajo estrictos principios éticos, representan un avance esperanzador en la investigación de la ELA, pues permiten a los investigadores desarrollar modelos de predicción más precisos que, en última instancia, buscarán brindar a los pacientes la atención más adecuada en el momento justo.
A pesar de los desafíos inherentes a la recopilación de datos clínicos en la vida real, como los valores ausentes o la variabilidad en los tiempos de consulta, estos conjuntos de datos proporcionan una base realista y práctica para el entrenamiento de la próxima generación de herramientas impulsadas por IA.