Proyectos / Modelo multimodal para Parkinson
arrow_back Volver a proyectos
rocket_launch Case study

Modelo multimodal para clasificar Parkinson

Enfoque no invasivo basado en video (marcha + expresión facial) con representaciones SPD y aprendizaje Riemanniano para apoyar la clasificación de patrones motores asociados a la Enfermedad de Parkinson.

PyTorch Python TensorFlow OpenCV MediaPipe
Pipeline del modelo multimodal (marcha + rostro) Descriptores SPD: matrices de covarianza Modalidades: marcha y expresión facial Resumen de resultados / artículo
v1.0 • Pipeline / Resultados

Descripción del proyecto

Estrategia no invasiva y multimodal para apoyar la clasificación de Enfermedad de Parkinson (EP) a partir de video, integrando dos señales clínicas complementarias: marcha y expresión facial durante ejercicios de habla. El proyecto busca reducir la dependencia de evaluaciones únicamente observacionales y capturar patrones motores que pueden manifestarse en distintos momentos de la progresión. Mi aporte se centró en el diseño del pipeline de representación geométrica: extracción de landmarks, construcción de descriptores de covarianza (matrices SPD) y entrenamiento de un modelo de aprendizaje Riemanniano con ramas por modalidad y fusión tardía para una predicción unificada.

target Problema

El diagnóstico y seguimiento de la EP se apoya en observación clínica (marcha, hipomimia, disartria), lo que introduce variabilidad entre evaluadores y pacientes. Además, los enfoques unimodales suelen fallar cuando el síntoma dominante no queda bien representado (solo marcha o solo cara), reduciendo robustez y utilidad en escenarios reales.

auto_awesome Solución

Se extrajeron puntos anatómicos del cuerpo y marcadores faciales desde videos. La marcha se modeló con quaternions para capturar articulación/rotación, y la cara con cinemática (posición, velocidad, aceleración). Luego se construyeron descriptores de covarianza (SPD) y se entrenaron ramas Riemannianas independientes por modalidad, fusionadas en una capa Euclidiana final para clasificar EP vs controles.

Aspectos importantes

  • check_circle Pipeline no invasivo basado en video: extracción de landmarks corporales y faciales sin sensores físicos.
  • check_circle Representación de segundo orden con matrices SPD y aprendizaje geométrico en variedad Riemanniana.
  • check_circle Fusión tardía multimodal (marcha + cara) para robustez ante variabilidad de síntomas entre pacientes.

Resultados

Evaluado en 580 grabaciones de video (11 pacientes con EP y 18 controles), el modelo alcanzó 92% ± 0.02 de accuracy y 0.90 ± 0.03 de AUC. La integración de marcha y expresión facial con aprendizaje Riemanniano mejora la discriminación frente a enfoques unimodales y aporta potencial para herramientas de apoyo en entornos clínicos.

home Volver a la página principal