Cómo mejorar la interpretabilidad en modelos estadísticos complejos sin perder precisión
En congresos como el Scandinavian Symposium on Chemometrics (SSC2025), se discuten métodos avanzados que tienen un gran potencial para aplicaciones reales. Uno de ellos es Sparse PCA (SPCA) — una técnica utilizada para reducir la complejidad de los datos seleccionando solo las variables más relevantes.
El investigador y cofundador de Datharsis, José Camacho, presentó una versión corregida de SPCA que permite interpretar mejor los resultados en contextos como la búsqueda de biomarcadores.
Aquí te explicamos por qué esto importa, y cómo puede ayudarte si trabajas con datos en biotecnología, salud o investigación experimental.
¿Qué es Sparse PCA?
PCA (Análisis de Componentes Principales) es una técnica común para reducir la dimensionalidad. SPCA añade un paso más: obliga a que algunas variables tengan peso cero, lo que facilita identificar las más importantes. En otras palabras, SPCA te ayuda a elegir qué variables merecen tu atención.
¿Dónde puede fallar?
- Las variables seleccionadas pueden no ser las verdaderamente causales, sino variables correlacionadas.
- Si usamos ciertas variantes del algoritmo (con deflation y cargas no ortogonales), podemos generar artefactos que distorsionen las conclusiones.
Una versión corregida (y útil)
- Controlar cuántas variables relevantes se seleccionan por componente
- Calcular correctamente las puntuaciones y varianza explicada
- Identificar dos tipos de variables:
- Representantes: las seleccionadas por el modelo
- Asociadas: otras variables muy correlacionadas que podrían haber sido seleccionadas también
Para saber más
Artículos científicos
- Camacho, J., Smilde, A.K., Saccenti, E., Westerhuis, J. All Sparse PCA Models Are Wrong, But Some Are Useful. Part I: Computation of Scores, Residuals and Explained Variance. Chemometrics and Intelligent Laboratory Systems, 2020, 196: 1039072. https://doi.org/10.1016/j.chemolab.2019.103907
- Camacho, J., Smilde, A.K., Saccenti, E., Westerhuis, J., Bro, R. All Sparse PCA Models Are Wrong, But Some Are Useful. Part II: Limitations and Problems of Deflation . Chemometrics and Intelligent Laboratory Systems, 2021, 208: 104212. https://doi.org/10.1016/j.chemolab.2020.104212
- Camacho, J., Smilde, A.K., Saccenti, E., Westerhuis, J., Bro, R. All Sparse PCA Models Are Wrong, But Some Are Useful. Part III: Model Interpretation. Submitted to Chemometrics and Intelligent Laboratory Systems, 2025.
Repositorios de código / herramientas
- MEDA Toolbox v1.8 (con rutinas SPCA corregidas): https://github.com/josecamachop/MEDA-Toolbox/releases/tag/v1.8
- Código base para SPCA corregido: https://github.com/josecamachop/SparsePCAIII
Proyectos relacionados
- Proyecto MuSTARD (Multi-scale Spatio-Temporal Analysis of Research Data): https://codas.ugr.es/mustard/es/

