Sparse PCA y biomarcadores: entender más, suponer menos

Cómo mejorar la interpretabilidad en modelos estadísticos complejos sin perder precisión

En congresos como el Scandinavian Symposium on Chemometrics (SSC2025), se discuten métodos avanzados que tienen un gran potencial para aplicaciones reales. Uno de ellos es Sparse PCA (SPCA) — una técnica utilizada para reducir la complejidad de los datos seleccionando solo las variables más relevantes.

El investigador y cofundador de Datharsis, José Camacho, presentó una versión corregida de SPCA que permite interpretar mejor los resultados en contextos como la búsqueda de biomarcadores.

Aquí te explicamos por qué esto importa, y cómo puede ayudarte si trabajas con datos en biotecnología, salud o investigación experimental.

¿Qué es Sparse PCA?

PCA (Análisis de Componentes Principales) es una técnica común para reducir la dimensionalidad. SPCA añade un paso más: obliga a que algunas variables tengan peso cero, lo que facilita identificar las más importantes. En otras palabras, SPCA te ayuda a elegir qué variables merecen tu atención.

¿Dónde puede fallar?

José Camacho advierte que, si no entendemos cómo actúa el algoritmo, podemos interpretar mal los resultados. Por ejemplo:
  • Las variables seleccionadas pueden no ser las verdaderamente causales, sino variables correlacionadas.
  • Si usamos ciertas variantes del algoritmo (con deflation y cargas no ortogonales), podemos generar artefactos que distorsionen las conclusiones.

Una versión corregida (y útil)

La nueva versión de SPCA que presentó permite:
  • Controlar cuántas variables relevantes se seleccionan por componente
  • Calcular correctamente las puntuaciones y varianza explicada
  • Identificar dos tipos de variables:
    • Representantes: las seleccionadas por el modelo
    • Asociadas: otras variables muy correlacionadas que podrían haber sido seleccionadas también
Esto abre la puerta a una interpretación más rica y honesta de los resultados, especialmente útil en contextos como el descubrimiento de biomarcadores.

Para saber más

Artículos científicos

  1. Camacho, J., Smilde, A.K., Saccenti, E., Westerhuis, J. All Sparse PCA Models Are Wrong, But Some Are Useful. Part I: Computation of Scores, Residuals and Explained Variance. Chemometrics and Intelligent Laboratory Systems, 2020, 196: 1039072. https://doi.org/10.1016/j.chemolab.2019.103907
  2. Camacho, J., Smilde, A.K., Saccenti, E., Westerhuis, J., Bro, R. All Sparse PCA Models Are Wrong, But Some Are Useful. Part II: Limitations and Problems of Deflation . Chemometrics and Intelligent Laboratory Systems, 2021, 208: 104212. https://doi.org/10.1016/j.chemolab.2020.104212
  3. Camacho, J., Smilde, A.K., Saccenti, E., Westerhuis, J., Bro, R. All Sparse PCA Models Are Wrong, But Some Are Useful. Part III: Model Interpretation. Submitted to Chemometrics and Intelligent Laboratory Systems, 2025.

Repositorios de código / herramientas

Proyectos relacionados

¿Quieres explorar cómo SPCA u otras técnicas exploratorias podrían beneficiar tu proyecto?
Scroll al inicio