PCA
Principal Component Analysis · 1901, Karl Pearson
PCA busca una proyección lineal que maximiza la varianza retenida. La idea geométrica es rotar el sistema de coordenadas para que el nuevo eje X apunte en la dirección de mayor dispersión.
Dada la matriz centrada \(\tilde{X}\), la matriz de covarianza codifica cómo varían conjuntamente las dimensiones:
Los eigenvectores \(V\) indican las direcciones de máxima varianza. Los eigenvalores \(\lambda_i\) cuantifican cuánta varianza captura cada uno.
t-SNE
t-distributed Stochastic Neighbor Embedding · 2008, van der Maaten & Hinton
t-SNE preserva vecindades locales. Modela las similitudes en alta-D como probabilidades gaussianas y en baja-D como distribución t de Student de cola pesada.
\(\sigma_i\) se calibra por búsqueda binaria para que \(H(P_i)=\log_2(\text{perplejidad})\). Luego se simetriza: \(p_{ij}=(p_{j|i}+p_{i|j})/2n\).
La asimetría de KL penaliza más poner puntos lejos cuando deberían estar cerca (alta \(p_{ij}\), baja \(q_{ij}\)) que lo contrario → prioriza preservar vecindades sobre distancias globales.
UMAP
Uniform Manifold Approximation and Projection · 2018, McInnes et al.
UMAP asume que los datos viven en una variedad de Riemann localmente uniforme. Construye un grafo de vecindad difuso en alta-D y optimiza un embedding 2D que preserve esa topología.
donde \(\rho_i = \min_{j} d(x_i, x_j)\) asegura que cada punto tiene al menos un vecino con peso 1, y \(\sigma_i\) se calibra para que la suma de pesos sea \(\log_2(k)\).
\(w_{ij} \in [0,1]\): probabilidad de que la arista \((i,j)\) exista en la variedad. La unión difusa garantiza simetría sin perder información direccional.
Los parámetros \(a,b\) se ajustan a partir de min_dist. Para min_dist→0: \(a\approx1, b\approx1\) → kernel t-Student idéntico al de t-SNE. En la práctica con min_dist=0.1: \(a\approx1.577,\; b\approx0.895\).
min_dist: controla \(a, b\) → compacidad del embedding. Bajo → puntos compactos dentro de clusters.
Comparación directa
¿Cuándo usar cada uno?
| SITUACIÓN | PCA | t-SNE | UMAP |
|---|---|---|---|
| Visualización exploratoria | ⚠ Si lineal | ✓ Ideal | ✓ Ideal |
| Preservar estructura global | ✓ Sí | ✗ No | ⚠ Parcial |
| Transformar datos nuevos | ✓ Sí | ✗ No | ✓ Sí |
| Interpretabilidad estadística | ✓ Alta | ✗ Baja | ✗ Baja |
| Datasets grandes (>10K) | ✓ Sí | ✗ Lento | ✓ Sí |
| Preproceso para ML | ✓ Estándar | ✗ No | ⚠ Experimental |
| ScRNA-seq / bioinformática | ⚠ Preproceso | ✓ Estándar | ✓ Tendencia |
Flujo recomendado