Computational Intelligence, SS08
2 VO 442.070 + 1 RU 708.070 last updated:
General
Course Notes (Skriptum)
Online Tutorials
Introduction to Matlab
Neural Network Toolbox
OCR with ANNs
Adaptive Filters
VC dimension
Gaussian Statistics
PCA, ICA, Blind Source Separation
Hidden Markov Models
Mixtures of Gaussians
Automatic Speech Recognition
Practical Course Slides
Homework
Exams
Animated Algorithms
Interactive Tests
Key Definitions
Downloads
Literature and Links
News
mailto:webmaster


Subsections



Principal Component Analysis

Einleitung

Principal Component Analysis ist eine klassische Methode der Statistik, aus der später auch andere Methoden wie Independent Component Analysis hervorgingen. Ziel der PCA ist es, eine Dekorrelation zweiter Ordnung zwischen den einzelnen Signalen eines Signalvektors $ \mathbf{x}$ durchzuführen. Dies hat gleichzeitig den Effekt, dass die Daten dabei auf eine orthonormale Basis projeziert werden, deren Basisvektoren in Richtung der größten Energieanteile zeigen.

Figure 5: In Richtung der größten Energieanteile steckt vermutlich am meisten Information
\includegraphics[scale=0.5]{pca_example}

In Abbildung 5 sind Realisierungen eines 2-dimensionalen Zufallsvektors zu sehen. Intuitiv könnte angenommen werden, dass in der 45^&cir#circ; Richtung am meisten Information vorhanden ist, da in dieser Richtung die Amplitude und die Energie am größten ist. PCA bietet eine mathematische Methode, diese Richtung zu finden die Daten auf diese neue Basis zu projezieren.

Herleitung

Finde Dekorrelationsmatrix $ \mathbf{M}$, sodass für $ \mathbf{x_s}$ gilt:



$\displaystyle \mathbf{x_s}$ $\displaystyle =$ $\displaystyle \mathbf{M} \mathbf{x}$  
$\displaystyle E\{\mathbf{x_s} \mathbf{x_s}^T\}$ $\displaystyle =$ $\displaystyle \mathbf{I}$ (5)


Die Kovarianzmatrix $ \mathbf{C_x}$ kann folgendermaßen zerlegt werden:

$\displaystyle \mathbf{C_x} = E\{\mathbf{x}\mathbf{x}^T\} = \mathbf{P} \mathbf{\Lambda} \mathbf{P}^T $
$ \mathbf{\Lambda}$ ...Diagonalmatrix mit den Eigenwerten von $ \mathbf{C_x}$

$ \mathbf{P}$ ...Matrix mit orthonormierten Eigenvektoren von $ \mathbf{C_x}$ als Spalten

Es gilt: $ \mathbf{P}^{-1} = \mathbf{P}^T$

Daraus folgt durch Umformung:



$\displaystyle \mathbf{P}^T E\{\mathbf{x}\mathbf{x}^T\} \mathbf{P} = \mathbf{\Lambda}$      
$\displaystyle \mathbf{\Lambda}^{-\frac{1}{2}} \mathbf{P}^T E\{\mathbf{x}\mathbf{x}^T\} \mathbf{P} \mathbf{\Lambda}^{-\frac{1}{2}} =$   $\displaystyle \mathbf{I}$  


Setzt man



$\displaystyle M = \mathbf{\Lambda}^{-\frac{1}{2}} \mathbf{P}^T$     (6)


ist Gleichung (5) erfüllt, die Komponenten von $ x_s$ sind paarweise dekorreliert und auf Varianz 1 normiert.

Bedeutung für ICA

Durch Anwendung dieser Transformation auf einen Sensorvektor $ \mathbf{x}$ können die einzelnen Komponenten des Vektors paarweise dekorrelliert werden. Allerdings bedeutet Dekorrelation nicht automatisch statistische Unabhängigkeit, weshalb PCA das Problem der Quelltrennung nicht lösen kann.

Trotzdem erweist sich PCA in vielen Fällen als nützlicher Vorverarbeitungsschritt, denn die Anwendung dieser Transformation auf einen Sensorvektor $ \mathbf{x}$ bedeutet eine Modifikation der Mischmatrix des zugrundeliegenden Mischmodells (1):



$\displaystyle \mathbf{x_S} = \mathbf{M} \mathbf{x} = \mathbf{M} \mathbf{A} \mathbf{s} = \mathbf{B} \mathbf{s}$     (7)


Die neue Mischmatrix $ \mathbf{B}$ hat die besonders nützliche Eigenschaft der Orthogonalität, das bedeutet die einzelnen Spalten von $ \mathbf{B}$ sind linear unabhängig:



$\displaystyle E\{ \mathbf{x_s} \mathbf{x_s}^T \} = E\{ \mathbf{B} \mathbf{s} \mathbf{s}^T \mathbf{B}^T\}$ $\displaystyle =$ $\displaystyle \mathbf{B} E\{ \mathbf{s} \mathbf{s}^T \} \mathbf{B}^T = \mathbf{B} \mathbf{B}^T$  
$\displaystyle \Rightarrow \mathbf{B} \mathbf{B}^T$ $\displaystyle =$ $\displaystyle \mathbf{I}$ (8)


Während es sich bei der ursprünglichen Mischmatrix $ \mathbf{A}$ um eine beliebige Matrix mit insgesamt $ n \times m$ unbekannten Parametern handeln konnte, ist die neue Mischmatrix $ \mathbf{B}$ orthogonal, was geometrisch einer reinen Rotation entspricht.

Dieser Sachverhalt ist in Abbildung 6 und Abbildung 7 dargestellt. Durch Vergleich von Abbildung 7 und Abbildung 2.3.2 fällt auf, dass die Mischung geometrisch nur mehr einer Rotation entspricht (abgesehen von der Skalierung der Amplituden, die durch die Normierung der Vektorkomponenten auf Varianz 1 eingeführt wird).

Somit wird durch die Vorverarbeitung des Sensorvektors durch PCA das Problem des Entmischens bis auf eine zusätzliche Rotation gelöst.

Figure: Sensordaten nach Mischung durch Mischmatrix $ \mathbf{A}$; In grün: Richtungen der größten Energieanteile
\includegraphics[scale=0.5]{example3}
Figure 7: Verteilung der dekorrelierten Sensordaten
\includegraphics[scale=0.5]{example4}