Loading
Relaterad information
Allmänt om multivariata metoder

Ett flödesschema för multivariata metoder

PCA

PCA exempel 1 - Figurer

PCA exempel 3 - Hälsohem


Externa länkar

SIMCA

PCA - Exempel 2 – Klassificering med PCA

Data i detta exempel är ett klassiskt dataset publicerat 1936 av statistikern Fisher (personen som gett namn åt F-testen). Det är allmänt känt som ”The Fisher Iris Data ”, och är ofta använt för att illustrera olika statistiska tester. Data består av storleksmätningar på blommorna hos tre olika arter av iris (Iris setosa, Iris versicolor och Iris virginica). Man har mätt kron- (Petals) och foderbladens (Sepals) längd (Length) och bredd (Width), som förkortas till Pe_Le, Pe_Wi, Se_Le respektive Se_Wi.

Analyser

För att få en översikt över ett dataset gör vi en PCA. Ordinationsdiagrammen (Fig. 1) visar hur proverna och beskrivningsvariablerna ligger grupperade. I figuren är punkterna färgade efter art (I. setosa: röd, I. versicolor: blå och I. virginica: svart). Vi ser att I. setosa ligger helt skild från de två andra, medan I. versicolor och I. virginica inte är helt separerade i bilden.

PCA ordination
PCA_ordination2
Figur 1. Olika sätt att presentera resultatet av en PCA-ordination på Fishers irisdata. Överst är prover (individer) och beskrivningsvariabler presenterade i varsitt diagram, nedan är de plottade i samma diagram, en s.k. ”biplot”.

Ordinationsdiagrammen (Fig. 1) visar att kronbladens längd och bredd ligger nära varandra (”Pe_Wi” och ”Pe_Le”, längst till höger) och är därmed förmodligen är starkt korrelerade. Eftersom I. setosa är helt separerad från de två övriga arterna, och första axeln är starkt dominerad av storleken på kronblad (Pe_Le och Pe_Wi) kan vi dra slutsatsen att blommorna hos I. setosa är mindre än hos de två andra arterna.

Axel 2 är dominerad av stödbladens bredd (Se_Wi), och fördelningen längs axel 2 beskriver en gradient hos bredden på stödbladen. Eftersom variabeln för stödbladens bredd är ensam på vänstra sidan om origo kan vi även dra slutsatsen att I. setosa har bredare stödblad än de andra två arterna.

I detta lilla dataset med tydliga gradienter har ordinationen lyckats med att modellera nästan all variation (96 %) i två komponenter eller axlar (Fig. 2). Med 96 % förklarad variation med 2 komponenter kan man konstatera att data nästan är 2-dimensionell, även om vi mätt 4 variabler. Med 4 variabler finns det 4 komponenter, och i detta fall förklarar komponent 3 och 4 tillsammans endast 4 % av variationen. förklarade variation
Figur 2. Numerisk och grafisk sammanställning av den förklarade variationen i en PCA med 2 komponenter på Fishers irisdata.

Eftersom förklaringsgraden är så hög, har alla beskrivningsvariabler ett starkt bidrag till modellen (Fig. 3). I större dataset varierar detta vanligtvis mycket mer än i detta exempel på Fishers irisdata.
sammanställning
Figur 3. Grafisk sammanställning av hur mycket av respektive variabel som är modellerad.

Vi kan också se på den omodellerade delen av data, här i form av observationernas avstånd till modellplanet (residualerna) (Fig. 4). Avvikande observationer ser man som avvikande punkter i ordinationsdiagrammet (modellen, Fig. 1) eller som att de ligger ovanligt långt från modellplanet (residualen, Fig. 4). I ordinationsdiagrammet (Fig. 1) finns en svart ellips. Ellipsen är beräknad så att om allt vore normalfördelat skulle 5 % av observationerna ligga utanför den. I residualbilden (Fig. 4) ser vi en röd linje, den är beräknad på liknande sätt och om allt vore normalfördelat skulle 5 % av observationerna ligga ovanför den linjen.

Residualer
Figur 4. Observationernas avstånd till modellplanet (residualerna).



Ansvarig för webbsidan:
webmaster@miljostatistik.se