Loading
Relaterad information
Allmänt om multivariata metoder

Ett flödesschema för multivariata metoder

Principalkomponentanalys (PCA)

PCA Exempel 2 (FisherIris)

PCA Exempel 3 (Hälsohem)


Externa länkar

SIMCA

PCA - Exempel 1

Analys med programmet SIMCA

I detta exempel har vi analyserat samma dataset med 18 figurer beskrivna med 4 karaktärer, som använts i introduktionen till multivariat analys och den generella beskrivningen av PCA. Skillnaden mot de tidigare analyserna är att detta exempel är gjort i programmet SIMCA som använder en lite annan nomenklatur än många andra program som kan utföra en PCA. Data finns här: Figurer.xls.

Eftersom de olika karaktärerna har olika skalor (antal och procent) väljer vi att göra en PCA på centrerade och standardiserade data, eller ”autoskalade” i den nomenklatur som används i SIMCA.

Ett ordinationsdiagram som kallas ”scoreplot” eller ”observationsbild” i SIMCA, visar att det verkar finns tydliga gradienter (Fig. 1)

Diagram
Figur 1: Observationsdiagram som visar hur observationerna är fördelade längs de två första komponenterna. Diagrammet visar det teoretiska två-dimensionella plan där datasetet har sin största utbredning. I exemplet är har vi bett SIMCA att färgakoda punkterna efter variabeln ”Gul” (mest gul har röd färg, minst gul har blå färg). De observationer som har höga värden för variabeln gul ligger till höger, snett nedåt, i bilden. Det tillhörande variabeldiagrammet är plottat separat och ses till höger.

Ordinationsdiagrammet från SIMCA är spegelvänt jämfört med diagrammet för samma data i inledningen till multivariata metoder. Detta beror på att beräkningarna är gjord i olika program. Spegelvändningen har dock ingen betydelse i praktisktiken. De inbördes avstånden mellan punkterna är desamma liksom de extraherade gradienterna, de är bara spegelvända.

Ordinationsdiagrammet ser ut att visa tydliga gradienter längs de extraherade ordinationsaxlarna, eller ”komponenterna”. Styrkan på de extraherade gradienterna måste dock kontrolleras mot hur stor del av totala variationen som respektive axel eller komponent svar för. SIMCA presenterar detta som stapeldiagram (Fig. 2). I detta fall är det en hög förklaringsgrad. Med bara två axlar (komponenter) förklaras 75 % av all variation i datasetet.

Kumulativ andel
Figur 2: Kumulativ andel förklarad variation för de två första komponenterna i figur 1. Första komponenten förklarar, eller ”modellerar” ca 40 % av variabiliteten i data, och tillsammans förklarar (eller modellerar) de båda första axlarna (komponenterna) ungefär 75 %.

Variabeldiagrammet (högra figuren i Fig 1) visar att variabeln ”Blå” ligger nertill till vänster. Detta innebär att de punkter, eller observationer, som finns i nedre vänstra hörnet i observationsdiagrammet kommer att ha höga värden för variabeln ”Blå”. Detta kan kontrolleras genom att titta i datatabellen. I SIMCA finns det aktiva kopplingar mellan diagram och datatabell. Genom att klicka på en punkt markeras den punktens rad i datatabellen (Fig. 3). Andra program har likande funktioner för att se egenskaper hos olika punkter.

Ordinationsdiagram
Figur 3. Illustration av hur man genom att markera punkter i ordinationsdiagrammet kan få dessa punkter markerade i datatabellen. I detta fall är de punkter som utgör en extrem längs första axeln, eller komponenten, markerade i diagrammet. De markerade raderna visar att dessa punkter har 100 % blå färg (och 0 % för övriga färger).

SIMCA kan även illustrera grafiskt hur mycket respektive variabel bidrar med till ordinationen (Fig 4).

Bidrag
Figur 4. Grafisk illustration av hur mycket de olika variablerna bidrar till ordinationen och fördelningen av punkter i ordinationsdiagrammet. Variabeln ”Hörn” är inte modellerad alls, medan de tre övriga är modellerade till nästan 100 %. Det står att y-axeln är kumulativ men det kumulativa gäller inte y-axeln stapeldiagrammet; förklaringsgraderna för staplarna i denna plot är oberoende av varandra!

Den del av variationen i ett dataset som inte kan modelleras illustreras i SIMCA som ett stapeldiagram med en stapel för varje prov (Fig. 5). Staplarna visar hur långt från den modellerade fördelningen av punkter (modellplanet) varje prov ligger. Ju högre stapel desto längre från modellen. Diagrammet visar också den kritiska gräns som indikerar att ett prov är avvikande.

Residualer
Figur 5: Figur 5. Residualerna, den omodellerade delen av data, visas här i form av observationernas avstånd till modellplanet. Om det hade funnits avvikande observationer hade de haft staplar som överskred linjen ”D-Crit (0.05)”.

Slutligen, så finns det i SIMCA en funktion för att plotta tre ordinationsaxlar (komponenter) och därefter fritt kunna vrida och rotera koordinatsystemet, för att visuellt kunna identifiera samband och gradienter (Fig. 6). tredimensionellt
Figur 6. Roterbart tredimensionellt koordinatsystem som visar hur observationerna modellerats i tre dimensioner.


Ansvarig för webbsidan:
webmaster@miljostatistik.se