Loading
Relaterad information
Allmänt om multivariata metoder

Ett flödesschema för multivariata metoder

Principalkomponentanalys

Correspondance Analysis


Externa länkar

Program:
PC-Ord
Canoco
PAST (gratis)
R-modulen ”vegan” (gratis)

Websidor:
The ordination web page

Redundancy Analysis (RDA) och Canonical Correspondence Analysis (CCA)

Beskrivning

I de fall man har två set av data från varje prov, t.ex. artsammansättning och markkemi i provytor (Tabell 1), kan man kombinera dessa båda dataset för att direkt förklara variationen i artsammansättning med markkemivariablerna. Ett annat exempel kan vara att man vill förklara skillnader i vattenkemi mellan sjöar med hjälp av geografiska variabler. Beroende på vilket dataprogram man använder kallas dessa båda dataset för olika saker (Tabell 2).

Tabell 1. Exempel på två olika typer av beskrivningsvariabler av fem prover. Till vänster arter (responsvariabler) och till höger miljöfaktorer (förklaringsvariabler) för samma prover som i tabellen till vänster. Tabell 2. Synonyma benämningar på de två dataset som används i multivariata metoder där man har både respons och förklaringsvariabler i samma analys.

Precis som för multivariata analyser på ett dataset (PCA/CA) finns det en metod för data med linjär respons och en metod för data med unimodal respons, läs mer här. Här är det responsen hos responsvariablerna eller Y-variablerna som avses. För analyser med responsdata med linjär respons används RDA och för responsdata med unimodal respons används CCA. Förklaringsdata kan ha linjär respons i båda metoderna.

Exempel

Här följer ett exempel med ordinationer på de båda dataseten ovan i tabell 1. Egentligen är dessa dataset för små för att en multivariat analys ska vara nödvändig, men resultatet är tydligt och principen för tolkning av denna typ av ordinationer framgår därmed också tydligt. Gemensamt för de båda metoderna är att de resulterar i ett ordinationsdiagram där både responsvariabler och förklaringsvariabler är illustrerade. Diagrammen tolkas så att de förklaringsvariabler med långa vektorer (pilar) är viktiga för de gradienter som återspeglas i ordinationsdiagrammet. Vidare talar vinkeln mellan en ordinationsaxel och vektorn för en förklaringsvariabel om sambandet mellan dessa: ju minder vinkel desto starkare samband. I figur 1 är således kväve den dominerande förklaringsvariabeln eftersom: I detta exempeldataset har fosfor en nästan identisk betydelse som kväve. Vi kan också konstatera att krontäckning och till stor del pH har direkt motsatt effekt mot kväve och fosfor. pH är också den starkaste faktorn till fördelningen av prover och växtarter längs axel 2. Vinkeln mellan vektorn för pH och axel 2 (den vertikala axeln) är dock ganska stor så förmodlingen finns andra faktorer som ligger bakom uppdelningen av främst prov 2 och 3 längs axel 2.


Figur 1. Resultat av en CCA (Canonical Correspondence Analysis) där både artdata och miljödata i tabell 1 använts i samma analys för att förklara mönster i artdata med de miljödata man uppmätt. Pilar representerar förklaringsvariabler, trekanter responsvariabler (växterna) och kvadrater proverna. I detta fall är kväve och fosfor viktigast för fördelningen av arter och prover längs den horisontella axeln. Fördelningen längs den vertikala axeln har ingen riktigt bra koppling till de använda förklaringsvariablerna, men pH har starkast inverkan bland de fyra förklaringsvariabler som ingår i denna analys.


Figur 2. Analys av samma data som i figur 1, men här har RDA (Redundancy Analysis) använts. I detta fall blir resultaten liknande, men teoretiskt är RDA fel analys i detta fall då RA kräver linjär respons hos responsdata (växterna i detta fall). Största principiella skillnaden mellan CCA (Figur 1) är att responsvariablerna i RDA är representerade av vektorer (pilar).

Viktigt att veta

I denna presentation av metoderna är bara huvuddragen av metoderna presenterade för en basal förståelse av vad det handlar om. Likaså har vi bara gått in på den grafiska presentationen av resultaten. Det finna även olika metoder för att mer objektivt testa relevansen och signifikansen för de olika förklaringsvariablerna. Se Detaljer nedan för närmare information.

Precis som för korrespondensanalys, CA, kan man råka ut för en s.k. ”arch effekt” även i CCA. Därför finns möjligheten att ta bort de eventuell ”arch effect” genom ”detrending” i metoden DCCA ”Detrended Canonical Correspondence Analysis”. Se diskussionen om detrending i avsnittet om CA för närmare beskrivning.

Fallgropar

Som redan nämnts ovan gäller det att använda rätt metod till den typ av data man har. Redan i de två exemplen ovan blir resultatet olika med de olika metoderna. I exemplet är det främst provernas placering i ordinationsdiagrammet som skiljer. Med större dataset kan resultaten skilja sig väsentligt. Precis som i PCA/CA gäller att proverna placeras i ett hästskoliknande mönster om man använder en metod som förutsätter linjär respons på data med unimodal fördelning. Detta framgår redan i exemplet i denna beskrivning (Figur 2).

En annan fallgrop är problemet med relaterade förklaringsvariabler. Om flera av de variabler man använt som förklaringsvariabler är starkt korrelerade kan resultatet bli missvisande. Även fast två korrelerade variabler i princip säger samma sak kan det i ett ordinationsdiagram se ut som att en av dem förklarar mycket av variationen, medan den andra ser ut att har låg inverkan. Om inte det program man använder har en inbyggd varning för korrelerade variabler bör man testa detta innan man tolkar resultaten av en RCA/CCA analys.

Detaljer

Signifikansen eller relevansen för de förklaringsvariabler man inkluderat i en RDA/CCA kan testas med hjälp av olika tekniker. Detta bör också göras som ett komplement till den grafiska framställningen. Signifikanstestningen sker på lite olika sätt i olika program. Vi går inte in på detaljer kring detta här, utan hänvisar till respektive programs manual. En utförligare beskrivning finns också på The Ordination Web Page .

Datorprogram

Denna typ av ordinationer finns bara i ett fåtal program främst ämnade för multivariat dataanalys av ekologiska data, t.ex.
PC-Ord (kommersiellt)
Canoco (kommersiellt)
PAST (gratis)
R-modulen ”vegan” (gratis)


Ansvarig för webbsidan:
webmaster@miljostatistik.se