Loading
Relaterad information
Datakvalitet

Allmänt om outliers


Externa länkar

Multivariat analys för att upptäcka avvikande värden

Beskrivning

Ibland har man har dataset med många observationer eller prover, och flera variabler för varje prov, t.ex. många sjöar och många vattenkemiska variabler för varje sjö (Tabell 1). Om det är ett stort dataset är det svårt att få en överblick. Enskilda felaktigheter i data kan upptäckas genom att kontrollera: för varje variabel. En annan metod för att hitta avvikande prover är att studera provernas inbördes likheter och olikheter i en principalkomponentanalys (PCA) [LÄNK till PCA]. I en PCA illustreras alla provers relationer i ett tvådimensionellt diagram. Om något prov avviker från de övriga kommer det ofta att synas direkt.

Tabell 1. Exempel på ett multivariat dataset.

Exempel

Övervakningen av ytvatten sker bland annat i ett program som kallas ”Omdrevsinventeringen”. År 2007 provtogs 859 sjöar. Varje vattenprov är analyserat på 31 olika kemiska variabler. Detta resulterar i ett stort dataset där det är mycket svårt att hitta eventuella felaktigheter bara genom att studera siffrorna. En PCA på hela datasetet visar direkt att en sjö är extremt avvikande (Fig. 1).



Figur 1. Principalkomponentanalys på sjöar i omdrevsinventeringen 2007. Översta figuren illustrerar hur en sjö avviker kraftigt från de övriga. ”Loading”-diagrammet, nederst, visar att det är konduktivitet och några katjoner som svarar för det avvikande mönstret.

En närmare granskning av data visar att den aktuella sjön är en nyligen avsnörd havsvik med havsvatten. Konduktiviteten är därför ca 1000 gånger högre än i sötvatten. Så, det finns all anledning att utesluta denna sjö vid beräkningar på detta dataset.

Vad händer då med PCA-diagrammet om man tar bort denna sjö? Det visar sig att det framkommer nya avvikande sjöar (Fig. 2). De nya avvikarna skiljer sig dock inte lika mycket.



Figur 2. Principalkomponentanalys på samma data som i Fig.1, men med den avvikande sjön borttagen.

Figur 2 visar att det i den nya analysen framkommer nya avvikande sjöar, några med höga värden på konduktivitet och katjoner, och några med höga värden på främst fosfor och till viss del kväve. Nu kan det börja bli problem med gränsdragning av vad som räknas som avvikande. I det här läget är det oftast mer biologisk/ekologisk/kemisk kunskap som behövs än rena statistiska metoder för att detektera avvikande objekt.

Viktigt att veta

Denna metod ger inte några objektiva svar på vad som är ett avvikande prov. Man får bara en typ av karta på likheter och olikheter mellan de prover man har. Det slutgiltiga beslutet att utesluta ett värde eller prov måste baseras på fler kriterier, oftast biologisk/ekologisk/kemisk kunskap om de data man analyserar.

Fallgropar

PCA är en metod för data med linjär respons (t.ex. kemivariabler) hos de variabler som beskriver de objekt/prover/sjöar man provtagit. Har man växter eller djur som beskriver proverna, t.ex. vegetation i provytor, används korrespondensanalys [LÄNK till CA/DCA-sidan] på motsvarande sätt. Se vidare på sidan för analys av många variabler för beskrivning av linjär respektive unimodal respons.

Detaljer

Se sidan som beskriver principalkomponentanalys eller korrespondensanalys!

Datorprogram

Se sidan för analys av många variabler.


Ansvarig för webbsidan:
webmaster@miljostatistik.se