Multivariat analys för att upptäcka avvikande värden
Beskrivning
Ibland har man har dataset med många observationer eller prover, och flera variabler för varje prov, t.ex. många sjöar och många vattenkemiska variabler för varje sjö (Tabell 1). Om det är ett stort dataset är det svårt att få en överblick. Enskilda felaktigheter i data kan upptäckas genom att kontrollera:- min,
- max,
- medel och
- varians
Tabell 1. Exempel på ett multivariat dataset.
Exempel
Övervakningen av ytvatten sker bland annat i ett program som kallas ”Omdrevsinventeringen”. År 2007 provtogs 859 sjöar. Varje vattenprov är analyserat på 31 olika kemiska variabler. Detta resulterar i ett stort dataset där det är mycket svårt att hitta eventuella felaktigheter bara genom att studera siffrorna. En PCA på hela datasetet visar direkt att en sjö är extremt avvikande (Fig. 1).Figur 1. Principalkomponentanalys på sjöar i omdrevsinventeringen 2007. Översta figuren illustrerar hur en sjö avviker kraftigt från de övriga. ”Loading”-diagrammet, nederst, visar att det är konduktivitet och några katjoner som svarar för det avvikande mönstret.
En närmare granskning av data visar att den aktuella sjön är en nyligen avsnörd havsvik med havsvatten. Konduktiviteten är därför ca 1000 gånger högre än i sötvatten. Så, det finns all anledning att utesluta denna sjö vid beräkningar på detta dataset.
Vad händer då med PCA-diagrammet om man tar bort denna sjö? Det visar sig att det framkommer nya avvikande sjöar (Fig. 2). De nya avvikarna skiljer sig dock inte lika mycket.
Figur 2. Principalkomponentanalys på samma data som i Fig.1, men med den avvikande sjön borttagen.
Figur 2 visar att det i den nya analysen framkommer nya avvikande sjöar, några med höga värden på konduktivitet och katjoner, och några med höga värden på främst fosfor och till viss del kväve. Nu kan det börja bli problem med gränsdragning av vad som räknas som avvikande. I det här läget är det oftast mer biologisk/ekologisk/kemisk kunskap som behövs än rena statistiska metoder för att detektera avvikande objekt.