Loading
Relaterad information
Visualisering

Detektion av outliers

Detektion av brytpunkter


Externa länkar

Är dataunderlaget bra? - Bedömning av datakvalitet

Vilken analys man än ska göra är det mycket viktigt att göra en noggrann kontroll av datamaterialet innan man börjar, inte bara för att hitta orimliga eller felaktiga värden, utan också för att lära känna sitt datamaterial, som kan leda till nya eller ändrade frågeställningar. Några saker att vara uppmärksam på är:

Finns det saknade värden eller saknade perioder

För många statistiska metoder spelar ett måttligt antal saknade värden ingen roll så länge de saknas slumpmässigt (alltså om det inte finns några yttre omständigheter som gör att vissa observationer alltid saknas). I vissa fall exkluderas observationer som innehåller saknade värden. För att se hur olika metoder hanterar saknade värden finns för varje metod som beskrivs på miljostatistik.se ett avsnitt om just saknade värden.

Om saknade värden inte kan hanteras av en statistisk metod, så finns ofta möjligheten att imputera (modellera, , t.ex. regression för data som kan anpassas till en regressionsmodell) dessa värden och på så sätt fylla luckorna i datamaterialet. Det måste dock bestämmas ur sammanhanget om imputation är önskvärd eller överhuvudtaget möjligt.

Om den statistiska metoden inte kan hantera saknade värden och imputering inte är möjligt måste variabeln uteslutas.

Saknade hela perioder måste noggrant undersökas för att avgöra varför observationer saknas och igen är det viktigt att veta om perioderna saknas slumpmässigt. Om det är vissa vädertillstånd som gör att inga mätningar kan göras är det viktigt att ta hänsyn till detta när man gör generaliseringar av analysernas slutsatser, dvs att man då inte kommer att kunna uttala sig om hur trender/samband/klassificeringar ser ut under dessa vädertillstånd.

Finns det avvikande värden (Outliers) eller avvikande perioder

Datamaterialet måste kontrolleras för att upptäcka orimliga värden som uppstår t.ex. när det är problem med provtagning eller kemisk analys. För att upptäcka outliers kan man: Observera att datavärden inte ska uteslutas enbart pga resultatet av en statistisk outlier-identifiering utan enbart om man finner de erhållna värdena helt orimliga och det finns skäl att tro att provtagningen eller den kemiska analysen har gjorts felaktigt.

När man letar efter och bedömer avvikande värden i ett större datamaterial är det viktigt att inte bara titta på en variabel i taget, men också undersöka om det finns multivariata outliers, alltså värden som är "multivariat" orimliga utan att vara orimliga i någon av de ingående variablerna.

Speciellt svårt kan det vara att upptäcka när halterna avviker under en längre period (t.ex på grund av kalibreringsproblem), eftersom korttidsvariation lätt kan maskera dessa avvikelser. Metoder som kan användas för att identifiera sådana datakvalitetsproblem är:
  1. normalisering - där naturlig korttidsvariation modelleras och sedan rensas bort. Nivåskillnader blir då lättare observerbara.
  2. statistiska metoder för att upptäcka brytpunkter.

Finns det tillräckligt med data?

Hur många observationer som behövs för en analys beror på en del olika aspekter, t.ex.

Finns det brytpunkter i serien?

Om det finns brytpunkter i serien, alltså om nivån eller variationen i en serie plötsligt förändras utan att det är effekten av en åtgärd, så kan det leda till svårigheter att överhuvudtaget kunna svara på sin frågeställning. Det naturliga första steget i analysen måste då vara att undersöka om man kan hitta ett skäl för den upptäckta brytpunkten.


Ansvarig för webbsidan:
webmaster@miljostatistik.se