Är dataunderlaget bra? - Bedömning av datakvalitet
Vilken analys man än ska göra är det mycket viktigt att göra en noggrann kontroll av datamaterialet innan man börjar, inte bara för att hitta orimliga eller felaktiga värden, utan också för att lära känna sitt datamaterial, som kan leda till nya eller ändrade frågeställningar. Några saker att vara uppmärksam på är:Finns det saknade värden eller saknade perioder
För många statistiska metoder spelar ett måttligt antal saknade värden ingen roll så länge de saknas slumpmässigt (alltså om det inte finns några yttre omständigheter som gör att vissa observationer alltid saknas). I vissa fall exkluderas observationer som innehåller saknade värden. För att se hur olika metoder hanterar saknade värden finns för varje metod som beskrivs på miljostatistik.se ett avsnitt om just saknade värden.Om saknade värden inte kan hanteras av en statistisk metod, så finns ofta möjligheten att imputera (modellera, , t.ex. regression för data som kan anpassas till en regressionsmodell) dessa värden och på så sätt fylla luckorna i datamaterialet. Det måste dock bestämmas ur sammanhanget om imputation är önskvärd eller överhuvudtaget möjligt.
Om den statistiska metoden inte kan hantera saknade värden och imputering inte är möjligt måste variabeln uteslutas.
Saknade hela perioder måste noggrant undersökas för att avgöra varför observationer saknas och igen är det viktigt att veta om perioderna saknas slumpmässigt. Om det är vissa vädertillstånd som gör att inga mätningar kan göras är det viktigt att ta hänsyn till detta när man gör generaliseringar av analysernas slutsatser, dvs att man då inte kommer att kunna uttala sig om hur trender/samband/klassificeringar ser ut under dessa vädertillstånd.
Finns det avvikande värden (Outliers) eller avvikande perioder
Datamaterialet måste kontrolleras för att upptäcka orimliga värden som uppstår t.ex. när det är problem med provtagning eller kemisk analys. För att upptäcka outliers kan man:- Göra olika plottar eller grafer över datamaterialet samt beräkna max, min, medelvärde och varians, för att upptäcker värden som är för stora eller för små jämfört med övrigt datamaterial.
- Använda olika statistiska metoder som identifierar avvikande observationer. Läs mer om detektion av outliers.
När man letar efter och bedömer avvikande värden i ett större datamaterial är det viktigt att inte bara titta på en variabel i taget, men också undersöka om det finns multivariata outliers, alltså värden som är "multivariat" orimliga utan att vara orimliga i någon av de ingående variablerna.
Speciellt svårt kan det vara att upptäcka när halterna avviker under en längre period (t.ex på grund av kalibreringsproblem), eftersom korttidsvariation lätt kan maskera dessa avvikelser. Metoder som kan användas för att identifiera sådana datakvalitetsproblem är:
- normalisering - där naturlig korttidsvariation modelleras och sedan rensas bort. Nivåskillnader blir då lättare observerbara.
- statistiska metoder för att upptäcka brytpunkter.
Finns det tillräckligt med data?
Hur många observationer som behövs för en analys beror på en del olika aspekter, t.ex.- vilken analysmetod som ska användas, som i sin tur beror på datamaterialets egenskaper och på frågeställningens komplexitet. Väljer man en metod, där många parametrar ska skattas, behövs det i regel fler observationer.
- hur stort effekten är som ska upptäckas och hur stor variationen i datamaterialet är. Antal observationer hänger då tätt ihop med vilken styrka man vill att analysen ska ha.