Loading
Relaterad information
Datakvalitet

Allmänt om outliers


Externa länkar
Online beräkning av Grubb's test.


Litteratur
Grubbs, F. E., Beck, G. 1972. Extension of sample sizes and percentage points for significance tests of outlying observations. Technometrics, 14:847-854.

Grubbs test för avvikande värden

Ofta går det inte att objektivt avgöra om ett värde är avvikande eller ej, men det finns ett antal metoder som kan identifiera värden som bör undersökas närmare. En enkel metod för att testa om ett (enda) observerat värde avviker är Grubbs test (Grubbs & Beck 1972), detta är ett univariat test, alltså ett test som bara ta hänsyn till en variabel i taget - här finns mer information om multivariata outlier test.
Grubb's test bygger på normalfördelningskurvans välkända egenskaper. Testet beräknar hur stor sannolikhet det är att få ytterligare ett värde som avviker lika mycket från övriga värden som det värde man vill kontrollera. Det första man gör i Grubbs test är att beräkna ett standardiserat mått på hur långt det avvikande värdet är från övriga värden. Detta gör man genom att beräkna den s.k. z-kvoten:


För att sedan testa sannolikheten att det framräknade värdet på z indikerar ett avvikande värde kan man antingen använda en tabell på kritiska nivåer på z för Grubbs test, eller beräkna ett approximativt värde på P-nivån. Tabeller för Grubbs test finns i originalpublikationen (Grubbs & Beck 1972), i vissa statistikböcker och på ett flertal webbsidor.

Om man inte har tillgång till en tabell med kritiska värden för Grubbs test får man beräkna signifikansnivån. Detta gör man genom att först beräkna ett s.k. t-värde m.h.a. följande formel:

där N är antalet prover och z är det beräknade z-värdet.

Därefter tar man reda på det tvåsvansade p-värdet i t-fördelningen för det värde på t man beräknat och N-2 frihetsgrader. Detta kan man göra genom att titta i en tabell över t-fördelningen (tabell 1). Antag att man vill veta P-värdet för t = 3,25 vid 12 frihetsgrader. Detta gör man genom att i den rad som motsvarar aktuellt antal frihetsgrader leta rätt på det kritiska värde som är närmast lägre det värde man vill testa. I detta fall är det tabellvärdet 3,055 som är närmast lägre det beräknade värdet 3,25. Den signifikansnivå som motsvaras av 3,055 är 0,005. Vi kan således konstatera att det tvåsvansade P-värdet för t = 3,25 med 12 frihetsgrader är lägre än 0,005, men högre än 0,0025 som är P-värdet för t-värdet närmast högre än 3,25. En annan metod är att använda Excel som kan ge det exakta P-värdet. Detta gör man genom att ge kommandot =TFÖRD(t;df;2) (TDIST på engelska). I exemplet ovan får man P = 0,0035.

Tabell 1. Utdrag ut t-tabell. Fullständiga t-tabeller finns i nästan alla statistikböcker.

Nästa steg är att multiplicera det erhållna P-värdet med N som är antalet prover. Den erhållna produkten är ett approximativt P-värde för Grubbs test. Om det slutgiltiga P-värdet är lägre än &alpha (signifikansnivån) kan man konstatera att det testade värdet är avvikande.

Detta test ger ett approximativt P-värde. Om z är högt är dock P-värdet tillförlitligt. För låga värden på z kan P-värdet bli för högt. I exemplet ovan blir det slutgiltiga P-värdet 0,035 x 14 = 0,049. Vi kan således konstatera att det värde vi misstänker är avvikande är på gränsen till att betraktas som avvikare om man väljer &alpha = 0,05. Man får däremot inte något svar på om man ska ta bort den avvikande observationen eller ej eftersom detta beror på fler faktorer än bara det numeriska värdet.

Viktigt att veta

Eftersom Grubbs test bygger på normalfördelningen är testet bara tillämpbart på data som är åtminstone approximativt normalfördelade. Grubbs testet kan användas för att identifiera ett enda avvikande värde. Väljer man att ta bort det upptäckta avvikande värdet kan man ändå inte upprepa testet, eftersom tabellen då inte längre är giltigt. Vill man testa upprepade gånger för att hitta flera avvikande värden finns dock metoder som är anpassade för det. Se t.ex. texten i samband med beräkning av Grubb's test under externa länkar till höger.

Fallgropar

Här upprepar vi att inga tester av avvikande värden kan ge et objektivt svar på om värdet verkligen är avvikande. Testerna ger bara indikationer på att vissa värden avviker från ett förväntat mönster. Själva beslutet om att utesluta eller justera ett värde måste baseras på kunskap om data och de ekologiska eller kemiska processer som ligger bakom de siffror man arbetar med.


Ansvarig för webbsidan:
webmaster@miljostatistik.se