Loading
Relaterad information
Introduktion till statistisk styrka

Ett exempel till beräkning av statistisk styrka

Kompendium - läggs till senare .


Externa länkar
G*Power


Litteratur
Grandin, U. (2003b), Kravet på noggrannhet i vattendirektivet. Naturvårdsverket. Stockholm.

Styrkeanalyser

En vanlig fråga från personer som bedriver miljöövervakning är hur många stickprov som behövs. Detta är en fråga man ställer innan man startar ett övervakningsprogram. Svaret på frågan beror av fem olika faktorer, och sammanfattas inom en familj av statistiska metoder som kallas styrkeanalys. De fem faktorerna är
  1. Signifikansnivån (α). Detta är sannolikheten för ett typ I-fel. Vanligtvis väljs α ≤ 0,05.
  2. Effektstorlek. Effektstorlek är avståndet mellan nollhypotesen och mothypotesen. Eftersom en statistisk nollhypotes i teorin säger att det inte ska finnas någon effekt eller skillnad kommer nästan alla uppställda nollhypoteser i praktiken att vara falska, men skillnaden eller effekten kommer i många fall att vara så liten att den är försumbar i det sammanhang man samlat in sina data. Genom att ange effektstorlek har man definierat vilken avvikelse från H0 man anser vara av relevant för den frågeställning man har. Ju mindre skillnad man anser vara av intresse desto svårare är det att upptäcka skillnaden med hjälp av stickprovtagning.
  3. Variationen hos responsvariabeln. En stor variation leder till att det är svårare att upptäcka en effekt eftersom effekten lätt döljs i det brus variationen ger upphov till. Ju större bruset är i förhållande till den skillnad man vill upptäcka desto fler prover behövs för att kunna upptäcka denna skillnad. Innan man kan avgöra hur stor provstorlek som krävs behöver man därför veta hur stor variationen är hos den variabel man observerar eller mäter. Ofta har man en uppfattning om detta från tidigare studier eller en pilotstudie.
  4. Provstorlek. Generellt leder ett större stickprov till lägre variation vilket leder till större förmåga att upptäcka en effekt, eller signifikant skillnad.
  5. Styrkan. Detta är detsamma som 1-β, där β är sannolikheten för ett typ II-fel. En ofta använd lägsta nivå på styrkan är 0,80. Det finns dock situationer där man väljer att ha samma värde på α och β. Vanligt är då att välja 0,05 som högsta nivå. Om man inte värderar den sammanlagda effekten av provstorlek, effektstorlek och variation vid planeringen av en studie kan man råka ut för:
    • Låg styrka. I detta fall kommer effektstorlekar som har en verklig betydelse vara svåra att upptäcka. Oftast beror detta på för liten mängd data. I dessa situationer kan det finnas en effekt, men den kan inte upptäckas med det stickprov man har.
    • Hög styrka. I detta fall kommer även mycket små effektstorlekar att kunna upptäckas. Risken med för hög styrka är att man upptäcker en signifikant effekt, eller skillnad, som inte har någon praktisk betydelse i det sammanhang man utför sin studie.
Av dessa faktorer har man möjlighet att styra alla utom variationen hos responsvariabeln. Det är dock inte möjligt att styra alla på en gång. Vilka faktorer som kan styras beror på vilken typ av styrkeanalys man utför.

Olika typer av jämförelser mellan då och nu

Ett övervakningsprogram bygger ofta på en jämförelse av situationen ”före” och ”efter”, eller ”då” och ”nu”. Visserligen kan program sträcka sig över fler än två observationstillfällen, men den grundläggande principen är ändå en jämförelse mellan två observationer.

Två observationstillfällen kan vara sammankopplade på två sätt. Antingen observerar man samma objekt vid två tillfällen, eller så observerar man slumpvis valda objekt inom ett område vid två tillfällen. Båda metoderna har sina fördelar och nackdelar. Om man vill uttala sig om förändring i allmänhet inom ett avgränsat område samlar man data från slumpvis valda lokaler/objekt etc. vid ett tillfälle, och nya slumpvis valda prover vid ett annat tillfälle. Denna typ av tester brukar kallas oparade. Är man däremot intresserad av att följa specifika lokaler inom ett område samlar man data från slumpvis valda objekt och återkommer till samma objekt vid nästa observationstillfälle, s.k. parade tester.

Ytterligare ett sätt att jämföra medelvärden är att relatera medelvärdet från en inventering till ett referensvärde.

Design av övervakningsprogram

Vid design av ett övervakningsprogram finns det många faktorer att ta hänsyn till. Ofta bestäms omfattningen på programmet av budgeten. Oavsett vad som begränsar omfattningen bör man genom styrkeanalys undersöka om det antal prover man kommer att samla är tillräckligt för att svara på de frågor som man vill ha svar på i programmet. Nedan finns en schematisk bild över hur man kan använda styrkeanalys vid design av ett program. Överst efterfrågas syftet. Därefter kommer en fråga om hur många prover ekonomin tillåter. Sedan kombineras syfte och omfattning på undersökningen i en styrkeanalys. Beroende på resultatet av styrkeanalysen finns olika vägar att gå. Antingen kan undersökningen starta, eller så behövs det olika överväganden där några alternativ är att avstå undersökningen eftersom de data man samlar in inte kommer att kunna besvara den fråga man har. Givetvis finns det fler faktorer än antalet prover att ta hänsyn till. Dessutom finns det övervakningsprogram som inte har direkta uttalade forskningsfrågor. Detta gäller t.ex. de långsiktiga storskaliga övervakningsprogrammen, som bl.a. syftar till att långsiktigt följa trender. I dessa fall är schemat nedan inte tillämpligt fullt ut.

Programvara för styrkeberäkningar

G*Power. Gratis, finns för både Macintosh och Windows. Lätt att använda och utförlig dokumentation.


Ansvarig för webbsidan:
webmaster@miljostatistik.se