Loading
Relaterad information
Allmänt om datakvalitet


Externa länkar

Oberoende observationer

Vad menas menas med oberoende/beroende?

De allra flesta beskrivningar av statistiska metoder kräver oberoende observationer. Begreppet (statistiskt, stokastiskt) oberoende observationer kan ges en strikt matematisk definition, men den kan inte användas i praktiken. Man kan säga att begreppet innebär att varje ny observation, varje ny data, ska ge lika mycket information oavsett alla tidigare observationer. Inte heller det sättet att se på begreppet är glasklart. Enklast att förstå vad det faktiskt innebär är att ge exempel på när det rimligen inte är uppfyllt.

Exempel 1. Hierarkiskt insamlade data.

Vid areell inventering görs urval oftast som flerstegsurval, där man i ett första steg samplar skogsbestånd (eller myrar, eller ängar, eller sjöar, eller … ), i ett andra steg provytor (eller liknande) i samplat bestånd och kanske i ett tredje steg objekt (t.ex. träd) i beståndet (eller mätningar på olika platser i en sjö). Eftersom träden i ett bestånd har en hel del gemensamma egenskaper (de växer på samma latitud, på samma altitud, på samma bonitet etc.) så kommer två träd i ett och samma bestånd att vara mer lika än två träd i allmänhet. Är det första trädet i ett bestånd ovanligt grovt så tenderar även det andra att vara det. De mätningar vi gör på träd i samma bestånd kan därför inte gärna vara oberoende. Vi får inte ny information för varje nytt träd. Beroendet förstärks ytterligare mellan träd på samma provyta, på vilken trädens egenskaper är ännu mer lika. Floran på två provytor på samma äng är mer lika än på provytor från olika ängsmarker och alltså utgör inte flera provytor på samma äng inte oberoende observationer.

Begreppet oberoende är dock inte fritt från vilket ”rum” eller vilken population man avser när man gör sina observationer. Det är inte heller fritt från hur man väljer sina observationsenheter. Avser man ett enda bestånd (eller en enda äng, eller en enda sjö) och lägger ut provytor slumpmässigt där så utgör provytedata (men inte träddata från samma provyta) oberoende observationer. I sådana fall är inte två provytor i stickprovet mer lika än normalt i beståndet. Skulle vi lägga ut provytorna i ett systematiskt förband blir provytorna i stickprovet snarast mer olika än provytor i allmänhet i beståndet (de ligger så långt ifrån varandra som det nästan går). Observationer på provytorna är då inte heller oberoende (men detta slags ”negativa” beroende är något som man ibland eftersträvar). Utvidgar vi populationen från ett bestånd (en äng, en sjö) till alla bestånd (ängar, sjöar) i ett större område blir dock de systematiskt utlagda provytorna i samma bestånd (på samma äng, i samma sjö) återigen mer lika varandra än provytor är normalt.

Hierarkiskt insamlade data kan förekomma även i andra sammanhang än vid areell inventering, t.ex. vid vissa enkätundersökningar. Om man exempelvis ska ta ett urval av skolelever kan det kanske vara praktiskt att i ett första steg välja ett antal kommuner och i ett andra steg ett antal skoldistrikt i valda kommuner, i ett tredje steg ett antal skolor i utvalt distrikt, i ett fjärde ett antal klasser och i ett femte ett antal elever (med lottningar i varje steg).

Exempel 2. Tidsserier

Det andra vanliga fallet av beroende är när observationerna utgör tidsserier. Till denna typ av beroende kan man också räkna de fall där observationer görs längs en väg eller vattendrag och de fall när observationer görs vertikalt genom mätningar på flera djup från samma plats i mark eller i vatten. Mätvärden nära varandra i tid eller rum (horisontellt eller vertikalt) är mer lika varandra än mätvärden i allmänhet, givet att de hänför sig till samma plats eller objekt. Ju tätare observationerna är i tid eller rum ju mer lika är de i allmänhet.

Exempel 3. Personpåverkan

I vissa sammanhang kan personer som hanterar prov, antingen vid insamling eller vid t.ex. kemiska analyser förorsaka stokastiskt beroende. Det kan råda systematiska skillnader i mätvärden på samma prov mellan olika personer. Om så är fallet är två observationer från samma person mer lika än två prov i allmänhet, så de prov som hanterats av en person är (kan vara) beroende.

Vad förorsakar beroende observationer?

Rent generellt kan sägas att om beroende förekommer så är effekten av beroendet att det reella antalet observationer man har är färre än det formella antalet. Om man i en population av skog har valt ut 10 bestånd och lagt ut 12 provytor i varje bestånd så är inte det reella antalet observationer 120. Ökar vi på antalet provytor i de 10 bestånden till säg 36 stycken så har vi inte fått så värst mycket mer information om populationen. Det hade varit bättre att öka antalet bestånd till 30. I en tidsserie ökar normalt inte informationen så mycket om vi lägger observationer 10 gånger tätare än förut.

Eftersom alla eller nästan alla statistiska standardmetoder i sin enklaste utformning (den som förekommer i elementär litteratur) förutsätter att observationer är oberoende leder användning av de till metoderna hörande formlerna till missvisande resultat. Den verkliga noggrannheten i skattningar etc. är sämre än dem som ges av de elementära formlerna. Erfarenhetsmässigt (och även till viss del teoretiskt) är oftast ett felaktigt antagande om oberoende betydligt mer allvarligt än ett felaktigt antagande om t.ex. normalfördelning.

Beroende behöver inte förorsaka systematiska fel i skattning av sanna populations-parametrar. Däremot blir medelfel, konfidensintervall, p-värden etc. inte korrekta (om man inte tar hänsyn till beroendet).

Metoder att hantera beroende

Beroende hanteras genom att beskriva det i den statistiska modellen för data. Det behöver inte vara komplicerat. För hierarkiskt insamlade data räcker det ofta att beskriva effekterna av de olika stegen med (slumpmässiga) komponenter, t.ex.

Observerat värde = Förväntat värde + Beståndskomponent + Ytkomponent,

där beståndskomponenten har samma värde för alla ytor inom ett och samma bestånd. Förväntat värde kan tolkas som sant ”populationsvärde” och vara beskrivet med andra komponenter än de slumpmässiga.

För tidsserier (och liknande) kan modellen vara

Observerat värde = Förväntat värde + Avvikelse,

där avvikelserna beskrivs som en serie med autokorrrelation (t.ex. en autoregressiv serie), med en eller flera korrelationskoefficienter att skatta. För kortare serier (som 3-4 djup per borrhål eller prov i sjö) kan hela korrelationsmatriser skattas, eventuellt med speciella strukturer.

Hur avgöra om beroende föreligger?

Som sagts i inledningen måste vi misstänka att beroende kan föreligga för att kunna avgöra om så är fallet. Har vi en misstanke om det har vi säkert också en idé på vilket sätt beroendet uppstår och då kan vi utföra informella eller formella tester. Har man hierarkiskt insamlade data kan man direkt ansätta en modell enligt föregående avsnitt och använda ett program för variansanlys (SAS, Minitab, SPSS) och få s.k. varians-komponenter skattade. För tidsserier eller motsvarande kan man göra det genom att studera residualerna (avvikelserna) mellan observation och skattat ”förväntat” värde där man då gjort en analys utifrån ett antagande om oberoende. För tidsserier (och liknande) kan man få t.ex. autokorrelationskoefficienter skattade. För kortare ”serier” (3-4 djup per borrhål eller prov i sjö) kan man skatta korrelationsmatrisen för residualerna.


Ansvarig för webbsidan:
webmaster@miljostatistik.se