Loading
Relaterad information
Hantering av värden under detektioslimit

Trender - en introduktion

Icke-parametrisk utjämning

Anpassning av trendytor

Förklarande variabler i trendanalysen - Normalisering



Externa länkar

Linjär regression

Beskrivning

Är man intresserad av att undersöka sambandet mellan två variabler som har ett kausalt samband (variabel Y beror på nivån av variabeln X), så kan regression användas. Ofta utgår man ifrån att sambandet mellan dessa två variabler är linjärt. Det är dock möjligt att även specificera icke-linjära samband i en regressionsmodell.

I det här avsnittet kommer vi att illustrera linjär regression ur ett trendanalysperspektivet, där den beroende variabeln (responsvariabeln, Y) utgör någon miljöindikator (t.ex. någon koncentration) och den oberoende (förklarande) variabeln (X) är tid. I samma modell kan vi också inkludera fler förklarande variabler som har linjära samband med responsvariabeln (t.ex. variabler som står för den naturliga variationen: temperatur, nederbörd eller avrinning). se även multipel regression och normalisering)

Exempel

Figure 1: Chemical Oxygen demand (COD) under en 10-års-period och under en 20-års-period.

Även om kortare serier kan uppvisa linjära förändringar är de sällan rimliga under längre perioder. Under en 10-års-period (1976-1986) skulle en linjär funktion kunna användas för att beskriva förändringar i chemical oxygen demand (COD) i Gråda. När man betraktar en längre serie är det dock tydligt att en linjär trendfunktion inte är intressant. I detta dataset är en stor del av förändringen ett resultat av ökad avrinning, men även om man korrigerar för naturlig variation (normalisering) är antagandet om en linjär förändring för enkel.

Viktigt att veta

Modellen för linjär regression bygger på några grundläggande förutsättningar som måste vara uppfyllda för att man ska kunna dra slutsatser av analysen, dvs. att tester och konfidensintervall i modellen ska vara korrekta.
Förutsättningarna är:
  1. observationerna måste vara oberoende,
  2. residualerna i modellen måste vara normalfördelade,
  3. variansen i residualerna måste vara konstant.
I (2) och (3) måste man alltså bedömma residualerna, som är avstånden från de observerade värdena till regressionslinjen. Om antingen (2) eller (3) eller båda inte är uppfyllda så kan man ibland hitta en passande transformation som normaliserar residualerna och/eller stabiliserar varianserna. Linjär regression är ganska robust mot mindre avvikelser från normalfördelning.

När (1) inte är uppfyllt, dvs observationerna inte är oberoende, så måste man istället modellera beroende mellan observationerna (om det går). Läs mer om det under Linjär regression med autokorrelerade fel nedan.

Fallgropar

Använder man regression för trendanalys måste man ha skäl att anta att trenden man undersöker faktiskt är linjär. Det är därför viktigt att både före och efter modellanpassningen undersöka om det finns grund för dessa antagande i det aktuella datamaterialet. Detta gäller även om man anpassar en trend med en annan funktionell form (kvadratisk, exponentiell, …).
Om man inte vet vilken form trenden har och antagandet om att den är linjär inte håller är det bättre att antingen testa trenden utan att modellera den (t.ex. med icke-parametriska metoder såsom Mann-Kendall test) eller att modellera den med icke-parametriska utjämningsmetoder eller trendytor.

Detaljer

Den linjära regressionslinjen anpassas på så sätt att de kvadrerade avstånden mellan observationerna och regressionslinjen är så liten som möjligt. Antaganden som beskrivs ovan kollas med hjälp av olika residualplottar, där man också kan se om sambandet mellan observationsvärdena och tiden inte är linjärt.
Figur 2: Fyra plottar för att bedöma om antaganden för regressionen är uppfyllda.

'Normal probability plot' och 'histogram' i Figur 2 används för att avgöra om residualerna är normalfördelade. 'Versus Fits' kan användas för att se om variansen är konstant när värdet för den förklarande variabeln ökar och 'Versus Order' kan användas för att bedömma om observationerna är oberoende och om det linjära sambandet håller. I det här exemplet är plottarna 'Versus Fits' och 'Versus Order' samma, då den förklarande variablen är tid (som också avgör ordningen i datamaterialet). I datamaterialet är normalfördelningsantagandet rimligt men data är inte oberoende och det linjära sambandet, som förutsätts, passar inte bra.

Linjär regression med autokorrelerade fel (när observationer inte är oberoende)

Om det finns ett beroende mellan observationer i tiden, dvs. att två observationer som mäts nära i tiden på samma provtagningsplats korrelerar (samvarierar) med varandra (som i Figur 2) blir konfidensintervall och p-värden ur en vanlig regressionsmodell missvisande. När observationerna korrelerar och avståndet i tiden mellan de olika provtagningarna är ungefär samma genom hela provtagningsperioden (t.ex. en observation per vecka eller per månad), så kan den linjära regressionsmodellen byggas ut genom att även ansätta en modell för residualerna. Man skattar då korrelationen mellan observationerna och tar hänsyn till denna korrelation när man anpassar den linjära regressionslinjen. Dessa modeller kallas ofta autoregression eller regression med autokorrelerade fel.

Multipel regression

Multipel regression är fallet där man har fler än en förklarande variabel i modellen. För tillämpningar inom miljöövervakningen rör det sig då ofta om variabler som beskriver den naturliga variationen i data, t.ex avrinning eller temperatur. Även här utgår man ifrån att sambanden är linjära och att effekterna av de olika förklarande variablerna i modellen är additiva, dvs. att effekten på den variabel som man undersöker är en summa av de linjära effekterna av tiden, avrinning och andra inkluderade variabler.

För att kunna tolka parametrarna i en multipel regression måste de enstaka förklarande variablerna vara oberoende av varandra, dvs att de inte ska samvariera med varandra. Om variablerna samvariera bara lite (är korrelerade i mindre utsträckning) så är det generellt inget problem att använda en multipel regressionsmodell i alla fall. Finns det stark korrelation mellan de förklarande variablerna så är det bättre att använda en metod som klarar att hantera korrelerade förklarande variabler, t.ex. PLS eller möjligvis utesluta några av dessa variabler.

Icke-linjär regression och regression med interaktioner

I viss mån är det möjligt att modellera icke-linjära samband inom strukturen av en linjär regression. Detta är möjligt om man kan specifiera en funktion för det icke-linjära sambandet, t.ex. kvadratiskt eller exponentiellt. Det är också möjligt att lägga till interaktionstermer om det finns ett samspel mellan olika variabler, dvs att effekten av två variabler inte är additiv (kan summeras).

Observationer under detektionsgräns och saknade värden

Om värden saknas för responsen eller en av de förklarande variablerna så används inte observationen i modellanpassningen. Observationer under detektionsgräns för responsvariabeln kan hanteras med så-kallad 'censored regression'.

Datorprogram

Linjär regression finns med i de flesta statistikprogram. Dessutom finns det även i Excel (Data analysis verktyg).


Ansvarig för webbsidan:
webmaster@miljostatistik.se