Icke-parametrisk utjämning
Beskrivning
Målet med icke-parametrisk utjämning är att skatta tidstrenden genom utjämning av data. Trendens form behöver därför inte bestämmas i förväg, som i linjär regression. Icke-parametrisk utjämning kan genomföras i många olika former och förklarande variabler kan enkelt inkluderas i modellerna.Exempel
Figur 1: Resultat av icke parametrisk utjämning för marknära ozon i Norr Malma. Både tidstrenden (år) och sambandet med de förklarande variablerna temperatur, relative luftfuktighet och vindriktning behandlas icke-parametriskt.
I modellen i Figur 1 behandlas alla samband icke-parametriskt. Analysen var begränsad till månaderna februari tom. april och till observationer gjorda kl 12. Sambanden mellan temperatur och ozon samt relative luftfuktighet och ozon är nästan linjära och antagande om ett linjärt samband skulle antagligen fungera bra för just detta dataset. Vindriktning är en cyklisk funktion, och vissa program tillåter att man specifierar den som sådan, men även utan att ange detta så sammanfaller nivåerna vid 0 grader och 360 grader ganska bra. Utjämningen över tiden visar inga systematiska ändringar under den aktuella 10-års perioden.
Viktigt att veta
Hur mycket serien jämnas ut (hur mycket brus som filtreras bort) styrs genom en utjämningsparameter. För vissa modeller kallas denna parameter bandbredd (bandwidth), för andra straffparameter (roughness penalty). Den utjämnade kurvan är då en skattning av trenden. Fördelen med denna metod är att den utjämnade kurvan (trenden) följer observationerna och visualiserar det som faktiskt har hänt i datamaterialet. Nackdelen är att själva trendmodellen inte kan tolkas i termer av ingående parametrar (som man gör i linjär regression, där regressionsparametern står för förändring per tidsenhet).Fallgropar
Icke-parametrisk utjämning används ofta i första hand för att visualisera trender, dvs för att filtrera bort korttidsvariation (brus) för att enklare kunna se och bedöma om det finns förändringar över tiden. Anpassningen kräver dock ibland tidskrävande valideringsprocedurer, och genomförande av signifikanstester för de upptäckta trenderna görs ofta med hjälp av datorintensiva metoder. Det är alltså nödvändigt att förstå grunderna för dessa validerings- och testprocedurer för att kunna använda icke-parametrisk utjämning på ett korrekt sätt.Detaljer
Icke-parametrisk utjämning (non-parametric smoothing) kan göras på många olika sätt, t.ex. med hjälp av glidande medelvärden (moving averages), kärnutjämning (kernel smoothing), locally weighted regression smoothing (loess) eller splines. Hur utjämnad funktionen blir beror på en utjämningsparameter, som kan bestämmas subjektivt eller genom en algoritm (se automatisk anpassning nedan).Modeller med förklarande variabler
I det enklaste fallet är modellen additiv, dvs effekten av de enskilda förklarande variablerna och tidstrenden summeras. Ibland är det dock nödvändigt att ta hänsyn till samvariationer mellan variabler, t.ex. om tidstrenden ser olika ut för olika säsonger så måste interaktionen (samspelet) mellan tid och säsong skattas.Kontinuerliga förklarande variabler kan hanteras med:
- helt icke-parametriska modeller: både tidstrenden och sambandet med de förklarande variablerna hanteras genom utjämningsfunktioner.
- semi-parametriska modeller: förklarande variabler tas med i en parametrisk modell (linjär i parametrarna), medan trenden beskrivs med en icke-parametrisk utjämningsfunktion.
Homogenisering av trender
Klassindelade förklarande variabler kan används för att dela upp datamaterialet i homogena delar, t.ex en serie för varje månad (säsong), för varje område, för olika vindrikningar, för olika längder på fisk, osv. Resultatet av en trendmodellering blir då en trendyta eller flera trendkurvor, som kan jämföras med varandra.Automatisk anpassning - korsvalidering
<Glattheten i utjämningskurvan bestäms av en utjämningsparameter, som antingen kan sättas för hand eller genom korsvalidering. I korsvalideringen bestäms parametern genom att en eller flera observationer utelämnas före modellanpassningen och predikteras sen med hjälp av modellen. Den modell (=utjämningsparametern) som ger lägst prediktionsfel väljs.Det finns olika sätt att genomföra korsvalidering (t.ex. leave-one-out eller block-korsvalidering). Om det finns stark autokorrelation leder leave-one-out korsvalidering generellt till för komplicerade modeller (=för liten utjämning). Då ska helst block av data lämnas ut (block- korsvalidering). Många datorprogram för icke-parametrisk utjämning använder generaliserad korsvalidering (GCV) som approximerar prediktionsfelet som man skulle ha fått med leave-one-out korsvalidering. Detta går snabbare än att genomföra själva korsvalideringen.
Signifikanstester
Signifikanstester för tidstrender som är skattade med icke-parametrisk utjämning kan göras på olika sätt. En enkel metod är att beräkna normaliserade data, dvs serier där effekterna av förklarande variabler är borttagna, och sedan använda ett icke-parametrisk signifikanstest på dessa serier.Det finns också direkta metoder för signifikanstest i icke-parametriska utjämningsmodeller. Bootstrap kan användas för att beräkna konfidensintervall för trendskattningen. Vilken form av bootstrap som är mest lämplig kan variera för olika problem, men vissa av datorprogrammen har lämpliga rutiner redan inbyggda.
En annan möjlighet är att använda variansanalysmetoder för att jämföra den skattade modellen med en enklare modell (t.ex. den utan tidstrend). Testet genomförs vanligtvis med ett F-test, som kräver att datamaterialet är normalfördelat. Dock kan även här bootstrap användas om detta krav inte är uppfyllt.
Observationer under en detektionsgräns och saknade värden
Ett mindre antal saknade värden utgör vanligtvis inte något problem för icke-paramteriska utjämningsmetoder. Det finns avancerade metoder som även kan hantera värden under en detektionsgräns, dessa ingår dock vanligtvis ej i standarddatorprogram.Programvara
Icke-parametrisk utjämning kan utföras av många mer avancerade statistikprogram och inkluderar vanligtvis både icke-parametriska och semiparametriska modeller, även interaktioner kan tas med i dessa modeller, t.ex SAS (PROC GAM, PROC LOESS) eller R (package sm (Smoothing methods for nonparametric regression and density estimation); package gam (Generalised additive models)).Ett annat program som kan användas är MULTITREND, som används för att skatta trendytor. Läs mer om det på vår sida om trendytor.