Brytpunkter i tidserier
Några vanliga typer av brytpunkter
Tidsserier av miljödata uppvisar ibland plötsliga förändringar av de statistiska egenskaperna hos de observerade värdena. Exempelvis kan den genomsnittliga nivån eller spridningen i data plötsligt öka eller minska (Figur 1). Sådana förändringar kan bero på något slags regimskifte i det studerade systemet, men de kan också bero på förändringar i mätmetodik eller andra artificiella förändringar i datainsamlingen. Inom klimatforskningen har man under senare år lagt ner stor möda på att identifiera artificiella brytpunkter i långa tidsserier av temperatur- och nederbördsdata. Syftet med det arbetet är att skapa homogeniserade tidsserier där man tagit bort effekter av att väderstationer kan ha flyttats eller att mätinstrumenten bytts ut.Figur 1: Två huvudtyper av brytpunkter. Den lodräta linjen markerar tidpunkten för den plötsliga nivå- respektive spridningsförändringen.
Statistiska metoder för brytpunktsdetektion
Det mest kända testet för att undersöka förekomsten av ett plötsligt nivåskifte någonstans i en tidsserie kallas Standard Normal Homogeneity Test (SNHT). Nollhypotesen i detta test innebär att de observerade värdena kan ses som ett stickprov på en normalfördelning med konstant väntevärde och varians. Alternativhypotesen innebär att väntevärdet förändras från en nivå till en annan från och med en före analysen okänd tidpunkt. Liknande tester har även konstruerats för andra huvudtyper av brytpunkter. Exempelvis finns det tester för att avgöra om det vid någon på förhand okänd tidpunkt skett en plötslig förändring av spridningen i data eller en trendlinjes lutning.Under det senaste decenniet har det successivt utvecklats allt bättre och beräkningstekniskt snabbare metoder att samtidigt identifiera flera brytpunkter i flera serier. Detta innebär att man mer effektivt kan analysera data som samlats in på flera platser eller under flera säsonger. EU-projektet HOME ger en översikt över nu tillgänglig metodik för såväl enskilda tidsserier som data från hela nätverk av mätstationer.
Inom fältet brytpunktsanalys skiljer man ofta mellan metoder som används off-line respektive online. Offlinemetoder är retrospektiva och utgår från ett givet datamaterial från en viss tidsperiod. Onlinemetoder, som också kallas sekventiella metoder, utgår från att data samlas in successivt och att man vill ha en metod som slår larm så fort en brytpunkt upptäcks.
Programvara
EU-projektet HOME har gett tillgång till flera olika datorprogram för retrospektiv analys av plötsliga nivåskiften och korrigering för de brytpunkter som bedöms vara artificiella. Speciellt kan nämnas programmen HOMER, MASH och ACMANT, vilka alla innehåller relativt avancerade metoder för att bedöma vilka brytpunkter som är statistiskt säkerställda. Excelmakrot LEVELSHIFT (se nedanstående exempel) är främst inriktat på retrospektiva, explorativa analyser och syftar till att snabbt överblicka förekomsten av potentiella brytpunkter i en eller flera tidsserier. Programvaran STARS (Sequential Regime Shift Detection Method), som också finns tillgängligt som ett Excelmacro, är inriktat på upptäcka brytpunkter så tidigt som möjligt när nya data successivt tillkommer.Eftersom det kan vara svårt att skilja mellan brytpunkter och annan variation i tidsserier försöker man ofta använda så kallade relativa metoder. Detta innebär att man från en kandidatserie (den tidsserie man vill analysera) subtraherar en referensserie som förutsätts sakna brytpunkter men i övrigt samvarierar med kandidatserien. EU-projektet HOME visade att relativa metoder normalt bör användas när man analyserar data från nätverk av stationer. I vissa datorprogram för brytpunktsanalyser förutsätts användaren redan före den statistiska analysen ha subtraherat bort lämpliga referensserier. I andra program sker subtraktionen automatiskt när användaren valt referensserier, och i ytterligare andra program konstrueras automatiskt en statistiskt optimal referensserie med hjälp av de inmatade serierna.
Ett exempel
Temperaturserierna från Stockholm och Uppsala hör till några av världens längsta serier av observerade klimatdata. För att upptäcka artificiella brytpunkter i dessa serier kan man med fördel beräkna temperaturskillnaden mellan de båda platserna. Då elimineras en stor del av den verkliga variationen i väder och klimat medan artificiella nivåskiften kvarstår så länge de inte inträffar samtidigt i Stockholm och Uppsala. Figur 2 visar vilka plötsliga nivåförändringar som upptäcktes när Excelmakrot LEVELSHIFT användes för att identifiera de 24 största nivåförändringarna i de årligen observerade skillnaderna i månadsmedeltemperaturer för årets 12 månader. Speciellt kan man notera att trenden i rådata förändrats när man korrigerat för plötsliga nivåskillnader.Figur 2. Brytpunktsanalys av temperaturskillnader mellan Uppsala och Stockholm. Den ursprungliga serien av månadsvärden har delats upp i 12 serier (en för var och en av årets tolv månader) och brytpunktsanalys har identifierat de 24 mest betydande nivåskiftena i dessa 12 serier.
Att tänka på vid brytpunktsanalyser
Trots att de ovan beskrivna metoderna för brytpunktsdetektion primärt utvecklats för att upptäcka plötsliga förändringar så ger de statistiska testerna också utslag för gradvisa förändringar. Exempelvis kan data med en linjär trend ofta beskrivas ganska väl med en modell där det förväntade värdet med jämna mellanrum ändras stegvis. Om man utnyttjar brytpunktsdetektion för att slå larm om onormala förändringar kan det vara en fördel att testet ger utslag för flera typer av förändringar. I andra situationer kan detta vara en nackdel, eftersom plötsliga och gradvisa förändringar kan ha helt olika förklaringar. I tidsserier av miljödata är det inte ovanligt att det finns både en kontinuerlig trend som representerar en verklig miljöförändring och plötsliga nivåskiften som orsakas av förändrad mät- eller provtagningsmetodik.Teoretiskt sett är det inga större problem att konstruera tidsseriemodeller som innehåller såväl kontinuerliga som plötsliga förändringar i observationernas fördelning. Det går också att konstruera numeriska algoritmer som anpassar sådana modeller till observerade data. Exempelvis ger Excelmakrot LEVELSHIFT denna möjlighet. Det bör dock noteras att modeller med helt olika fördelning mellan kontinuerliga trender och brytpunkter ofta kan ge ungefär lika bra anpassning till observerade data.