Datatransformationer
För många statistiska metoder finns det vissa antaganden som måste vara uppfyllda för att slutsatserna i testet ska vara giltiga. Om antagandena inte är uppfyllda kan man i vissa specialfall ändå nå erforderlig egenskap hos data genom att transformera. Några typiska transformationer tas upp nedan.Transformation för att uppnå önskad fördelning
Många traditionella statistiska metoder baseras på ett antagande att observationerna är normalfördelade. Är man intresserad att testa eller jämföra olika medelvärden räcker det ofta att anta att själva medelvärdena är normalfördelade, som de ofta är när stickprovsstorleken är tillräckligt stor (centrala gränsvärdessatsen (extern länk)). Använder man modeller (variansanalys, regression) så antas det i standardmodellerna att residualerna (feltermen) är normalfördelad, men det måste undersökas i samband med analysen. Vill man kontrollera om observationerna eller residualerna i en modell är normalfördelade, så kan man plotta dem i ett histogram eller, bättre, i en Q-Q-plot (fördelningsplot). Observationerna kan antas vara normalfördelade när observationerna ligger längs den mittersta blåa linjen i en Q-Q-plot (se Figur 2).Figur 1: Histogram och Q-Q-plot för totalfosfor i Skivarpsån. Om observationerna kommer från en normalfördelning så ligger de röda punkterna ungefär på den mittersta blåa linjen, så är inte fallet här. Histogrammet till ovan visar att fördelningen är skev.
Figur 2: Histogram och Q-Q-plot för log-transformerat totalfosfor i Skivarpsån. De transformerade observationerna är tillräckligt nära en normalfördelning för att kunna användas i statistiska metoder som baseras på denna fördelning.
Tranformation för att stabilisera varianser
I samband med modellering med hjälp av regression eller variansanalys krävs vanligtvis också att varianserna är konstanta, d.v.s. att de inte varierar över de olika grupperna som undersöks eller över regressionsområdet. Ett vanligt problem är att residualerna i modellerna uppvisar en trattform – de ökar med ökat värde på responsvariabeln.För att ta bort detta beroende mellan varians och medelvärde använder man variansstabiliserande transformationer, vanligtvis kvadratrotstransformation eller Box-Cox transformationer.
Figur 3: Residualanalyser görs för att undersöka om modellens alla antaganden är uppfyllda. I översta raden till vänster och i mitten (Residual mot Predicted Value och RStudent mot Predicted value) ser vi en trattform, spridningen blir större när det predikterade värdet ökar. Notera även att vi i denna analys har en hyfsat bra normalfördelning att utgå ifrån, se Q-Q-plot (Residual mot Quantile) i rad 2 till vänster och histogram (Percent mot Residual) i rad 3 till vänster.
Återstående bilder visar följande:
Rstudent mot Leverage: om det finns enstaka observationer som har stort inflytande på den aktuella analysen, dvs att analysen skulle ge annorlunda resultat om denna observation eller dessa observationer skulle uteslutas.
y mot Predicted value: observationer mot det predikterade värdet från modellen (här en regression). Om man kan se några mönster i residualerna så kan det beror på att samband är icke-linjära, men i modellen antas sambanden att vara linjära
Cook’s D mot Observation: Mäter också inflytelse av de olika observationerna, även variation av de olika observationerna vägs in. Att vi kan se avvikande observationer i denna plot men inte i leverage plotten beror igen på att spridningen blir större när det predikterade värdet blir större.
Tranformation för linearitet
För vissa modeller krävs att sambanden mellan olika variabler är linjära, t.ex. linjär regression och vissa multivariata metoder. Om sambandet inte är linjärt men ändå följer en känd struktur så kan man transformera data för att få linearitet. Om sambandet är exponentiellt, alltså om en variabel ökar eller minskar exponentiellt när den andra ökar/minskar med en enhet, så kan man använda log-transformationoch därmed erhålla ett linjärt samband.
På samma sätt kan man tänka sig andra log-transformationer, t.ex. om en 1 % ändring i en variabel leder till en 1%*b förändring i den andra, så blir sambandet linjärt när man tar
Binära data sammanfattas ofta som proportioner, som även de kan analyseras i linjära modeller efter en lämplig transformation. Här används vanligtvis logit eller probit transformation. För att analysera sådana data används dock sällan modeller för genomsnittsvärden, utan istället speciella modeller som kan ta hänsyn till den underliggande fördelningen för dessa data (binomialfördelning), generaliserade linjära modeller, som har logit transformationen inbyggt.