Loading
Relaterad information
Datamaterialets egenskaper



Litteratur
Helsel D. R., Nondetects and Data Analysis: Statistics for censored environmental data, Wiley 2005,

Hantering av värden under detektionsgräns (censurerade värden)

Detektionsgräns och Kvantifieringsgräns

När prover analyseras i laboratoriet finns vissa osäkerheter, speciellt när halterna är låga. Eftersom det inte är önskvärt att registrera positiva värden som skulle kunna härröra från ett blankprov, så rapporteras inte värden under en detektionsgräns. Även värden som ligger precis över detektionsgränsen kan kännas osäkra att rapportera, eftersom storleken av mätfelet fortfarande är ganska stor jämfört med signalens storlek. För att undvika denna osäkerhet används i vissa fall en kvantifieringsgräns (eller rapporteringsgräns, bestämbarhetsgräns) som ligger betydligt högre än detektionsgränsen.

När låga värden är del av ett datamaterial, så finns det tre möjligheter att rapportera dessa:
  1. att ange när ett värde ligger under detektionsgränsen (< DG) och rapportera uppmätta värden bara om de ligger över detektionsgränsen,
  2. att ange när ett värde ligger under kvantifieringsgränsen (< KG) och rapportera uppmätta värden bara om de ligger över kvantifieringsgränsen,
  3. att ange när ett värde ligger under detektionsgränsen (< DG), eller mellan detektionsgräns och kvantifieringsgräns (DG < värde <KG), och rapportera uppmätta värden bara om de ligger över kvantifieringsgränsen.
I alla tre fallen måste man ta hänsyn till censureringen när man analyserar data. I många fall har forskare valt att ersätta värden under detektions- eller kvantifieringsgränsen med antingen värdet för gränsen eller med halva detta värde. Att ersätta okända värden på detta sätt leder i princip alltid till felaktiga skattningar. Värden under en eller flera gränser kan hanteras på ett korrekt sätt genom:
  1. icke-parametriska metoder, som baseras på rangordning istället för uppmätta värden, och
  2. Maximum-likelihood metoder, som använder den statistiska fördelningen som observationer ovanför gränsen har, tillsammans med andelen observationer under gränsen.

Icke-parametriska metoder

Icke-parametriska metoder bygger på rangordningen i ett datamaterial. Median eller percentiler är exempel på icke-parametriska skattningar, som tas fram enbart med hjälp av information om hur datamaterialet är ordnat.

Maximum-likelihood metoder

När det är möjligt att bestämma en statistisk fördelning för datamaterialet, så kan skattningar tas fram med hjälp av (i) denna fördelning, (ii) observationerna över detektionsgränsen och (iii) andelen observationer under gränsen.

Översikt över metoder när det finns censurerade observationer:

MålIcke-parametriska metoderMaximum-likelihood metoder
Skatta medelvärden, median, standardavvikelser Medianen kan beräknas för data där mindre än 50% är censurerade, övre percentiler kan också beräknas.
För beräkning av medel och standardavvikelse kan Kaplan-Meier-metoden användas
Om observationerna följer en känd fördelning kan medelvärde och standaravvikelse skattas från den anpassade fördelningen.
Bilda konfidensintervall Konfidensintervall kan bildas med hjälp av skattningarna ovan, t.ex. för medianen eller för medelvärdet med Kaplan-Meier-metoden. Skattningarna och fördelningen ovan kan användas för att bilda konfidensintervall.
Jämförelse av två grupper Rangsummetest (Mann-Whitney) om det bara finns en gräns.
'Score' tester, som Gehans test, generaliserad Wilcoxon test eller Peto-Prentice test om de två grupperna har olika gränser.
Maximum-likelihood metoder för regression kan användas där grupptillhörighet anges med hjälp av en dummyvariabel.
Jämförelse av tre eller flera grupper Kruskal-Wallis test
Wilcoxon Score test
Maximum-likelihood metoder för regression kan användas där grupptillhörighet anges med hjälp av flera dummyvariabler.
Korrelation Spearmans rho,
Kendalls tau, som även kan användas om det finns olika gränser i datamaterialet.
Likelihood r2 kan beräknas med resultat från en regressionsmodell med en förklarande variabel och samma regressionsmodell utan förklarande variabler.
RegressionRegressionskoefficienten kan skattas med Theil-Sen regression, se även Mann-Kendall test. Maximum-likelihood regression eller censurerad regression.
TrendanalysMann-Kendall test Maximum-likelihood regression, med tid som förklarande variabel.

Programvara

De flesta metoder härstammar från metoder som används inom överlevnadsanalys (inom medicinsk statistik eller industriell statistik). Metoderna är då framtagna för datamaterial som innehåller högercensurerade värden (alltså värden över en gräns som inte kan mätas exakt). I miljötillämpningar är det vanligast att värden är vänstercensurerade, alltså att värden under en gräns inte kan bestämmas säker. Modellerna som används är desamma, det är dock i många fall fortfarande svårt att hitta programvara som kan hantera vänstercensurerade observationer utan att man måste ta till små tricks (t.ex. så kallad flipping).

Speciellt för regressions- och trendmodeller är det bäst och enklast att använda ett dataprogram som kan hantera intervallcensurerade eller godtycklig (arbitrary) censurerade data. Metoderna för högercensurerade värden finns i de flesta standard statistikprogram. Godtyckligt censurerade data kan direkt användas inom SAS (PROC LIFEREG, PROC QLIM), Minitab (Regression on life data) och R (NADA).


Ansvarig för webbsidan:
webmaster@miljostatistik.se