Statistiske forskningstermer

Kopieret fra “Forskningsårsstuderende - En vejledning til studenterforskning fra studerende til studerende” af Johan Skov Bundgaard

Der er et væld af statistiske begreber, som benyttes indenfor forskning og herunder frit nævnes i artikler. Nogle er meget specifikke, f.eks. modeller der er relevante for et givent forskningsfelt, hvorimod andet er grundlæggende begreber, som gør artiklen lettere at læse.

Incidens: Antallet af nye cases med f.eks. en sygdom i en befolkningsgruppe i løbet af en given tidsperiode

Prævalens: Antallet af cases med f.eks. en sygdom på et givet tidspunkt i en afgrænset befolkning, for eksempel den danske befolkning

Median: Den midterste værdi af ens observationer, når disse er placeret i ordnet rækkefølge. Hvis det udgøres at to tal tages gennemsnittet mellem de to tal

Mean: Værdi opnået ved at dividere summen af alle observationer med antallet af observationer

Parametrisk: Antager at data har en bestemt slags fordeling

Hypotese (H0): Varier med testen (uafhængighed, linearitet mm.). Hypotesen er ofte, at der ikke forskel mellem to eller flere grupper/populationer

P- værdi: Sandsynligheden for at få et mindst lige så ekstremt resultat (fx fordeling af grupper) under antagelse af H0 er sand. Med andre ord vil en p-værdi ofte repræsentere sandsynligheden for, at der IKKE er forskel mellem to eller flere grupper/observationer. En lav p-værdi giver derfor høj sandsynlighed for, at der ER en forskel mellem to eller flere grupper/observationer.

Konfidens interval, CI: Det interval af værdier til gennemsnittet, hvor vi er X % (ofte 95%) sikre på, at den sande værdi for hele befolkningen ligger indenfor. 
Eksempel: Blodtrykssænkende medicin har i en klinisk undersøgelse vist at reducere risikoen for død inden for 5 år efter en hjertesvigtsdiagnose med 25% (95% konfidens interval: 15% - 35%). Vi kan derfor være ”95% sikre på”, at den reelle, sande risikoreduktion ligger i intervallet 15% - 35%.

Forklarende (uafhængige, exposure) variable: Er som navnet antyder uafhængig, dvs. at den ikke påvirkes af andre variabler. Den uafhængige variabel er således den påvirkende variabel, der påvirker eller forklarer den afhængige variabel. Man ønsker ofte at afklare den forklarende/uafhængige variabel sammenhæng til den/de afhængige variable, for eksempel gennem brug af regressions modeller. 

Eksempel: Sammenhængen mellem rygning og iskæmisk hjertesygdom. Her er den forklarende variabel (den uafhængige variabel, exposure-variablen) rygning.
Fordelen ved at lave mange variabler er, at man kan teste for flere ting på en gang. Man kan f.eks. finde i sin resultatbehandling at Y ændre sig når X ændre sig. 

Den/de afhængige (response, outcome) variable: Er som navnet angiver, afhængig af den uafhængige variabel. Når man opstiller et studie, ønsker man at undersøge om den afhængige variabel bliver påvirket af den uafhængige Eksempel: Sammenhængen mellem rygning og iskæmisk hjertesygdom. Her er den afhængige variabel (response variabel, outcome variabel) iskæmisk hjertesygdom.

Confounding: Når en eller flere forklarende variable er relateret til outcome og hinanden, så det er svært at gennemskue den selvstændige effekt af hver variabel på outcome. 

Eksempel: En gruppe forskere har fundet ud af, at der ser ud til at være en sammenhæng mellem salget af is og antallet af drukneulykker. Jo mere is der sælges, jo flere drukneulykker observeres. Øger indtaget af is risikoen for drukneulykker? I dette tilfælde havde forskerne glemt at kontrollere for, at når vejret er godt, og solen står højt er folk mere tilbøjelige til at tage på stranden for at bade, hvorfor deres risiko for at drukne øges. De er samtidig mere tilbøjelig til at købe is. Vejrforholdene (Sol og varme) er derfor både årsag i et højere issalg og flere drukneulykker, mens issalget i sig selv ikke har noget med drukneulykker at gøre. Vejrforholdene er derfor en confounder til sammenhængen mellem issalg og drukneulykker.

Interaktion/Effektmodifikation: Kan opstå mellem to forklarende variable, når effekten af den ene variabel på outcome varierer efter niveauet af den anden. 

Eksempel: En gruppe forskere har sat sig for at undersøge, hvordan forskellige faktorer påvirker, hvor sødt en kop kaffe smager (den afhængige (response) variablen, outcome). De måler to forklarende (uafhængige, exposure) variabler: Mængden af sukker der kommes i kaffen, og intensiteten hvormed der røres i kaffen. De finder, at mængden af sukker alene, når der ikke røres i kaffen, ikke har stor effekt på hvor sødt kaffen smager. De finder også, at intensiteten hvormed der røres i kaffen, når der ikke er meget sukker i, har ringe effekt på hvor sødt kaffen smager. Til deres store overraskelse finder de dog til slut, at hvis der kommes meget sukker i kaffen samtidig med, at der røres med høj intensitet, så smager kaffen utroligt sødt. Der er altså interaktion/effektmodifikationen mellem mængden af sukker og intensiteten hvormed der røres der påvirker, hvor sødt kaffen kommer til at smage. Den samme mængde sukker har forskellig effekt på sødmen, afhængigt af hvilken intensitet der bliver rørt i kaffen.

Odds: Ratio af sandsynligheden for to modsatrettet events. For eksempel risikoen for at få en sygdom divideret med risikoen for ikke af få en sygdom

Odds ratio: Ratio af to odds

Logistisk regression: En model til at relatere en eller flere forklarende variable til et binært (eks. 0/1, Ja/nej) outcome. Observationstid/follow-up tid indgår ikke i logistisk regression. Resultater fås som Odds ratioer. 

Eksempel: En gruppe forskere er interesserede i, om der er en sammenhæng mellem lakridsindtag målt i antal gram om ugen og tilstedeværelsen af forhøjet blodtryk. De indsamler data i en befolkningsundersøgelse og udspørger folk om både blodtryksstatus og lakridsindtag på undersøgelsesdatoen. En logistisk regressionsmodel kan undersøge, om der er en signifikant sammenhæng mellem antal gram lakrids om ugen (forklarende variabel, exposure/uafhængig variabel) og tilstedeværelsen af forhøjet blodtryk (den afhængige variabel, response variablen). 
Modellen kan udvides således der kan inkluderes mere end blot en enkel forklarende variabel. Det kaldes i så fald Multivariabel logistisk regression. Dette tillader, at der kan kontrolleres for confounding, i daglig tale omtalt som ”justering”.

Overlevelsesstatistik: Statiske metoder til dataanalyse, hvis outcome variabel er defineret ved tid til et event (eks. Død/sygdom) finder sted. Et typisk og meget anvendt eksempel er Cox regression. Denne analysetype bliver ofte anvendt i kohorte-studier eller randomiserede kliniske studier. 

Eksempel: En gruppe forskere er interesserede i at undersøge om civilstand på diagnosetidspunktet har betydning for overlevelsen hos hjertesvigtspatienter. Forskerne identificerer og inkluderer 500 hjertesvigtspatienter på diagnosetidspunktet og undersøger samtidig deres civilstand inddelt i kategorierne: Gift og samlevende, fraskilt eller aldrig gift (forklarende variabel, exposure/uafhængige variabel). De følger nu disse hjertepatienter enten indtil de dør, eller indtil studiet når sit sluttidspunkt (slutning på observationsperioden/follow-up perioden). Cox regression og overlevelsesanalyse kan svare på, om der er signifikant forskel på overlevelsestiden, og hermed risikoen for død, mellem eksempelvis gifte og fraskilte, eller mellem fraskilte og aldrig gifte osv. I Cox regression er der også mulighed for at inkludere flere forklarende / uafhængige variable, så der kan justeres for confounding.

Kaplan-Meier estimator/kurver: Metode til at beregne overlevelsessandsynligheden til en hver tid. Egner sig godt til grafisk illustration (Kaplan-Meier plots/kurver). Bruges ofte til at vise en forskel i overlevelse mellem to eller flere grupper. 
Begrænsninger: 1) Fejlestimerer i tilfælde af competing risk, 2) kan ikke justeres for andre variable.

Censorering: Fuld overlevelsestid er ikke kendt (dvs. personer bliver censoreret fra den dato, hvor vi ikke længere har oplysninger om dem/kan følge dem). Censoring kan også finde sted efter event.

Log-rank test: En ikke parametrisk test til sammenligning af overlevelseskurver.

Competing risk: Når der er mindst to mulige event, men hver person kan kun opleve ét event. F.eks. død af cancer vs. død af kardiovaskulær sygdom.

Kumulativ incidens funktion/kurver: Beregning/illustration af den summeret risiko for et given event under tilstedeværelse af andre mulige events. Således et alternativ til Kaplan-Meier plots, når der er competing risk tilstede.

Hazard: Den øjeblikkelige risiko for at opleve et event i overlevelsesanalyser.
Hazard ratio: Ratioen (forholdet) mellem to hazards.

Cox proportional hazard regression model: Regressionsmodel inkluderer tid, således at risikoen mellem hver event over tid i populationen beregnes. Således en meget detaljeret håndtering af tid, hvor tidsopdelingen er meget lille, hvorfor denne model er meget populær. Resultatet fås som Hazard ratioer.

Krav til Cox modellen:
  1. Proportional hazards assumption: Den relative hazard skal være konstant over tid. Det skal betyde det samme for den relative risiko dag 1 som dag 300 efter eksponeringsstart. 
  2. Ingen interaktion: Risikoen associeret med en variabel skal ikke være afhængig af andre variable. 
  3. Linearitet af kontinuere variable: Det skal betyde det samme for den relative risiko at gå fra 0 til 1 som fra 10 til 11.
Incidence rate: Udtryk for hyppighed. Antallet af nye tilfælde af f.eks. en sygdom i en given periode divideret med antal individer i risiko ved start af perioden.

Incidence rate ratio: Ratio (forholdet) mellem to incidensrater.

Possion regressionsmodel: Regressionsmodel inkluderer tid, hvor risikoen bliver analyseret i bestemte tidsintervaller, som man selv definerer størrelsen på. Resultat fås som incidens rate ratio. Tidshåndteringen ikke så fin som ved Cox regression. Det vil sige, at Poisson modellen, såfremt der ikke anvendes indviklet håndtering af observationstiden, antager, at raten eller risikoen for at dø eller opnå endepunktet/outcome er konstant under hele observationstiden. Dette kan i nogle tilfælde være en acceptabel antagelse. Der er dog situationer, hvor en sådan antagelse er meget i strid med virkeligheden. 

Eksempel: En forsker vil bruge Poisson regresson til at identificere risikofaktorer for alvorlige komplikationer efter hjertetransplantation. Han agter at følge patienterne for alvorlige komplikationer i op til 5 år efter transplantationen. Han mener, at det er rimeligt at antage, at risikoen for alvorlige komplikationer i dagene kort efter transplantationen er nogenlunde identisk med risikoen for alvorlige komplikationer i det 4. eller 5. år efter transplantationen. Det tænker han, at han sagtens kan bruge Poisson regression. Han tager dog fejl. Her ville det være mere hensigtsmæssigt at bruge Cox regression eller en anden type overlevelesanalyse med finere håndtering af observationstiden. Det skal nævnes, at Possion regression skal leve op til de samme krav som cox modellen



Redaktør