Logistische regressie is de geschikte regressieanalyse om uit te voeren wanneer de afhankelijke variabele dichotomisch (binair) is. Zoals alle regressieanalyses is de logistische regressie een voorspellende analyse. Logistische regressie wordt gebruikt om gegevens te beschrijven en de relatie te verklaren tussen een afhankelijke binaire variabele en een of meer nominale, ordinale, interval- of ratio-niveau onafhankelijke variabelen.
Soms zijn logistische regressies moeilijk te interpreteren; met het hulpmiddel Intellectus Statistics kunt u eenvoudig de analyse uitvoeren en vervolgens in gewoon Nederlands de uitvoer interpreteren.
Hoe verandert de kans op het krijgen van longkanker (ja versus nee) voor elk pond extra overgewicht en voor elk pakje sigaretten dat iemand per dag rookt?
Hebben lichaamsgewicht, calorie-inname, vetinname en leeftijd invloed op de kans op een hartaanval (ja vs. nee)?
Binaire Logistische Regressie Belangrijkste Veronderstellingen
- De afhankelijke variabele moet dichotom van aard zijn (bijv, aanwezigheid vs. afwezig).
- Er mogen geen uitschieters in de gegevens zijn, hetgeen kan worden beoordeeld door de continue voorspellers om te zetten in gestandaardiseerde scores, en waarden lager dan -3,29 of hoger dan 3,29 te verwijderen.
- Er mogen geen hoge correlaties (multicollineariteit) tussen de voorspellers zijn. Dit kan worden beoordeeld aan de hand van een correlatiematrix tussen de voorspellers. Tabachnick en Fidell (2013) suggereren dat zolang de correlatiecoëfficiënten tussen de onafhankelijke variabelen kleiner zijn dan 0,90, aan de aanname is voldaan.
In het middelpunt van de logistische regressieanalyse staat de schatting van de logkans op een gebeurtenis. Wiskundig gezien wordt bij logistische regressie een meervoudige lineaire regressiefunctie geschat, gedefinieerd als:
logit(p)
voor i = 1…n .
Overfitting. Bij de keuze van het model voor de logistische regressieanalyse is een andere belangrijke overweging de geschiktheid van het model. Door onafhankelijke variabelen aan een logistisch regressiemodel toe te voegen, neemt de verklaarde variantie in de log odds (gewoonlijk uitgedrukt als R²) altijd toe. Het toevoegen van steeds meer variabelen aan het model kan echter resulteren in overfitting, waardoor de generaliseerbaarheid van het model buiten de gegevens waarop het model is fit verminderd wordt.
Rapportage van de R2. Er zijn tal van pseudo-R2-waarden ontwikkeld voor binaire logistische regressie. Deze moeten met de grootste omzichtigheid worden geïnterpreteerd, omdat ze veel rekenproblemen hebben waardoor ze kunstmatig hoog of laag zijn. Een betere aanpak is de presentatie van een van de beschikbare goodness of fit-tests; Hosmer-Lemeshow is een veelgebruikte maatstaf voor goodness of fit op basis van de Chi-kwadraattest.