Die logistische Regression ist die geeignete Regressionsanalyse zur Durchführung, wenn die abhängige Variable dichotom (binär) ist. Wie alle Regressionsanalysen ist auch die logistische Regression eine prädiktive Analyse. Die logistische Regression wird verwendet, um Daten zu beschreiben und die Beziehung zwischen einer abhängigen binären Variablen und einer oder mehreren nominalen, ordinalen, intervall- oder verhältnisbasierten unabhängigen Variablen zu erklären.
Manchmal sind logistische Regressionen schwer zu interpretieren; das Intellectus-Statistik-Tool ermöglicht es Ihnen, die Analyse einfach durchzuführen und interpretiert dann in einfachem Englisch die Ausgabe.
Wie ändert sich die Wahrscheinlichkeit, an Lungenkrebs zu erkranken (ja vs. nein), für jedes zusätzliche Pfund Übergewicht und für jede gerauchte Schachtel Zigaretten pro Tag?
Haben Körpergewicht, Kalorienzufuhr, Fettaufnahme und Alter einen Einfluss auf die Wahrscheinlichkeit, einen Herzinfarkt zu bekommen (ja vs. nein)?
Binäre logistische Regression Wichtige Annahmen
- Die abhängige Variable sollte dichotom sein (z.B., Vorhandensein vs. Abwesenheit).
- Es sollten keine Ausreißer in den Daten vorhanden sein, was durch Konvertierung der kontinuierlichen Prädiktoren in standardisierte Werte und Entfernen von Werten unter -3,29 oder über 3,29 beurteilt werden kann.
- Es sollten keine hohen Korrelationen (Multikollinearität) zwischen den Prädiktoren bestehen. Dies kann durch eine Korrelationsmatrix zwischen den Prädiktoren beurteilt werden. Tabachnick und Fidell (2013) schlagen vor, dass die Annahme erfüllt ist, solange die Korrelationskoeffizienten zwischen den unabhängigen Variablen kleiner als 0,90 sind.
Im Mittelpunkt der logistischen Regressionsanalyse steht die Aufgabe, die log Odds eines Ereignisses zu schätzen. Mathematisch gesehen schätzt die logistische Regression eine multiple lineare Regressionsfunktion, die definiert ist als:
logit(p)
für i = 1…n .
Overfitting. Bei der Auswahl des Modells für die logistische Regressionsanalyse ist eine weitere wichtige Überlegung die Modellanpassung. Das Hinzufügen von unabhängigen Variablen zu einem logistischen Regressionsmodell erhöht immer die Menge der Varianz, die in den logarithmischen Quoten erklärt wird (normalerweise ausgedrückt als R²). Das Hinzufügen von immer mehr Variablen zum Modell kann jedoch zu einer Überanpassung führen, die die Verallgemeinerbarkeit des Modells über die Daten hinaus, auf die das Modell angepasst wurde, verringert.
Die Angabe des R2. Es wurden zahlreiche Pseudo-R2-Werte für die binäre logistische Regression entwickelt. Diese sollten mit äußerster Vorsicht interpretiert werden, da sie viele rechnerische Probleme haben, die sie künstlich hoch oder niedrig erscheinen lassen. Ein besserer Ansatz ist die Darstellung eines der verfügbaren Anpassungsgütetests; Hosmer-Lemeshow ist ein häufig verwendetes Maß für die Anpassungsgüte, basierend auf dem Chi-Quadrat-Test.