Regresja logistyczna jest odpowiednią analizą regresji do przeprowadzenia, gdy zmienna zależna jest dychotomiczna (binarna). Podobnie jak wszystkie analizy regresji, regresja logistyczna jest analizą predykcyjną. Regresja logistyczna służy do opisu danych i wyjaśnienia zależności pomiędzy jedną zmienną zależną binarną a jedną lub więcej zmiennymi niezależnymi na poziomie nominalnym, porządkowym, interwałowym lub ilorazowym.
Czasami regresja logistyczna jest trudna do interpretacji; narzędzie Intellectus Statistics w prosty sposób pozwala przeprowadzić analizę, a następnie w prostym języku interpretuje dane wyjściowe.
Jak zmienia się prawdopodobieństwo zachorowania na raka płuc (tak vs. nie) dla każdego dodatkowego kilograma nadwagi i dla każdej paczki papierosów wypalanej dziennie?
Czy masa ciała, spożycie kalorii, spożycie tłuszczu i wiek mają wpływ na prawdopodobieństwo zawału serca (tak vs. nie)?
Binarna regresja logistyczna Główne założenia
- Zmienna zależna powinna być dychotomiczna (np, obecność vs. nieobecność).
- Nie powinno być żadnych wartości odstających w danych, co może być ocenione przez przekształcenie ciągłych predyktorów na standaryzowaną punktację i usunięcie wartości poniżej -3,29 lub większych niż 3,29.
- Nie powinno być wysokich korelacji (wieloliniowości) pomiędzy predyktorami. Można to ocenić za pomocą macierzy korelacji między predyktorami. Tabachnick i Fidell (2013) sugerują, że dopóki współczynniki korelacji między zmiennymi niezależnymi są mniejsze niż 0,90 założenie jest spełnione.
W centrum analizy regresji logistycznej znajduje się zadanie oszacowania log odds zdarzenia. Matematycznie, regresja logistyczna szacuje wielokrotną funkcję regresji liniowej zdefiniowaną jako:
logit(p)
for i = 1…n .
Overfitting. Przy wyborze modelu do analizy regresji logistycznej, kolejną ważną kwestią jest dopasowanie modelu. Dodanie niezależnych zmiennych do modelu regresji logistycznej zawsze zwiększy ilość wariancji wyjaśnionej w log odds (zwykle wyrażonej jako R²). Jednakże, dodawanie coraz większej liczby zmiennych do modelu może spowodować jego przepasowanie, co zmniejsza możliwość uogólnienia modelu poza dane, na których model jest dopasowany.
Raportowanie R2. Dla binarnej regresji logistycznej opracowano wiele wartości pseudo-R2. Powinny być one interpretowane z najwyższą ostrożnością, ponieważ mają wiele problemów obliczeniowych, które powodują, że są one sztucznie zawyżone lub zaniżone. Lepszym podejściem jest przedstawienie dowolnego z dostępnych testów dobroci dopasowania; Hosmer-Lemeshow jest powszechnie stosowaną miarą dobroci dopasowania opartą na teście Chi-kwadrat.
.