Regressão logística é a análise de regressão apropriada a realizar quando a variável dependente é dicotómica (binária). Como todas as análises de regressão, a regressão logística é uma análise preditiva. A regressão logística é utilizada para descrever dados e para explicar a relação entre uma variável binária dependente e uma ou mais variáveis nominais, ordinais, de intervalo ou independentes de nível de ratio.
Por vezes as regressões logísticas são difíceis de interpretar; a ferramenta estatística Intellectus permite facilmente conduzir a análise, depois em inglês simples interpreta o resultado.
Como é que a probabilidade de contrair cancro do pulmão (sim vs. não) muda por cada libra adicional que uma pessoa tem excesso de peso e por cada maço de cigarros fumado por dia?
O peso corporal, a ingestão de calorias, de gordura e a idade têm influência na probabilidade de ter um ataque cardíaco (sim vs. não)?
Principais suposições da Regressão Logística Binária
- A variável dependente deve ser de natureza dicotómica (por exemplo presença vs ausente).
- Não deve haver outliers nos dados, que podem ser avaliados convertendo os preditores contínuos em pontuações padronizadas, e removendo valores abaixo de -3,29 ou superiores a 3,29.
- Não deve haver correlações elevadas (multicolinearidade) entre os preditores. Isto pode ser avaliado por uma matriz de correlação entre os preditores. Tabachnick e Fidell (2013) sugerem que como os coeficientes de correlação longos entre variáveis independentes são inferiores a 0,90, a hipótese é satisfeita.
No centro da análise de regressão logística está a tarefa de estimar as probabilidades logísticas de um evento. Matematicamente, a regressão logística estima uma função de regressão linear múltipla definida como:
logit(p)
para i = 1…n .
Overfitting. Ao seleccionar o modelo para a análise de regressão logística, outra consideração importante é o ajuste do modelo. A adição de variáveis independentes a um modelo de regressão logística aumentará sempre a quantidade de variância explicada nas probabilidades logísticas (normalmente expressas como R²). Contudo, adicionar cada vez mais variáveis ao modelo pode resultar em sobreajustamento, o que reduz a generalizabilidade do modelo para além dos dados em que o modelo se encaixa.
Relatando o R2. Foram desenvolvidos numerosos valores pseudo-R2 para regressão logística binária. Estes devem ser interpretados com extrema cautela, uma vez que têm muitas questões computacionais que os levam a ser artificialmente altos ou baixos. Uma melhor abordagem é apresentar qualquer das bondades dos testes de ajuste disponíveis; Hosmer-Lemeshow é uma medida comummente usada de bondade de ajuste baseada no teste do Qui-quadrado.