y=α+βx zou de voorspelde waarden opleveren en wij berekenen de waarden van α & β uit bovenstaande formule waarbij β de helling is en α de y-intercept is. Het doel van de eenvoudige lineaire regressie is een lineair model te maken dat de som van de kwadraten van de residuen (fout) minimaliseert.
Een interessant feit over Lineaire Regressie is dat het is opgebouwd uit twee statistische concepten ANOVA & Correlatie.
Lineaire Regressie = Correlatie + ANOVA
Terugkomend op het onderwerp…
Hoe zijn SST, SSR & SSE met elkaar verbonden?
SST = SSR + SSE
In bovenstaande tabel zien we dat de som van het kwadraat van de fout eerder 120 was en later is teruggebracht tot 30,075, d.w.z. we hebben de foutwaarde met behulp van lineaire regressie teruggebracht van 120 tot 30,075. Eerder was de best passende lijn het gemiddelde van de helling van de afhankelijke variabele, die later veranderde in de optimale best passende lijn.
120 =? + 30,075
Daarom is de waarde van SSR 89,925
Waarom hebben we de som van de kwadraten nodig?
Het antwoord is om de goodness of fit te bepalen. Die kan worden bepaald met behulp van de determinatiecoëfficiënt, ook bekend als R². R² kwantificeert de verhouding in procenten. Ook wordt de R² vaak verward met ‘r’ waarbij R² de determinatiecoëfficiënt is terwijl r de correlatiecoëfficiënt is. Correlatie meet de lineaire correlatie tussen twee variabelen X en Y. Zij varieert van de waarden -1 tot 1, waarbij waarden dichter bij 1 een positieve relatie hebben, terwijl waarden dichter bij -1 een negatieve relatie hebben. In de bovenstaande tabel krijgen we bijvoorbeeld een waarde van r van 0,8656, wat dichter bij 1 ligt en dus een positieve relatie weergeeft.
Eindwoord
Belangrijke formules om in gedachten te houden: –
- R² = SSR/SST
- R² = 1-(SSE/SST)
- SSE = Σ(actueel-voorspeld)²
- SST= Σ(actueel-gemiddeld)²
- SSR= Σ(voorspeld-gemiddeld)²
Ik hoop dat ik u heb kunnen helpen bij het beantwoorden van vragen over dit onderwerp. Voel je vrij om meer te vragen op mijn contact id: – Rahul Pathak.
Hartelijk dank! 🙂