Wat eenvoudige lineaire regressie is en hoe het werkt

Lineaire regressiemodellen worden gebruikt om de relatie tussen twee te tonen of te voorspellen variabelen of factoren. De factor die wordt voorspeld (de factor waarvan de vergelijking oplost voor) wordt deafhankelijke variabele genoemd. De factoren die worden gebruikt om de waarde van de afhankelijke variabele te voorspellen, worden de onafhankelijke variabelen genoemd.

Bij lineaire regressie is elk observatie bestaat uit twee waarden. Eén waarde is voor de afhankelijke variabele en één waarde is voor de onafhankelijke variabele. In dit eenvoudige model, benadert een rechte lijn de relatie tussen de afhankelijke variabele en de onafhankelijke variabele.

Wanneer twee of meer onafhankelijke variabelen worden gebruikt in regressieanalyse, is het model niet langer eenvoudig lineair. Dit staat bekend als meervoudige regressie.

Formule voor een eenvoudig lineair regressiemodel

De twee factoren die betrokken zijn bij eenvoudige lineaire regressieanalyse worden aangegeven X En j. De vergelijking die beschrijft hoe j is gerelateerd aan X staat bekend als de regressie model.

Het eenvoudige lineaire regressiemodel wordt weergegeven door:

j = β₀ +β₁X+ε.

Het lineaire regressiemodel bevat een foutterm die wordt weergegeven door ε. De foutterm wordt gebruikt om rekening te houden met de variabiliteit in j dat kan niet verklaard worden door de lineaire relatie tussen X En j. Als ε niet aanwezig zou zijn, zou dat dat weten betekenen X zou voldoende informatie opleveren om de waarde ervan te bepalen j.

Er zijn ook parameters die de populatie vertegenwoordigen die wordt bestudeerd. Deze parameters van het model zijn vertegenwoordigd door β₀Enβ₁.

De eenvoudige lineaire regressievergelijking wordt weergegeven als een rechte lijn, waarbij:

β₀ is het y-snijpunt van de regressielijn.
β₁ is de helling.
Ε(j) is de gemiddelde of verwachte waarde van j voor een bepaalde waarde van X.

Een regressielijn kan een positief lineair verband, een negatief lineair verband of geen verband weergeven.

Geen relatie: De getekende lijn in een eenvoudige lineaire regressie is vlak (niet schuin). Er is geen verband tussen de twee variabelen.
Positieve relatie: De regressielijn helt omhoog met het onderste uiteinde van de lijn op het y-snijpunt (as) van de grafiek en het bovenste uiteinde van de lijn loopt omhoog in het grafiekveld, weg van het x-snijpunt (as). Er bestaat een positief lineair verband tussen de twee variabelen: naarmate de waarde van de ene toeneemt, neemt de waarde van de andere ook toe.
Negatieve relatie: De regressielijn helt naar beneden met het bovenste uiteinde van de lijn op het y-snijpunt (as) van de grafiek en het onderste uiteinde van de lijn loopt naar beneden in het grafiekveld, richting het x-snijpunt (as). Er bestaat een negatief lineair verband tussen de twee variabelen: naarmate de waarde van de ene toeneemt, neemt de waarde van de andere af.

De geschatte lineaire regressievergelijking

Als de parameters van de bevolking bekend waren, zou de eenvoudige lineaire regressievergelijking (hieronder weergegeven) kunnen worden gebruikt om de gemiddelde waarde van te berekenen j voor een bekende waarde van X.

Ε(j) = β₀ +β₁X+ε.

In de praktijk zijn parameterwaarden echter over het algemeen niet bekend en moeten ze worden geschat met behulp van gegevens uit een monster van de populatie. De populatieparameters worden geschat met behulp van voorbeeldstatistieken. De voorbeeldstatistieken zijn vertegenwoordigd door β₀ En β₁. Wanneer de steekproefstatistieken de populatieparameters vervangen, wordt de geschatte regressievergelijking gevormd.

De geschatte regressievergelijking is:

(ŷ) = β₀ +β₁X+ε.

Opmerking: (ŷ) wordt uitgesproken y hoed.

De grafiek van de geschatte eenvoudige regressievergelijking wordt de geschatte regressielijn genoemd.

β₀is het y-snijpunt van de regressielijn.
β₁is de helling.
(ŷ) is de geschatte waarde van j voor een bepaalde waarde van X.

Grenzen van eenvoudige lineaire regressie

Zelfs de beste gegevens vertellen geen compleet verhaal.

Regressieanalyse wordt vaak gebruikt in onderzoek om vast te stellen dat er een correlatie bestaat tussen variabelen. Maar Correlatie is niet hetzelfde als causaliteit: een relatie tussen twee variabelen betekent niet dat de een de ander veroorzaakt. Zelfs een lijn in een eenvoudige lineaire regressie die goed bij de gegevenspunten past, garandeert mogelijk geen oorzaak-en-gevolg-relatie.

Met behulp van een lineair regressiemodel kunt u ontdekken of er überhaupt een verband tussen variabelen bestaat. Om precies te begrijpen wat die relatie is, en of de ene variabele de andere veroorzaakt, heb je aanvullend onderzoek en statistische analyse nodig.

Wat eenvoudige lineaire regressie is en hoe het werkt

Formule voor een eenvoudig lineair regressiemodel

De geschatte lineaire regressievergelijking

Grenzen van eenvoudige lineaire regressie

Chiropractor: functieomschrijving, salaris, vaardigheden en meer

De 10 staten met de laagste kosten van levensonderhoud

Voors en tegens van charitatieve non-profitorganisatie