Wat eenvoudige lineaire regressie is en hoe het werkt

click fraud protection

Lineaire regressiemodellen worden gebruikt om de relatie tussen twee te tonen of te voorspellen variabelen of factoren. De factor die wordt voorspeld (de factor waarvan de vergelijking oplost voor) wordt deafhankelijke variabele genoemd. De factoren die worden gebruikt om de waarde van de afhankelijke variabele te voorspellen, worden de onafhankelijke variabelen genoemd.

Bij lineaire regressie is elk observatie bestaat uit twee waarden. Eén waarde is voor de afhankelijke variabele en één waarde is voor de onafhankelijke variabele. In dit eenvoudige model, benadert een rechte lijn de relatie tussen de afhankelijke variabele en de onafhankelijke variabele.

Wanneer twee of meer onafhankelijke variabelen worden gebruikt in regressieanalyse, is het model niet langer eenvoudig lineair. Dit staat bekend als meervoudige regressie.

Formule voor een eenvoudig lineair regressiemodel

De twee factoren die betrokken zijn bij eenvoudige lineaire regressieanalyse worden aangegeven X En j. De vergelijking die beschrijft hoe j is gerelateerd aan X staat bekend als de regressie model.

Het eenvoudige lineaire regressiemodel wordt weergegeven door:

j = β0 +β1X+ε.

Het lineaire regressiemodel bevat een foutterm die wordt weergegeven door ε. De foutterm wordt gebruikt om rekening te houden met de variabiliteit in j dat kan niet verklaard worden door de lineaire relatie tussen X En j. Als ε niet aanwezig zou zijn, zou dat dat weten betekenen X zou voldoende informatie opleveren om de waarde ervan te bepalen j.

Er zijn ook parameters die de populatie vertegenwoordigen die wordt bestudeerd. Deze parameters van het model zijn vertegenwoordigd door β0 Enβ1.

De eenvoudige lineaire regressievergelijking wordt weergegeven als een rechte lijn, waarbij:

  1. β0 is het y-snijpunt van de regressielijn.
  2. β1 is de helling.
  3. Ε(j) is de gemiddelde of verwachte waarde van j voor een bepaalde waarde van X.

Een regressielijn kan een positief lineair verband, een negatief lineair verband of geen verband weergeven.

  1. Geen relatie: De getekende lijn in een eenvoudige lineaire regressie is vlak (niet schuin). Er is geen verband tussen de twee variabelen.
  2. Positieve relatie: De regressielijn helt omhoog met het onderste uiteinde van de lijn op het y-snijpunt (as) van de grafiek en het bovenste uiteinde van de lijn loopt omhoog in het grafiekveld, weg van het x-snijpunt (as). Er bestaat een positief lineair verband tussen de twee variabelen: naarmate de waarde van de ene toeneemt, neemt de waarde van de andere ook toe.
  3. Negatieve relatie: De regressielijn helt naar beneden met het bovenste uiteinde van de lijn op het y-snijpunt (as) van de grafiek en het onderste uiteinde van de lijn loopt naar beneden in het grafiekveld, richting het x-snijpunt (as). Er bestaat een negatief lineair verband tussen de twee variabelen: naarmate de waarde van de ene toeneemt, neemt de waarde van de andere af.

De geschatte lineaire regressievergelijking

Als de parameters van de bevolking bekend waren, zou de eenvoudige lineaire regressievergelijking (hieronder weergegeven) kunnen worden gebruikt om de gemiddelde waarde van te berekenen j voor een bekende waarde van X.

Ε(j) = β0 +β1X+ε.

In de praktijk zijn parameterwaarden echter over het algemeen niet bekend en moeten ze worden geschat met behulp van gegevens uit een monster van de populatie. De populatieparameters worden geschat met behulp van voorbeeldstatistieken. De voorbeeldstatistieken zijn vertegenwoordigd door β0 En β1. Wanneer de steekproefstatistieken de populatieparameters vervangen, wordt de geschatte regressievergelijking gevormd.

De geschatte regressievergelijking is:

(ŷ) = β0 +β1X+ε.

Opmerking: (ŷ) wordt uitgesproken y hoed.

De grafiek van de geschatte eenvoudige regressievergelijking wordt de geschatte regressielijn genoemd.

  1. β0is het y-snijpunt van de regressielijn.
  2. β1is de helling.
  3. (ŷ) is de geschatte waarde van j voor een bepaalde waarde van X.

Grenzen van eenvoudige lineaire regressie

Zelfs de beste gegevens vertellen geen compleet verhaal.

Regressieanalyse wordt vaak gebruikt in onderzoek om vast te stellen dat er een correlatie bestaat tussen variabelen. Maar Correlatie is niet hetzelfde als causaliteit: een relatie tussen twee variabelen betekent niet dat de een de ander veroorzaakt. Zelfs een lijn in een eenvoudige lineaire regressie die goed bij de gegevenspunten past, garandeert mogelijk geen oorzaak-en-gevolg-relatie.

Met behulp van een lineair regressiemodel kunt u ontdekken of er überhaupt een verband tussen variabelen bestaat. Om precies te begrijpen wat die relatie is, en of de ene variabele de andere veroorzaakt, heb je aanvullend onderzoek en statistische analyse nodig.

Chiropractor: functieomschrijving, salaris, vaardigheden en meer

Chiropractors zijn artsen die patiënten behandelen met de nadruk op de algehele gezondheid. Naast spinale aanpassingen en manipulatie, omvat hun expertise ook de behandeling van gezondheidsproblemen van het neuromusculoskeletale systeem, waaronde...

Lees verder

De 10 staten met de laagste kosten van levensonderhoud

Bij het beslissen in welke staat u naar huis wilt bellen of uw kleine bedrijf wilt opzetten, zijn de kosten van levensonderhoud een belangrijke factor. Kosten van levensonderhoud verwijst naar de hoeveelheid geld die nodig is om een ​​bepaalde le...

Lees verder

Voors en tegens van charitatieve non-profitorganisatie

Oprichting door de staat is meestal de eerste stap op weg naar een volledig van belasting vrijgestelde liefdadigheidsinstelling (501c3) bij de IRS. Maar veel startende organisaties vragen zich af: "Is het de moeite waard?" Om u te helpen besliss...

Lees verder