Meervoudige regressie gebruiken in Excel
Afbeelding tegoed: fizkes/iStock/GettyImages
Excel is een krachtig hulpmiddel voor gegevensanalyse, of u nu werkt met een eenvoudige relatie tussen: één onafhankelijke variabele en een afhankelijke variabele of er zijn meerdere onafhankelijke variabelen om overwegen. Leren over het uitvoeren van een multivariate analyse in Excel - in de vorm van een meervoudige regressie - en het interpreteren van de resultaten is essentieel als u ingewikkelde gegevens moet verwerken. Het goede nieuws is dat Excel goed is ingesteld om deze taken uit te voeren, en u hoeft alleen maar te leren hoe één functie werkt om uw gegevens te begrijpen.
Wat is meervoudige regressie?
Meervoudige regressie is een manier om meerdere onafhankelijke variabelen te relateren aan een enkele afhankelijke variabele door een vergelijking te vinden die beschrijft hoe de betreffende variabele met elke variabele verandert. Een meer basale maar vergelijkbare tool is lineaire regressie, die tot doel heeft het verband tussen een onafhankelijke variabele, zoals obesitas, op een afhankelijke variabele zoals het risico op kanker, maar dit is zelden zo rechtdoorzee. Om door te gaan met het voorbeeld, is het aantal sigaretten dat per dag wordt gerookt ook gerelateerd aan het risico op kanker, evenals de hoeveelheid alcohol die u drinkt. Om met een betrouwbare voorspelling van het kankerrisico voor een persoon te komen, moet u met al deze factoren (en meer) rekening houden.
Video van de dag
De algemene vorm van de vergelijking die wordt gebruikt voor meerdere regressies is:
ja^ = een + B1x1 + B2x2 + B3x3 …
Dus de ja^ is de verwachte waarde voor de waarneming, de B1 enzovoort vertegenwoordigen de helling van de lineaire relatie tussen x1 en ja^, en de x1 enzovoort zijn de variabelen die in de analyse zijn opgenomen. De een vertelt je het punt van de ja-onderscheppen. Een meervoudige regressie omvat het kiezen van waarden van de coëfficiënten (B1 enzovoort) die het verschil tussen de verwachte waarde minimaliseren ja^ en de waargenomen waarde ja, waardoor u de beste pasvorm krijgt tussen het model en de gegevens.
Wat vertelt een meervoudige regressie u?
Meerdere regressies geven numerieke waarden aan de associatie tussen een groot aantal variabelen en een uitkomst, zodat u deze kunt gebruiken voor voorspellingen, voor het schatten van de relatieve bijdragen van de verschillende variabelen aan het resultaat, of voor een paar andere doeleinden, zoals het selecteren van de meest relevante variabelen om te gebruiken in een wiskundige model.
Stel dat u gegevens heeft over de prijzen van huizen in een bepaalde stad (uw afhankelijke variabele), samen met informatie zoals: of het een zwembad heeft, hoeveel vierkante meter het in beslag neemt, hoeveel slaapkamers het heeft, hoeveel badkamers het heeft en hoeveel garages het heeft heeft. Een meervoudige regressie zou u in staat stellen om te kijken hoe elk van deze factoren verband houdt met de prijs van het huis, dus - na je hebt gekeken naar hoe ze zich verhouden tot de prijs - je zou je vergelijking kunnen gebruiken om de prijs van een huis te voorspellen op basis van deze punten alleen.
U kunt dit type regressieanalyse in Excel ook gebruiken om te kijken hoe een specifieke factor van veel - zoals: of het huis een zwembad heeft - beïnvloedt de afhankelijke variabele (huisprijzen) als alle andere variabelen blijven constante. Als u de coëfficiënten ('partiële regressiecoëfficiënten' genoemd) omzet in standaard partiële regressiecoëfficiënten, die aangeven hoeveel standaarddeviaties ja zou veranderen door als u de overeenkomstige variabele met één standaarddeviatie zou veranderen, dan vertelt de vergelijking u ook welke factoren belangrijker zijn bij het bepalen van het resultaat.
Een meervoudige regressie uitvoeren in Excel
U kunt een multivariate regressie uitvoeren in Excel met behulp van een ingebouwde functie die toegankelijk is via de Gegevensanalyse gereedschap onder de Gegevens tabblad en de Analyse groep. Klik Gegevensanalyse en vind de optie voor regressie in het venster dat verschijnt, markeer het en klik op Oke. Klik op de cellen selecteren icoon naast de Invoer Y-bereik veld en selecteer vervolgens de kolom met de resultaten voor uw afhankelijke variabele. Doe dan hetzelfde voor de Invoer X-bereik veld, maar selecteer de meerdere kolommen voor uw onafhankelijke variabelen. Deze kolommen moeten naast elkaar staan, dus als dat niet het geval is, moet u ze verplaatsen voordat u de regressie produceert.
Het venster Regressie heeft een reeks extra opties die u kunt selecteren om het proces aan uw behoeften aan te passen. U kunt bijvoorbeeld een ander betrouwbaarheidsniveau dan 95 procent instellen, ervoor kiezen om restwaarden weer te geven en op te geven waar de uitvoer in uw werkmap wordt geplaatst. Deze laatste optie wordt automatisch ingesteld op Nieuwe werkbladlaag, dus de resultaten worden op een nieuw blad weergegeven, maar u kunt deze of een andere optie naar wens wijzigen. Controleer bovendien de Etiketten als de kolommen voor uw onafhankelijke variabelen labels bovenaan hebben, zodat deze in de uitvoer worden weergegeven.
Klik Oke om uw regressieanalyse in Excel te genereren en naar het nieuwe blad te gaan.
De regressie-output van Excel
Er zijn drie hoofdsecties voor de uitvoer die u te zien krijgt na het uitvoeren van een meervoudige regressie in Excel: regressiestatistieken, ANOVA en details over de geschatte regressielijn. De regressiestatistieken omvatten de meervoudige correlatiecoëfficiënt ("Multiple R") die de richting en sterkte van de correlatie aangeeft, van -1 tot +1. De determinatiecoëfficiënt, "R Square", vertelt u welk percentage (als een decimaal) van de variatie in de afhankelijke variabele wordt verklaard door de onafhankelijke variabelen. Het "Adjusted R Square" geeft je een indicatie van de verklarende kracht, maar het is niet eenvoudig te interpreteren, en de "Standaardfout" geeft u een maat voor de variatie tussen de waargenomen resultaten en uw regressie lijn.
De ANOVA-sectie bevat statistische informatie over de hoeveelheid variatie die wordt verklaard door de regressielijn, met "SS-regressie" die u het bedrag aangeeft dat door de regel wordt uitgelegd, en "SS-residu" dat het bedrag vertegenwoordigt dat niet uitgelegd. De secties "MS" staan voor "Mean Square" en de "F-statistiek" is de teststatistiek die wordt gebruikt om te testen op een significant resultaat, waarbij de sectie "Significance F" u de P-waarde geeft.
Ten slotte vertelt de laatste sectie u over de kenmerken van de geschatte regressielijn, in het bijzonder de waarden van de coëfficiënten, of ze significant gekoppeld zijn aan de afhankelijke variabele, en de hoeveelheid variatie die erin kan zitten. Positieve coëfficiënten laten een positief verband zien tussen de variabele in kwestie en de afhankelijke variabele, dus als de ene toeneemt, doet de andere dat ook. Negatieve waarden betekenen dat de afhankelijke variabele afneemt naarmate de onafhankelijke variabele toeneemt. Dus als de "vierkante lengte"-coëfficiënt op een meervoudige regressie van huizenprijzen 300 is, betekent dit dat een extra vierkante voet ruimte de kosten van het huis met gemiddeld $ 300 verhoogt.
Aannames en beperkingen van meervoudige regressie
Het is belangrijk om te onthouden dat meervoudige regressie slechts een hulpmiddel is, en zoals de meeste hulpmiddelen, kunt u het alleen in bepaalde omstandigheden gebruiken, en er zijn enkele dingen die het gewoon niet kan doen.
Een van de belangrijkste beperkingen is dat het moeilijk is om op basis van de resultaten causaliteit te trekken. Als u bijvoorbeeld een meervoudige regressie heeft met de schade die is aangericht door een brand en veel mogelijk relevante factoren, vindt u waarschijnlijk een significant verband tussen het aantal aanwezige brandweerlieden en de schade gedaan. Dit betekent niet dat de brandweerlieden veroorzaakt de schade omdat een andere factor, zoals de omvang van de brand, die niet in het model is opgenomen, beide waarnemingen zou kunnen verklaren.
Twee belangrijke aannames van een multivariate analyse in Excel van dit type zijn de aannames van lineariteit en normaliteit. U gaat uit van een lineair verband tussen de afhankelijke en onafhankelijke variabelen, dus u moet controleren of dit waarschijnlijk geldig is voordat u de analyse uitvoert. U kunt de relatie tussen elke variabele afzonderlijk bekijken om te controleren, maar dit is geen perfecte strategie. Evenzo gaat de test ervan uit dat de variabelen normaal verdeeld zijn, dus u moet de resultaten voor elk controleren op normaliteit voordat u de test uitvoert.