Πώς να χρησιμοποιήσετε την πολλαπλή παλινδρόμηση στο Excel

Αφρικανή επιχειρηματίας που αναλύει τα στατιστικά του έργου στην οθόνη φορητού υπολογιστή, από κοντά

Πώς να χρησιμοποιήσετε την πολλαπλή παλινδρόμηση στο Excel

Πίστωση εικόνας: fizkes/iStock/GettyImages

Το Excel είναι ένα ισχυρό εργαλείο για την ανάλυση δεδομένων, είτε εργάζεστε με μια απλή σχέση μεταξύ τους μια ανεξάρτητη μεταβλητή και μια εξαρτημένη μεταβλητή ή υπάρχουν πολλαπλές ανεξάρτητες μεταβλητές σκεφτείτε. Η εκμάθηση σχετικά με τον τρόπο εκτέλεσης μιας πολυμεταβλητής ανάλυσης στο Excel – με τη μορφή πολλαπλής παλινδρόμησης – και την ερμηνεία των αποτελεσμάτων είναι απαραίτητη εάν έχετε πολύπλοκα δεδομένα για να επεξεργαστείτε. Τα καλά νέα είναι ότι το Excel είναι καλά ρυθμισμένο για να χειρίζεται αυτές τις εργασίες και χρειάζεται μόνο να μάθετε πώς λειτουργεί μια λειτουργία για να αρχίσετε να κατανοείτε τα δεδομένα σας.

Τι είναι η πολλαπλή παλινδρόμηση;

Η πολλαπλή παλινδρόμηση είναι ένας τρόπος συσχέτισης πολλαπλών ανεξάρτητων μεταβλητών με μια μεμονωμένη εξαρτημένη μεταβλητή, βρίσκοντας μια εξίσωση που περιγράφει πώς η εν λόγω μεταβλητή αλλάζει με την καθεμία. Ένα πιο βασικό αλλά παρόμοιο εργαλείο είναι η γραμμική παλινδρόμηση, η οποία στοχεύει στη διερεύνηση της σχέσης μεταξύ ενός ανεξάρτητου μεταβλητή, όπως η παχυσαρκία, σε μια εξαρτημένη μεταβλητή όπως ο κίνδυνος καρκίνου, αλλά τα πράγματα σπάνια είναι έτσι ειλικρινής. Συνεχίζοντας με το παράδειγμα, ο αριθμός των τσιγάρων που καπνίζετε την ημέρα σχετίζεται επίσης με τον κίνδυνο καρκίνου, όπως και η ποσότητα αλκοόλ που πίνετε. Για να καταλήξετε σε μια αξιόπιστη πρόβλεψη του κινδύνου καρκίνου για ένα άτομο, θα πρέπει να λάβετε υπόψη όλους αυτούς τους παράγοντες (και περισσότερους).

Το βίντεο της ημέρας

Η γενική μορφή της εξίσωσης που χρησιμοποιείται για πολλαπλές παλινδρομήσεις είναι:

Υ^ = ένα + σι1Χ1 + σι2Χ2 + σι3Χ3

Ετσι το Υ^ είναι η αναμενόμενη τιμή για την παρατήρηση, το σι1 και ούτω καθεξής αντιπροσωπεύουν την κλίση της ευθείας σχέσης μεταξύ Χ1 και Υ^, και το Χ1 και ούτω καθεξής είναι οι μεταβλητές που περιλαμβάνονται στην ανάλυση. ο ένα σου λέει το νόημα του y-αναχαιτίζω. Μια πολλαπλή παλινδρόμηση περιλαμβάνει την επιλογή των τιμών των συντελεστών (σι1 και ούτω καθεξής) που ελαχιστοποιούν τη διαφορά μεταξύ της αναμενόμενης τιμής Υ^ και την παρατηρούμενη τιμή Υ, δίνοντάς σας την καλύτερη προσαρμογή μεταξύ του μοντέλου και των δεδομένων.

Τι σας λέει μια πολλαπλή παλινδρόμηση;

Πολλαπλές παλινδρομήσεις θέτουν αριθμητικές τιμές στη συσχέτιση μιας πληθώρας μεταβλητών και ενός αποτελέσματος, ώστε να μπορείτε να τη χρησιμοποιήσετε για προβλέψεις, για την εκτίμηση του σχετική συνεισφορά των διαφορετικών μεταβλητών στο αποτέλεσμα ή για μερικούς άλλους σκοπούς, όπως η επιλογή των πιο σχετικών μεταβλητών που θα χρησιμοποιηθούν σε ένα μαθηματικό μοντέλο.

Για παράδειγμα, ας πούμε ότι έχετε δεδομένα για τις τιμές των σπιτιών σε μια συγκεκριμένη πόλη (η εξαρτημένη μεταβλητή σας), μαζί με πληροφορίες όπως αν έχει πισίνα, πόσα τετραγωνικά πόδια καταλαμβάνει, πόσα υπνοδωμάτια έχει, πόσα μπάνια έχει και πόσα γκαράζ έχει. Μια πολλαπλή παλινδρόμηση θα σας επέτρεπε να δείτε πώς κάθε ένας από αυτούς τους παράγοντες σχετίζεται με την τιμή του σπιτιού, οπότε – μετά εξετάσατε πώς σχετίζονται με την τιμή - θα μπορούσατε να χρησιμοποιήσετε την εξίσωσή σας για να προβλέψετε την τιμή ενός σπιτιού με βάση αυτά τα σημεία μόνος.

Μπορείτε επίσης να χρησιμοποιήσετε αυτόν τον τύπο ανάλυσης παλινδρόμησης στο Excel για να δείτε πώς ένας συγκεκριμένος παράγοντας από πολλούς – όπως π.χ εάν το σπίτι έχει πισίνα – επηρεάζει την εξαρτημένη μεταβλητή (τιμές κατοικιών) εάν παραμείνουν όλες οι άλλες μεταβλητές συνεχής. Εάν μετατρέψετε τους συντελεστές (που ονομάζονται "μερικοί συντελεστές παλινδρόμησης") σε τυπικούς συντελεστές μερικής παλινδρόμησης, οι οποίοι αντιπροσωπεύουν πόσες τυπικές αποκλίσεις Υ θα άλλαζε κατά εάν αλλάζατε την αντίστοιχη μεταβλητή κατά μία τυπική απόκλιση, τότε η εξίσωση σας λέει επίσης ποιοι παράγοντες είναι πιο σημαντικοί για τον προσδιορισμό του αποτελέσματος.

Πώς να κάνετε μια πολλαπλή παλινδρόμηση στο Excel

Μπορείτε να εκτελέσετε μια πολυμεταβλητή παλινδρόμηση στο Excel χρησιμοποιώντας μια ενσωματωμένη συνάρτηση που είναι προσβάσιμη μέσω του Ανάλυση δεδομένων εργαλείο κάτω από το Δεδομένα καρτέλα και το Ανάλυση ομάδα. Κάντε κλικ Ανάλυση δεδομένων και βρείτε την επιλογή για οπισθοδρόμηση στο παράθυρο που εμφανίζεται, επισημάνετε το και κάντε κλικ Εντάξει. Κάνε κλικ στο επιλέξτε κελιά εικονίδιο δίπλα στο Είσοδος Εύρος Y και, στη συνέχεια, επιλέξτε τη στήλη που περιέχει τα αποτελέσματα για την εξαρτημένη μεταβλητή σας. Στη συνέχεια, κάντε το ίδιο για το Είσοδος Χ Εύρος αλλά επιλέξτε τις πολλαπλές στήλες για τις ανεξάρτητες μεταβλητές σας. Αυτές οι στήλες πρέπει να είναι η μία δίπλα στην άλλη, οπότε αν δεν είναι, πρέπει να τις μετακινήσετε πριν δημιουργήσετε την παλινδρόμηση.

Το παράθυρο Regression έχει μια σειρά από πρόσθετες επιλογές που μπορείτε να επιλέξετε για να προσαρμόσετε τη διαδικασία στις ανάγκες σας. Για παράδειγμα, μπορείτε να ορίσετε ένα επίπεδο εμπιστοσύνης διαφορετικό από το 95 τοις εκατό, αν θέλετε, να επιλέξετε την εμφάνιση υπολειμμάτων και να καθορίσετε πού θα τοποθετηθεί η έξοδος στο βιβλίο εργασίας σας. Αυτή η τελευταία επιλογή ορίζεται αυτόματα σε Νέο φύλλο εργασίας, ώστε τα αποτελέσματα να εμφανίζονται σε ένα νέο φύλλο, αλλά μπορείτε να αλλάξετε αυτήν ή οποιαδήποτε άλλη επιλογή για να ταιριάζει στις ανάγκες σας. Επιπλέον, ελέγξτε το Ετικέτες πλαίσιο εάν οι στήλες για τις ανεξάρτητες μεταβλητές σας έχουν ετικέτες στο επάνω μέρος, οπότε αυτές εμφανίζονται στην έξοδο.

Κάντε κλικ Εντάξει για να δημιουργήσετε την ανάλυση παλινδρόμησης στο Excel και να μεταφερθείτε στο νέο φύλλο.

Η έξοδος παλινδρόμησης από το Excel

Υπάρχουν τρεις κύριες ενότητες στην έξοδο που σας παρουσιάζονται αφού κάνετε μια πολλαπλή παλινδρόμηση στο Excel: στατιστικά παλινδρόμησης, ANOVA και λεπτομέρειες σχετικά με την εκτιμώμενη γραμμή παλινδρόμησης. Οι στατιστικές παλινδρόμησης περιλαμβάνουν τον πολλαπλό συντελεστή συσχέτισης ("Πολλαπλός R") που δείχνει την κατεύθυνση και την ισχύ της συσχέτισης, από -1 έως +1. Ο συντελεστής προσδιορισμού, "R Square," σας λέει ποιο ποσοστό (ως δεκαδικό) της διακύμανσης στην εξαρτημένη μεταβλητή εξηγείται από τις ανεξάρτητες μεταβλητές. Το "Προσαρμοσμένο τετράγωνο R" σας δίνει μια ένδειξη επεξηγηματικής ισχύος, αλλά δεν είναι εύκολο να το ερμηνεύσετε, και το "Τυπικό σφάλμα" σάς δίνει ένα μέτρο της διακύμανσης μεταξύ των παρατηρούμενων αποτελεσμάτων και της παλινδρόμησής σας γραμμή.

Η ενότητα ANOVA περιέχει στατιστικές πληροφορίες σχετικά με το μέγεθος της διακύμανσης που εξηγείται από τη γραμμή παλινδρόμησης, με το "SS Regression" να σας λέει το ποσό που εξηγείται από τη γραμμή και το "SS Residual" να αντιπροσωπεύει το ποσό που δεν εξήγησε. Οι ενότητες "MS" αντιπροσωπεύουν το "Μέσο τετράγωνο" και το "Στατιστικό F" είναι το στατιστικό στοιχείο δοκιμής που χρησιμοποιείται για τον έλεγχο ενός σημαντικού αποτελέσματος, με την ενότητα "Σημασία F" να σας δίνει την τιμή P.

Τέλος, η τελευταία ενότητα σας ενημερώνει για τα χαρακτηριστικά της εκτιμώμενης γραμμής παλινδρόμησης, ειδικότερα, τις τιμές του συντελεστές, εάν συνδέονται σημαντικά με την εξαρτημένη μεταβλητή και το μέγεθος της διακύμανσης που μπορεί να υπάρχει σε αυτούς. Οι θετικοί συντελεστές δείχνουν μια θετική σχέση μεταξύ της εν λόγω μεταβλητής και της εξαρτημένης μεταβλητής, οπότε όταν η μία αυξάνεται, αυξάνεται και η άλλη. Οι αρνητικές τιμές σημαίνουν ότι η εξαρτημένη μεταβλητή μειώνεται καθώς αυξάνεται η ανεξάρτητη μεταβλητή. Έτσι, εάν ο συντελεστής "τετράγωνο μήκος" σε μια πολλαπλή παλινδρόμηση τιμών ενός σπιτιού είναι 300, αυτό σημαίνει ότι ένα επιπλέον τετραγωνικό πόδι χώρου αυξάνει το κόστος του σπιτιού κατά 300 $ κατά μέσο όρο.

Υποθέσεις και Περιορισμοί Πολλαπλής Παλινδρόμησης

Είναι σημαντικό να θυμάστε ότι η πολλαπλή παλινδρόμηση είναι μόνο ένα εργαλείο και, όπως τα περισσότερα εργαλεία, μπορείτε να το χρησιμοποιήσετε μόνο σε ορισμένες περιπτώσεις, και υπάρχουν ορισμένα πράγματα που απλά δεν μπορεί να κάνει.

Ένας από τους πιο σημαντικούς περιορισμούς είναι ότι το συμπέρασμα της αιτιότητας με βάση τα αποτελέσματα είναι δύσκολο. Για παράδειγμα, εάν έχετε πολλαπλή παλινδρόμηση με τη ζημιά που προκαλείται από μια πυρκαγιά και πολλές πιθανές σχετικοί παράγοντες, πιθανότατα θα βρείτε μια σημαντική σχέση μεταξύ του αριθμού των παρόντων πυροσβεστών και των η ζημιά έγινε. Αυτό δεν σημαίνει ότι οι πυροσβέστες προκαλούνται η ζημιά επειδή ένας άλλος παράγοντας όπως το μέγεθος της πυρκαγιάς που δεν περιλαμβάνεται στο μοντέλο θα μπορούσε να εξηγήσει και τις δύο αυτές παρατηρήσεις.

Δύο σημαντικές παραδοχές μιας πολυμεταβλητής ανάλυσης στο Excel αυτού του τύπου είναι οι παραδοχές της γραμμικότητας και της κανονικότητας. Υποθέτετε μια γραμμική σχέση μεταξύ της εξαρτημένης και της ανεξάρτητης μεταβλητής, επομένως θα πρέπει να ελέγξετε ότι είναι πιθανό να ισχύει πριν εκτελέσετε την ανάλυση. Μπορείτε να ελέγξετε τη σχέση μεταξύ κάθε μεταβλητής ξεχωριστά, αλλά αυτή δεν είναι μια τέλεια στρατηγική. Ομοίως, η δοκιμή προϋποθέτει ότι οι μεταβλητές είναι κανονικά κατανεμημένες, επομένως θα πρέπει να ελέγξετε τα αποτελέσματα για καθεμία ως προς την κανονικότητα πριν από τη διεξαγωγή της δοκιμής.