Come utilizzare la regressione multipla in Excel
Credito immagine: fizkes/iStock/GettyImages
Excel è un potente strumento per l'analisi dei dati, sia che tu stia lavorando con una semplice relazione tra una variabile indipendente e una variabile dipendente o ci sono più variabili indipendenti da tenere conto. Imparare come eseguire un'analisi multivariata in Excel, sotto forma di regressione multipla, e interpretare i risultati è essenziale se si hanno dati complicati da elaborare. La buona notizia è che Excel è ben configurato per gestire queste attività e devi solo imparare come funziona una funzione per iniziare a dare un senso ai tuoi dati.
Che cos'è la regressione multipla?
La regressione multipla è un modo per mettere in relazione più variabili indipendenti con una singola variabile dipendente trovando un'equazione che descriva come la variabile in questione cambia con ciascuna. Uno strumento più semplice ma simile è la regressione lineare, che mira a indagare il legame tra un indipendente variabile, come l'obesità, su una variabile dipendente come il rischio di cancro, ma raramente le cose stanno così semplice. Continuando con l'esempio, anche il numero di sigarette fumate al giorno è correlato al rischio di cancro, così come la quantità di alcol che si beve. Per ottenere una previsione affidabile del rischio di cancro per un individuo, dovresti prendere in considerazione tutti questi fattori (e altri).
Video del giorno
La forma generale dell'equazione utilizzata per le regressioni multiple è:
sì^ = un + B1X1 + B2X2 + B3X3 …
Così il sì^ è il valore atteso per l'osservazione, il B1 e così via rappresentano la pendenza della relazione in linea retta tra X1 e sì^, e il X1 e così via sono le variabili incluse nell'analisi. Il un ti dice il punto del sì-intercettare. Una regressione multipla comporta la scelta dei valori dei coefficienti (B1 e così via) che minimizzano la differenza tra il valore atteso sì^ e il valore osservato sì, offrendo il miglior adattamento tra il modello e i dati.
Cosa ti dice una regressione multipla?
Le regressioni multiple mettono valori numerici sull'associazione tra una moltitudine di variabili e un risultato, quindi puoi usarlo per le previsioni, per stimare il contributi relativi delle diverse variabili al risultato, o per alcuni altri scopi come selezionare le variabili più rilevanti da utilizzare in una matematica modello.
Ad esempio, supponiamo che tu abbia dati sui prezzi delle case in una determinata città (la tua variabile dipendente), insieme a informazioni come se ha una piscina, quanti metri quadrati occupa, quante camere da letto ha, quanti bagni ha e quanti garage ha ha. Una regressione multipla ti consentirebbe di osservare come ciascuno di questi fattori è correlato al prezzo della casa, quindi, dopo hai guardato come si relazionano al prezzo: potresti usare la tua equazione per prevedere il prezzo di una casa in base a questi punti da solo.
Puoi anche usare questo tipo di analisi di regressione in Excel per vedere come un fattore specifico di molti, come ad esempio se la casa ha una piscina – influenza la variabile dipendente (prezzi delle case) se tutte le altre variabili rimangono costante. Se si convertono i coefficienti (chiamati "coefficienti di regressione parziale") in coefficienti di regressione parziale standard, che rappresentano quante deviazioni standard sì cambierebbe se cambiassi la variabile corrispondente di una deviazione standard, quindi l'equazione ti dice anche quali fattori sono più importanti nel determinare il risultato.
Come eseguire una regressione multipla in Excel
È possibile eseguire una regressione multivariata in Excel utilizzando una funzione incorporata accessibile tramite il Analisi dei dati strumento sotto il Dati scheda e il Analisi gruppo. Clic Analisi dei dati e trova l'opzione per regressione nella finestra che si apre, evidenzialo e fai clic su ok. Clicca sul seleziona celle icona accanto a Intervallo Y di ingresso campo e quindi selezionare la colonna contenente i risultati per la variabile dipendente. Quindi, fai lo stesso per il Intervallo di ingresso X ma seleziona le colonne multiple per le variabili indipendenti. Queste colonne devono essere una accanto all'altra, quindi se non lo sono, devi spostarle prima di produrre la regressione.
La finestra Regressione ha una gamma di opzioni aggiuntive che puoi selezionare per adattare il processo alle tue esigenze. Ad esempio, se lo desideri, puoi impostare un livello di confidenza diverso dal 95%, scegliere di visualizzare i residui e specificare dove si trova l'output nella cartella di lavoro. Quest'ultima opzione è impostata automaticamente su Nuovo foglio di lavoro Ply, quindi i risultati vengono visualizzati su un nuovo foglio, ma puoi modificare questa o qualsiasi altra opzione in base alle tue esigenze. Inoltre, controlla il etichette box se le colonne per le variabili indipendenti hanno etichette in alto, quindi queste vengono visualizzate nell'output.
Clic ok per generare la tua analisi di regressione in Excel ed essere portato al nuovo foglio.
L'output della regressione da Excel
Ci sono tre sezioni principali per l'output che ti viene presentato dopo aver eseguito una regressione multipla in Excel: statistiche di regressione, ANOVA e dettagli sulla linea di regressione stimata. Le statistiche di regressione includono il coefficiente di correlazione multipla ("Multiple R") che mostra la direzione e la forza della correlazione, da -1 a +1. Il coefficiente di determinazione, "R Square", indica quale percentuale (come decimale) della variazione nella variabile dipendente è spiegata dalle variabili indipendenti. Il "quadrato R aggiustato" ti dà un'indicazione del potere esplicativo, ma non è semplice da interpretare, e "Errore standard" ti dà una misura della variazione tra i risultati osservati e la tua regressione linea.
La sezione ANOVA contiene informazioni statistiche sull'entità della variazione spiegata dalla retta di regressione, con "SS Regression" che indica l'importo spiegato dalla riga e "SS Residual" che rappresenta l'importo non spiegato. Le sezioni "MS" stanno per "Mean Square" e "F Statistic" è la statistica del test utilizzata per verificare un risultato significativo, con la sezione "Significance F" che fornisce il valore P.
Infine, l'ultima sezione ti parla delle caratteristiche della retta di regressione stimata, in particolare, i valori di coefficienti, se sono significativamente collegati alla variabile dipendente e la quantità di variazione che potrebbe esserci in essi. I coefficienti positivi mostrano una relazione positiva tra la variabile in questione e la variabile dipendente, quindi quando uno aumenta, aumenta anche l'altro. I valori negativi indicano che la variabile dipendente diminuisce all'aumentare della variabile indipendente. Quindi, se il coefficiente di "metraggio quadrato" su una regressione multipla dei prezzi di una casa è 300, ciò significa che un piede quadrato aggiuntivo di spazio aumenta il costo della casa in media di $ 300.
Ipotesi e limiti della regressione multipla
È importante ricordare che la regressione multipla è solo uno strumento e, come la maggior parte degli strumenti, puoi utilizzarlo solo in alcune circostanze e ci sono alcune cose che non può fare.
Uno dei limiti più importanti è che è difficile concludere la causalità sulla base dei risultati. Ad esempio, se hai una regressione multipla con il danno causato da un incendio e molti potenzialmente fattori rilevanti, probabilmente troverai un collegamento significativo tra il numero di vigili del fuoco presenti e il danno fatto. Questo non significa che i vigili del fuoco causato il danno perché un altro fattore come l'entità dell'incendio non incluso nel modello potrebbe spiegare entrambe queste osservazioni.
Due importanti presupposti di un'analisi multivariata in Excel di questo tipo sono i presupposti di linearità e normalità. Stai assumendo una relazione lineare tra le variabili dipendenti e indipendenti, quindi dovresti verificare che sia probabile che sia valido prima di eseguire l'analisi. Puoi esaminare la relazione tra ciascuna variabile individualmente per verificarla, ma questa non è una strategia perfetta. Allo stesso modo, il test presuppone che le variabili siano distribuite normalmente, quindi dovresti controllare i risultati per ciascuna per la normalità prima di condurre il test.