Como Usar Regressão Múltipla no Excel

Mulher de negócios africana analisando estatísticas do projeto na tela do laptop, close-up

Como Usar Regressão Múltipla no Excel

Crédito da imagem: fizkes / iStock / GettyImages

O Excel é uma ferramenta poderosa para análise de dados, esteja você trabalhando com uma relação simples entre uma variável independente e uma variável dependente ou existem múltiplas variáveis ​​independentes para considerar. Aprender como realizar uma análise multivariada no Excel - na forma de uma regressão múltipla - e interpretar os resultados é essencial se você tiver dados complicados para trabalhar. A boa notícia é que o Excel está bem configurado para lidar com essas tarefas e você só precisa aprender como funciona uma função para começar a dar sentido aos seus dados.

O que é regressão múltipla?

A regressão múltipla é uma forma de relacionar várias variáveis ​​independentes a uma única variável dependente, encontrando uma equação que descreve como a variável em questão muda com cada uma. Uma ferramenta mais básica, mas semelhante, é a regressão linear, que visa investigar a ligação entre uma variável, como obesidade, em uma variável dependente, como o risco de câncer, mas as coisas raramente são para a frente. Continuando com o exemplo, o número de cigarros fumados por dia também está relacionado ao risco de câncer, assim como a quantidade de álcool que você ingere. Para chegar a uma previsão confiável do risco de câncer para um indivíduo, você precisa levar todos esses fatores (e mais) em consideração.

Vídeo do dia

A forma geral da equação usada para regressões múltiplas é:

Y^ = uma + b1x1 + b2x2 + b3x3

Então o Y^ é o valor esperado para a observação, o b1 e assim por diante representam a inclinação da relação em linha reta entre x1 e Y^, e o x1 e assim por diante são as variáveis ​​incluídas na análise. O uma diz a você o ponto do y-interceptar. Uma regressão múltipla envolve a escolha de valores dos coeficientes (b1 e assim por diante) que minimizam a diferença entre o valor esperado Y^ e o valor observado Y, proporcionando o melhor ajuste entre o modelo e os dados.

O que uma regressão múltipla lhe diz?

As regressões múltiplas colocam valores numéricos na associação entre uma infinidade de variáveis ​​e um resultado, então você pode usá-lo para previsões, para estimar o contribuições relativas das diferentes variáveis ​​para o resultado, ou para alguns outros propósitos, como selecionar as variáveis ​​mais relevantes para usar em uma matemática modelo.

Por exemplo, digamos que você tenha dados sobre os preços das casas em uma determinada cidade (sua variável dependente), junto com informações como se tem piscina, quantos metros quadrados ocupa, quantos quartos tem, quantos banheiros tem e quantas garagens tem tem. Uma regressão múltipla permitiria que você olhasse como cada um desses fatores está relacionado ao preço da casa, então - depois você olhou como eles se relacionam com o preço - você poderia usar sua equação para prever o preço de uma casa com base nesses pontos sozinho.

Você também pode usar este tipo de análise de regressão no Excel para ver como um fator específico de muitos - como se a casa tem um pool - afeta a variável dependente (preços da casa) se todas as outras variáveis ​​permanecerem constante. Se você converter os coeficientes (chamados de "coeficientes de regressão parcial") em coeficientes de regressão parcial padrão, que representam quantos desvios padrão Y mudaria em se você alterasse a variável correspondente em um desvio padrão, então a equação também informa quais fatores são mais importantes na determinação do resultado.

Como fazer uma regressão múltipla no Excel

Você pode realizar uma regressão multivariada no Excel usando uma função embutida que é acessível através do Análise de dados ferramenta sob o Dados guia e o Análise grupo. Clique Análise de dados e encontre a opção para regressão na janela que aparece, realce-a e clique em OK. Clique no selecione células ícone ao lado do Faixa de entrada Y campo e, em seguida, selecione a coluna que contém os resultados para sua variável dependente. Então, faça o mesmo para o Faixa de entrada X campo, mas selecione as várias colunas para suas variáveis ​​independentes. Essas colunas devem estar próximas uma da outra, então, se não estiverem, você terá que movê-las antes de produzir a regressão.

A janela Regressão tem uma variedade de opções adicionais que você pode selecionar para adaptar o processo às suas necessidades. Por exemplo, você pode definir um nível de confiança diferente de 95 por cento, se desejar, optar por exibir os resíduos e especificar onde a saída é colocada em sua pasta de trabalho. Esta última opção é automaticamente definida para Nova folha de trabalho, para que os resultados apareçam em uma nova planilha, mas você pode alterar esta ou qualquer outra opção para atender às suas necessidades. Além disso, verifique o Etiquetas caixa se as colunas de suas variáveis ​​independentes têm rótulos na parte superior, portanto, eles são exibidos na saída.

Clique OK para gerar sua análise de regressão no Excel e ser levado para a nova planilha.

O resultado da regressão do Excel

Existem três seções principais na saída que você vê depois de fazer uma regressão múltipla no Excel: estatísticas de regressão, ANOVA e detalhes na linha de regressão estimada. As estatísticas de regressão incluem o coeficiente de correlação múltipla ("R múltiplo") que mostra a direção e a força da correlação, de -1 a +1. O coeficiente de determinação, "R ao quadrado", informa qual porcentagem (como um decimal) da variação na variável dependente é explicada pelas variáveis ​​independentes. O "Quadrado R ajustado" dá uma indicação de poder explicativo, mas não é fácil de interpretar, e o "Erro Padrão" dá-lhe uma medida da variação entre os resultados observados e a sua regressão linha.

A seção ANOVA contém informações estatísticas sobre a quantidade da variação explicada pela linha de regressão, com "SS Regression" informando o valor explicado pela linha e "SS Residual" representando o valor não explicado. As seções "MS" representam "Quadrado médio" e a "Estatística F" é a estatística de teste usada para testar um resultado significativo, com a seção "Significância F" fornecendo o valor P.

Finalmente, a última seção fala sobre as características da linha de regressão estimada, em particular, os valores do coeficientes, se eles estão significativamente vinculados à variável dependente e a quantidade de variação que pode haver neles. Coeficientes positivos mostram uma relação positiva entre a variável em questão e a variável dependente, portanto, quando um aumenta, o outro também aumenta. Valores negativos significam que a variável dependente diminui à medida que a variável independente aumenta. Portanto, se o coeficiente de "metragem quadrada" em uma regressão múltipla de preços de casas for 300, isso significa que um pé quadrado adicional de espaço aumenta o custo da casa em $ 300, em média.

Suposições e limitações da regressão múltipla

É importante lembrar que a regressão múltipla é apenas uma ferramenta e, como a maioria das ferramentas, você só pode usá-la em algumas circunstâncias e há algumas coisas que ela simplesmente não pode fazer.

Uma das limitações mais importantes é que é difícil concluir a causalidade com base nos resultados. Por exemplo, se você tiver uma regressão múltipla com os danos causados ​​por um incêndio e muitos potencialmente fatores relevantes, você provavelmente encontrará uma ligação significativa entre o número de bombeiros presentes e o dano feito. Isso não significa que os bombeiros causou o dano porque outro fator, como o tamanho do incêndio, não incluído no modelo, poderia explicar essas duas observações.

Duas premissas importantes de uma análise multivariada desse tipo no Excel são as premissas de linearidade e normalidade. Você está assumindo uma relação linear entre as variáveis ​​dependentes e independentes, então você deve verificar se isso é válido antes de realizar a análise. Você pode examinar a relação entre cada variável individualmente para verificar, mas essa não é uma estratégia perfeita. Da mesma forma, o teste presume que as variáveis ​​são normalmente distribuídas, portanto, você deve verificar os resultados de cada uma para a normalidade antes de conduzir o teste.