![La empresaria africana analizando las estadísticas del proyecto en la pantalla del portátil, cerrar](/f/7ecb65a26e75b4b2d21be054b3f05dbd.jpg)
Cómo usar la regresión múltiple en Excel
Credito de imagen: fizkes / iStock / GettyImages
Excel es una herramienta poderosa para el análisis de datos, ya sea que esté trabajando con una relación simple entre una variable independiente y una variable dependiente o hay múltiples variables independientes para considerar. Aprender a realizar un análisis multivariado en Excel, en forma de regresión múltiple, e interpretar los resultados es esencial si tiene datos complicados para trabajar. La buena noticia es que Excel está bien configurado para manejar estas tareas, y solo necesita aprender cómo funciona una función para comenzar a entender sus datos.
¿Qué es la regresión múltiple?
La regresión múltiple es una forma de relacionar múltiples variables independientes con una sola variable dependiente al encontrar una ecuación que describa cómo cambia la variable en cuestión con cada una. Una herramienta más básica pero similar es la regresión lineal, que tiene como objetivo investigar el vínculo entre una variable, como la obesidad, en una variable dependiente como el riesgo de cáncer, pero las cosas rara vez son así simple. Continuando con el ejemplo, la cantidad de cigarrillos fumados por día también está relacionada con el riesgo de cáncer, al igual que la cantidad de alcohol que bebe. Para llegar a una predicción confiable del riesgo de cáncer para un individuo, debe tener en cuenta todos estos factores (y más).
Video del día
La forma general de la ecuación utilizada para regresiones múltiples es:
Y^ = a + B1X1 + B2X2 + B3X3 …
Entonces el Y^ es el valor esperado para la observación, el B1 y así sucesivamente representan la pendiente de la relación en línea recta entre X1 y Y^, y el X1 y así sucesivamente son las variables incluidas en el análisis. El a te dice el punto de la y-interceptar. Una regresión múltiple implica elegir valores de los coeficientes (B1 y así sucesivamente) que minimizan la diferencia entre el valor esperado Y^ y el valor observado Y, lo que le brinda el mejor ajuste entre el modelo y los datos.
¿Qué le dice una regresión múltiple?
Las regresiones múltiples ponen valores numéricos en la asociación entre una multitud de variables y un resultado, por lo que puede usarlo para predicciones, para estimar el contribuciones relativas de las diferentes variables al resultado, o para algunos otros propósitos, como seleccionar las variables más relevantes para usar en una matemática modelo.
Por ejemplo, supongamos que tiene datos sobre los precios de las casas en una determinada ciudad (su variable dependiente), junto con información como si tiene piscina, cuántos pies cuadrados ocupa, cuántos dormitorios tiene, cuántos baños tiene y cuántos garajes tiene tiene. Una regresión múltiple le permitiría ver cómo se relaciona cada uno de estos factores con el precio de la casa, así que - después Observó cómo se relacionan con el precio; podría usar su ecuación para predecir el precio de una casa en función de estos puntos. solo.
También puede utilizar este tipo de análisis de regresión en Excel para ver cómo un factor específico de muchos, como si la casa tiene piscina: afecta la variable dependiente (precios de la vivienda) si todas las demás variables permanecen constante. Si convierte los coeficientes (llamados "coeficientes de regresión parcial") en coeficientes de regresión parcial estándar, que representan cuántas desviaciones estándar Y cambiaría por si cambiara la variable correspondiente en una desviación estándar, entonces la ecuación también le dice qué factores son más importantes para determinar el resultado.
Cómo hacer una regresión múltiple en Excel
Puede realizar una regresión multivariante en Excel utilizando una función incorporada a la que se puede acceder a través del Análisis de los datos herramienta debajo de la Datos pestaña y la Análisis grupo. Hacer clic Análisis de los datos y encuentra la opción para regresión en la ventana que aparece, resáltela y haga clic en OK. Clickea en el seleccionar celdas icono al lado del Rango de entrada Y campo y luego seleccione la columna que contiene los resultados para su variable dependiente. Luego, haz lo mismo con el Rango de entrada X campo, pero seleccione las columnas múltiples para sus variables independientes. Estas columnas deben estar una al lado de la otra, por lo que si no lo están, debe moverlas antes de producir la regresión.
La ventana Regresión tiene una variedad de opciones adicionales que puede seleccionar para adaptar el proceso a sus necesidades. Por ejemplo, puede establecer un nivel de confianza diferente al 95 por ciento si lo desea, elegir mostrar los residuos y especificar dónde se coloca la salida en su libro de trabajo. Esta última opción se establece automáticamente en Nueva capa de hoja de trabajo, por lo que los resultados se muestran en una nueva hoja, pero puede cambiar esta o cualquier otra opción para que se adapte a sus necesidades. Además, verifique el Etiquetas recuadro si las columnas de sus variables independientes tienen etiquetas en la parte superior, por lo que se muestran en la salida.
Hacer clic OK para generar su análisis de regresión en Excel y ser llevado a la nueva hoja.
La salida de regresión de Excel
Hay tres secciones principales del resultado que se le presenta después de hacer una regresión múltiple en Excel: estadísticas de regresión, ANOVA y detalles sobre la línea de regresión estimada. Las estadísticas de regresión incluyen el coeficiente de correlación múltiple ("R múltiple") que muestra la dirección y la fuerza de la correlación, de -1 a +1. El coeficiente de determinación, "R Cuadrado", le dice qué porcentaje (como decimal) de la variación en la variable dependiente se explica por las variables independientes. El "Cuadrado R ajustado" le da una indicación del poder explicativo, pero no es fácil de interpretar, y el "Error estándar" le da una medida de la variación entre los resultados observados y su regresión línea.
La sección ANOVA contiene información estadística sobre la cantidad de variación explicada por la línea de regresión, con "Regresión SS" que le indica la cantidad explicada por la línea, y "SS Residual" que representa la cantidad no explicado. Las secciones "MS" significan "Cuadrado medio" y el "Estadístico F" es el estadístico de prueba que se usa para probar un resultado significativo, y la sección "Significancia F" le da el valor P.
Finalmente, la última sección le informa sobre las características de la línea de regresión estimada, en particular, los valores de la coeficientes, si están significativamente vinculados a la variable dependiente y la cantidad de variación que podría haber en ellos. Los coeficientes positivos muestran una relación positiva entre la variable en cuestión y la variable dependiente, por lo que cuando uno aumenta, el otro también lo hace. Los valores negativos significan que la variable dependiente disminuye a medida que aumenta la variable independiente. Entonces, si el coeficiente de "pies cuadrados" en una regresión múltiple de precios de vivienda es 300, esto significa que un pie cuadrado adicional de espacio aumenta el costo de la casa en $ 300 en promedio.
Supuestos y limitaciones de la regresión múltiple
Es importante recordar que la regresión múltiple es solo una herramienta y, como la mayoría de las herramientas, solo puede usarla en algunas circunstancias, y hay algunas cosas que simplemente no puede hacer.
Una de las limitaciones más importantes es que es difícil concluir la causalidad sobre la base de los resultados. Por ejemplo, si tiene una regresión múltiple con el daño causado por un incendio y muchos potencialmente factores relevantes, es probable que encuentre un vínculo significativo entre el número de bomberos presentes y el El daño está hecho. Esto no significa que los bomberos causado el daño porque otro factor como el tamaño del incendio no incluido en el modelo podría explicar ambas observaciones.
Dos supuestos importantes de un análisis multivariado en Excel de este tipo son los supuestos de linealidad y normalidad. Está asumiendo una relación lineal entre las variables dependientes e independientes, por lo que debe verificar que es probable que sea válida antes de realizar el análisis. Puede ver la relación entre cada variable individualmente para verificar, pero esta no es una estrategia perfecta. De manera similar, la prueba asume que las variables están distribuidas normalmente, por lo que debe verificar la normalidad de los resultados de cada una antes de realizar la prueba.