כיצד להשתמש ברגרסיה מרובה באקסל
קרדיט תמונה: fizkes/iStock/GettyImages
Excel הוא כלי רב עוצמה לניתוח נתונים, בין אם אתה עובד עם מערכת יחסים פשוטה ביניהם משתנה בלתי תלוי אחד ומשתנה תלוי או שישנם מספר משתנים בלתי תלויים לשקול. ללמוד כיצד לבצע ניתוח רב משתנים באקסל - בצורה של רגרסיה מרובה - ולפרש את התוצאות הוא חיוני אם יש לך נתונים מסובכים לעבוד עליהם. החדשות הטובות הן ש-Excel מוגדר היטב להתמודד עם משימות אלה, ואתה רק צריך ללמוד כיצד פועלת פונקציה אחת כדי להתחיל להבין את הנתונים שלך.
מהי רגרסיה מרובה?
רגרסיה מרובה היא דרך לקשר מספר משתנים בלתי תלויים למשתנה תלוי בודד על ידי מציאת משוואה המתארת כיצד המשתנה המדובר משתנה עם כל אחד מהם. כלי בסיסי יותר אך דומה הוא רגרסיה לינארית, שמטרתה לחקור את הקשר בין עצמאי אחד משתנה, כגון השמנת יתר, על משתנה תלוי כמו הסיכון לסרטן, אך לעתים נדירות הדברים הם כאלה פָּשׁוּט. אם נמשיך עם הדוגמה, מספר הסיגריות המעושנות ביום קשור גם הוא לסיכון לסרטן, וכך גם כמות האלכוהול שאתה שותה. כדי להגיע לניבוי מהימן של הסיכון לסרטן עבור אדם, תצטרך לקחת את כל הגורמים הללו (ועוד) בחשבון.
סרטון היום
הצורה הכללית של המשוואה המשמשת עבור רגרסיות מרובות היא:
י^ = א + ב1איקס1 + ב2איקס2 + ב3איקס3 …
אז ה י^ הוא הערך הצפוי לתצפית, ה ב1 וכן הלאה מייצגים את השיפוע של הקשר הישר בין איקס1 ו י^, ואת איקס1 וכן הלאה הם המשתנים הכלולים בניתוח. ה א אומר לך את הנקודה של y-לעכב. רגרסיה מרובה כרוכה בבחירת ערכים של המקדמים (ב1 וכן הלאה) שממזערים את ההבדל בין הערך הצפוי י^ והערך הנצפה י, נותן לך את ההתאמה הטובה ביותר בין המודל לנתונים.
מה רגרסיה מרובה אומרת לך?
רגרסיות מרובות מציבות ערכים מספריים על הקשר בין מספר רב של משתנים לתוצאה, כך שתוכל להשתמש בו עבור תחזיות, להערכת תרומות יחסיות של המשתנים השונים לתוצאה, או לכמה מטרות אחרות כמו בחירת המשתנים הרלוונטיים ביותר לשימוש במתמטיקה דֶגֶם.
לדוגמה, נניח שיש לך נתונים על מחירי בתים בעיר מסוימת (המשתנה התלוי שלך), יחד עם מידע כמו האם יש לו בריכה, כמה מטרים רבועים הוא תופס, כמה חדרי שינה יש לו, כמה חדרי רחצה יש לו וכמה מוסכים הוא יש ל. רגרסיה מרובה תאפשר לך לבחון כיצד כל אחד מהגורמים הללו קשור למחיר הבית, אז - לאחר הסתכלת איך הם קשורים למחיר - אתה יכול להשתמש במשוואה שלך כדי לחזות את המחיר של בית על סמך הנקודות האלה לבד.
אתה יכול גם להשתמש בסוג זה של ניתוח רגרסיה ב-Excel כדי לראות כיצד גורם ספציפי מבין רבים - כגון האם יש בבית בריכה - משפיע על המשתנה התלוי (מחירי הדירות) אם כל שאר המשתנים נשארים קָבוּעַ. אם תמיר את המקדמים (הנקראים "מקדמי רגרסיה חלקית") למקדמי רגרסיה חלקית סטנדרטיים, המייצגים כמה סטיות תקן י ישתנה באם תשנה את המשתנה המתאים בסטיית תקן אחת, אז המשוואה גם אומרת לך אילו גורמים חשובים יותר בקביעת התוצאה.
כיצד לבצע רגרסיה מרובה באקסל
ניתן לבצע רגרסיה רב-משתנית ב-Excel באמצעות פונקציה מובנית הנגישה דרך ה- ניתוח נתונים כלי מתחת ל נתונים הכרטיסייה וה- אָנָלִיזָה קְבוּצָה. נְקִישָׁה ניתוח נתונים ומצא את האפשרות עבור נְסִיגָה בחלון שצץ, סמן אותו ולחץ בסדר. הקלק על ה בחר תאים סמל ליד טווח Y קלט ולאחר מכן בחר את העמודה המכילה את התוצאות עבור המשתנה התלוי שלך. לאחר מכן, עשה את אותו הדבר עבור טווח X קלט אבל בחר את העמודות המרובות עבור המשתנים הבלתי תלויים שלך. עמודות אלו צריכות להיות צמודות זו לזו, כך שאם הן אינן, עליך להזיז אותן לפני הפקת הרגרסיה.
לחלון הרגרסיה יש מגוון אפשרויות נוספות שתוכל לבחור כדי להתאים את התהליך כך שיתאים לצרכים שלך. לדוגמה, אתה יכול להגדיר רמת ביטחון שאינה 95 אחוז אם תרצה, לבחור להציג שאריות ולציין היכן הפלט ממוקם בחוברת העבודה שלך. אפשרות אחרונה זו מוגדרת אוטומטית ל שכבת גיליון עבודה חדשה, כך שהתוצאות מוצגות בגיליון חדש, אבל אתה יכול לשנות אפשרות זו או כל אפשרות אחרת כדי להתאים לצרכים שלך. בנוסף, בדוק את תוויות אם לעמודות של המשתנים הבלתי תלויים שלך יש תוויות בחלק העליון, כך שהן מוצגות בפלט.
נְקִישָׁה בסדר כדי ליצור את ניתוח הרגרסיה שלך ב-Excel ולהועבר לגיליון החדש.
פלט הרגרסיה מאקסל
ישנם שלושה חלקים עיקריים לפלט שמוצג לך לאחר ביצוע רגרסיה מרובה באקסל: סטטיסטיקת רגרסיה, ANOVA ופירוט על שורת הרגרסיה המשוערת. סטטיסטיקת הרגרסיה כוללת את מקדם המתאם המרובה ("Multiple R") המראה את כיוון ועוצמת המתאם, מ-1 עד +1. מקדם הקביעה, "R Square", אומר לך איזה אחוז (כעשרוני) מהשונות במשתנה התלוי מוסבר על ידי המשתנים הבלתי תלויים. "ריבוע R המותאם" נותן לך אינדיקציה של כוח הסבר, אבל זה לא פשוט לפרש, וה"שגיאה הסטנדרטית" נותנת לך מדד של השונות בין התוצאות שנצפו לבין הרגרסיה שלך קַו.
קטע ANOVA מכיל מידע סטטיסטי על כמות הווריאציה המוסברת על ידי קו הרגרסיה, כאשר "רגרסיה SS" מציינת את הכמות המוסברת על ידי השורה, ו-"S Residual" מייצגת את הסכום שלא הסביר. סעיפי ה-"MS" מייצגים "ריבוע ממוצע", ו-"F Statistic" הוא נתון הבדיקה המשמש לבדיקת תוצאה מובהקת, כאשר סעיף "מובהקות F" נותן לך את ערך ה-P.
לבסוף, החלק האחרון מספר לך על המאפיינים של קו הרגרסיה המשוער, בפרט, הערכים של מקדמים, בין אם הם קשורים באופן משמעותי למשתנה התלוי, וכמות השונות שיכולה להיות בהם. מקדמים חיוביים מראים קשר חיובי בין המשתנה הנדון למשתנה התלוי, כך שכאשר אחד גדל, גם השני עושה זאת. ערכים שליליים פירושם המשתנה התלוי יורד ככל שהמשתנה הבלתי תלוי גדל. לכן, אם מקדם ה"מטרים הרבועים" על רגרסיה מרובה של מחירי בית הוא 300, פירוש הדבר ששטח נוסף של מטר מרובע מגדיל את עלות הבית ב-300 דולר בממוצע.
הנחות ומגבלות של רגרסיה מרובה
חשוב לזכור שרגרסיה מרובה היא רק כלי, וכמו רוב הכלים, אתה יכול להשתמש בה רק בנסיבות מסוימות, ויש כמה דברים שהיא פשוט לא יכולה לעשות.
אחת המגבלות החשובות ביותר היא שקשה להסיק סיבתיות על בסיס התוצאות. כדוגמה, אם יש לך רגרסיה מרובה עם הנזק שנגרם על ידי שריפה ורבים בפוטנציה גורמים רלוונטיים, סביר להניח שתמצא קשר משמעותי בין מספר הכבאים הנוכחים לבין ה נזק נעשה. זה לא אומר שהכבאים גרם ל הנזק מכיוון שגורם אחר כמו גודל השריפה שלא נכלל במודל יכול להסביר את שתי התצפיות הללו.
שתי הנחות חשובות של ניתוח רב משתנים באקסל מסוג זה הן הנחות הלינאריות והנורמליות. אתה מניח קשר ליניארי בין המשתנים התלויים והבלתי תלויים, אז אתה צריך לבדוק שזה כנראה תקף לפני ביצוע הניתוח. אתה יכול להסתכל על הקשר בין כל משתנה בנפרד כדי לבדוק, אבל זו לא אסטרטגיה מושלמת. באופן דומה, הבדיקה מניחה שהמשתנים מחולקים בצורה נורמלית, ולכן יש לבדוק את תקינות התוצאות של כל אחד מהם לפני עריכת הבדיקה.