ניקוי בלבול בין מתאם לסיבתיות 

הנה מעיין היסטורי שאולי לא ידעתם עליו. בין השנים 1860 ל- 1940, ככל שגדל מספר שרי המתודיסטים שחיו בניו אינגלנד, כך גם גדל כמות הרום הקובני המיובאת לבוסטון - ושניהם גדלו באופן דומה ביותר. לפיכך, שרי המתודיסטים בוודאי קנו הרבה רום בתקופת הזמן ההיא!

בעצם לא, זו מסקנה מטופשת להסיק. מה שבאמת קורה הוא ששני הכמויות - שרים מתודיסטים ורום קובני - הונעו כלפי מעלה מגורמים אחרים, כמו גידול האוכלוסייה.

כשהגענו למסקנה הלא נכונה הזו, עשינו את הטעות הלא שכיחה מדי של מתאם מבלבל עם סיבתיות.

מה ההבדל?

נאמר כי ישנן שתי כמויות מְתוּאָם  אם שניהם גדלים ויורדים יחד ("בקורלציה חיובית"), או אם האחד גדל כאשר השני יורד ולהיפך ("בקורלציה שלילית").

קורלציה מתגלה בקלות באמצעות מדידות סטטיסטיות של מקדם המתאם של פירסון, המציין עד כמה שתי הכמויות נעולות היטב, החל מ -1 (בקורלציה שלילית לחלוטין) עד 0 (כלל לא בקורלציה) ועד 1 (בקורלציה חיובית לחלוטין).


גרפיקת מנוי פנימית


 סיבתיות 1tylervigen.com

אך העובדה ששני כמויות מתואמות אינה אומרת בהכרח כי אחת היא ישירות גורם השני לשנות. מתאם אינו מרמז על סיבתיות, בדיוק כמו שמזג אוויר מעונן לא מרמז על גשמים, למרות שההפך הוא הנכון.

אם שני כמויות מתואמות אז יכול להיות שיש קשר אמיתי בין סיבה ותוצאה (כגון רמות גשמים ומכירות מטריות), אבל אולי משתנים אחרים מניעים את שניהם (כגון מספר פיראטים והתחממות כדור הארץ), או שאולי זה רק צירוף מקרים (כגון צריכת גבינה אמריקאית וחנקות לפי מצע).

גם במקרים שבהם קיימת סיבתיות, עלינו להיזהר שלא לערבב בין הסיבה לתוצאה, אחרת נוכל להסיק למשל כי שימוש מוגבר בתנורי חימום גורם למזג אוויר קר יותר.

כדי לקבוע סיבה ותוצאה, עלינו לחרוג מהסטטיסטיקה ולחפש הוכחות נפרדות (בעלות אופי מדעי או היסטורי) והנמקה לוגית. המתאם אולי יניע אותנו ללכת לחפש ראיות כאלה מלכתחילה, אך אין זו הוכחה בפני עצמה.

נושאים עדינים

אף על פי שהדוגמאות לעיל היו מטופשות בעליל, המתאם מטעה לעתים קרובות כסיבתיות בדרכים שאינן ברורות באופן מיידי בעולם האמיתי. בעת קריאה ופרשנות של נתונים סטטיסטיים, יש להקפיד מאוד להבין בדיוק מה הנתונים והסטטיסטיקה שלו מרמזים - וחשוב מכך, מה הם לֹא מרמז.

 סיבתיות 2

אחת הדוגמאות האחרונות לצורך הזהירות בפרשנות הנתונים היא ההתרגשות מוקדם יותר השנה סביב פריצת הדרך לכאורה זיהוי גלי כבידה - הודעה שנראתה כאילו פורסמה בטרם עת, לפני שנלקחו בחשבון כל המשתנים שהשפיעו על הנתונים.

לרוע המזל, ניתוח סטטיסטיקות, הסתברויות וסיכונים איננו מערך מיומנות המשולב בנו אינטואיציה אנושיתוכך קל מדי להוליך שולל. ספרים שלמים נכתבו על הדרכים המעודנות שבהן ניתן לפרש נתונים שגויים (או להשתמש בהם כדי להטעות). כדי לעזור לשמור על המשמר, להלן כמה בעיות סטטיסטיות חלקלקות נפוצות שכדאי שתכירו להן:

1) אפקט העובד הבריא, שבו לפעמים לא ניתן להשוות ישירות בין שתי קבוצות במגרש שוויוני.

שקול מחקר היפותטי המשווה את בריאותם של קבוצת עובדי משרדים לבין בריאותם של קבוצת אסטרונאוטים. אם המחקר לא מראה הבדל משמעותי בין השניים-אין מתאם בין בריאות וסביבת עבודה-האם עלינו להסיק כי החיים והעבודה בחלל לא טומנים בחובם סיכונים בריאותיים ארוכי טווח לאסטרונאוטים?

לא! הקבוצות אינן באותו רגל: חיל האסטרונאוטים בודקים את המועמדים כדי למצוא מועמדים בריאים, שאז מקיימים משטר כושר מקיף על מנת להילחם באופן יזום בהשפעות החיים ב"מיקרו -כבידה ".

לכן היינו מצפים שהם יהיו בריאים משמעותית מעובדי המשרד, בממוצע, וצריכים להיות מודאגים אם לא.

2) סיווג ואפקט ההגירה בשלבים - ערבוב אנשים בין קבוצות יכול להיות בעל השפעות דרמטיות על התוצאות הסטטיסטיות.

זה ידוע גם בשם וויל רוג'רס אפקט, לאחר שהקומיקאי האמריקאי שדיווח על פי הדיווחים:

כשהאוקים עזבו את אוקלהומה ועברו לקליפורניה, הם העלו את רמת האינטליגנציה הממוצעת בשתי המדינות.

לשם המחשה, דמיינו לחלק קבוצת חברים גדולה לקבוצה "קצרה" ולקבוצה "גבוהה" (אולי על מנת לסדר אותם לצילום). לאחר שעשה זאת, קל להפתיע להעלות את הגובה הממוצע של שתי הקבוצות בבת אחת.

כל שעליך לעשות הוא לבקש מהאדם הקצר ביותר בקבוצה "הגבוהה" לעבור לקבוצה "הקצרה". הקבוצה "הגבוהה" מאבדת את החבר הקצר ביותר שלהם, ובכך מגבירה את הגובה הממוצע - אך הקבוצה "הקצרה" צוברת את החבר הגבוה ביותר שלהם עד כה, וכך גם צוברת בגובה ממוצע.

יש לכך השלכות מרכזיות במחקרים רפואיים, כאשר החולים ממוינים לעיתים קרובות לקבוצות "בריאות" או "לא בריאות" במהלך בדיקת טיפול חדש. אם שיפור שיטות האבחון, חלק מהחולים מאוד מעט לא בריאים עשויים להיות מסווגים מחדש-מה שמוביל לשיפור התוצאות הבריאותיות של שתי הקבוצות, ללא קשר עד כמה הטיפול יעיל (או לא).

 סיבתיות 3בחירה ובחירה בין הנתונים יכולה להוביל למסקנות שגויות. הספקנים רואים תקופה של התקררות (כחול) כאשר הנתונים באמת מראים התחממות לטווח ארוך (ירוק). skepticalscience.com 

3) כריית נתונים-כאשר קיים שפע של נתונים, ניתן לבחור קטעים בדובדבן כדי לתמוך בכל מסקנה רצויה.

זהו פרקטיקה סטטיסטית גרועה, אבל אם נעשה בכוונה יכול להיות קשה לזהות ללא ידע במערך הנתונים המלא והשלם.

שקול את הגרף לעיל המציג שני פרשנויות של נתוני התחממות כדור הארץ, למשל. או פלואוריד - בכמויות קטנות זוהי אחת התרופות המונעות היעילות ביותר בהיסטוריה, אך ההשפעה החיובית נעלמת לגמרי אם רק מחשיבים כמויות רעילות של פלואוריד.

מסיבות דומות, חשוב שהנהלים של ניסוי סטטיסטי נתון יהיו קבועים לפני תחילת הניסוי ולאחר מכן יישארו ללא שינוי עד שהניסוי יסתיים.

4) אשכולות - שצפוי אפילו בנתונים אקראיים לחלוטין.

שקול מחקר רפואי הבודק כיצד מחלה מסוימת, כגון סרטן או טרשת נפוצה, היא מופץ גיאוגרפית. אם המחלה מכה באקראי (ולסביבה אין השפעה) היינו מצפים לראות אשכולות רבים של מטופלים כמובנים מאליהם. אם המטופלים מתפזרים באופן אחיד בצורה מושלמת, ההתפלגות תהיה אכן לא אקראית ביותר!

כך שנוכחותו של אשכול יחיד, או מספר אשכולות קטנים של מקרים, היא נורמלית לחלוטין. יש צורך בשיטות סטטיסטיות מתוחכמות בכדי לקבוע עד כמה נדרש שילוב כדי להסיק שמשהו באזור זה עלול לגרום למחלה.

לרוע המזל, כל אשכול בכלל-אפילו לא משמעותי-יוצר כותרת חדשות קלה (ובמבט ראשון, משכנע).

 סיבתיות 4

יש להשתמש בזהירות רבה בניתוח סטטיסטי, כמו בכל כלי רב עוצמה אחר - ובפרט, תמיד יש להיזהר בעת הסקת מסקנות המבוססות על העובדה ששני כמויות מתואמות.

במקום זאת, עלינו תמיד להתעקש על ראיות נפרדות כדי לטעון לסיבה ותוצאה-וראיה זו לא תגיע בצורת מספר סטטיסטי אחד.

מתאמים משכנעים לכאורה, נגיד בין גנים נתונים לבין סכִיזוֹפרֶנִיָה או בין א דיאטה עשירה בשומן ומחלות לב, עשויות להתברר כמבוססות על מתודולוגיה מפוקפקת מאוד.

אנו אולי כמין חולי קוגניטיבית מוכנים להתמודד עם סוגיות אלה. כמחנך קנדי קירן איגן הכניס אותו לספרו לטעות מההתחלה:

החדשות הרעות הן שהאבולוציה שלנו ציידה אותנו לחיות בחברות קטנות ויציבות, ציידים-לקטים. אנחנו אנשים פליסטוקנים, אבל המוח המרופט שלנו יצר לנו חברות מאסיביות, רב תרבותיות, מתוחכמות טכנולוגיות ומשתנות במהירות.

כתוצאה מכך, עלינו לעמוד כל הזמן בפיתוי לראות משמעות במקרה ולבלבל בין מתאם וסיבתיות.שיחה

מאמר זה פורסם במקור ב שיחה
קרא את מאמר מקורי.


על הכותבים

בורווין ג'ונתןג'ונתן בורוויין (ג'ון) הוא פרופסור חתן מתמטיקה באוניברסיטת ניוקאסל. הוא פרופסור חתן מתמטיקה באוניברסיטת ניוקאסל ומנהל המרכז למתמטיקה במחקר בעזרת מחשבים ויישומיו (CARMA). הוא עבד באוניברסיטאות קרנגי-מלון, דלהוזי, סיימון פרייזר ווטרלו והחזיק בשני כיסאות מחקר בקנדה בתחום המחשוב.

רוז מייקלמייקל רוז הוא מועמד לתואר שלישי בבית הספר למדעי המתמטיקה והפיסיקה באוניברסיטת ניוקאסל. סטודנט לתואר שלישי במתמטיקה בהנחייתו של החתן פרופ 'ג'ון בורוויין באוניברסיטת ניוקאסל, אוסטרליה. מסייע כיום במחקר יישום מתמטיקה פרקטלית על דוגמנות הפצות סינפסה במוח.

הצהרת גילוי נאות: המחברים אינם עובדים עבור, מתייעצים עם, מחזיקים במניות או מקבלים מימון מחברה או ארגון שיהנו ממאמר זה. אין להם גם שום קשר רלוונטי.


ספר מומלץ:

כסף, סקס, מלחמה, קארמה: הערות למהפכה בודהיסטית
מאת דייוויד ר 'לוי.

כסף, סקס, מלחמה, קארמה: הערות למהפכה בודהיסטית מאת דייוויד ר. לוי.דייוויד לוי הפך לאחד התומכים החזקים ביותר בתפיסת העולם הבודהיסטית, והסביר כאף אחד אחר את יכולתו להפוך את הנוף הסוציופוליטי של העולם המודרני. ב כסף, סקס, מלחמה, קארמה, הוא מציע מצגות חדות ואפילו מזעזעות של מצרכים בודהיסטיים שלא מבינים לעיתים קרובות - עבודת הקארמה, טבעו של העצמי, הגורמים לצרות ברמה האישית והן ברמה החברתית - והסיבות האמיתיות מאחורי התחושה הקולקטיבית שלנו "לעולם לא מספיק , "בין אם זה זמן, כסף, מין, ביטחון ... אפילו מלחמה. "המהפכה הבודהיסטית" של דייוויד היא לא פחות משינוי רדיקלי בדרכים בהן אנו יכולים להתקרב לחיינו, לכוכב הלכת שלנו, לאשליות הקולקטיביות החולפות על שפתנו, תרבותנו ואפילו רוחנו.

לחץ כאן למידע נוסף ו / או להזמנת ספר זה באמזון.