סיבה אחת שמחקרים מדעיים עשויים להיות שגויים

יש משבר לשכפול במדע - "חיובי שווא" לא מזוהים הם חודר אפילו לעיתוני המחקר המובילים שלנו.

חיובי שווא הוא טענה שיש השפעה כאשר בפועל היא לא קיימת. איש אינו יודע מהו שיעור העיתונים שפורסמו מכילים תוצאות כל כך לא נכונות או מוגזמות, אך ישנן סימנים לכך שהפרופורציה לא קטנה.

האפידמיולוג ג'ון יואנידיס נתן את ההסבר הטוב ביותר לתופעה זו בעיתון מפורסם בשנת 2005, שכותרתו פרובוקטיבית "מדוע רוב תוצאות המחקר שפורסמו אינן נכונות”. אחת הסיבות שיואנידיס נתן לכל כך הרבה תוצאות כוזבות נקראה "p פריצה ", הנובעת מהלחץ שחוקרים חשים להשיג מובהקות סטטיסטית.

מהי משמעות סטטיסטית?

על מנת להסיק מסקנות מנתונים, החוקרים בדרך כלל מסתמכים על בדיקת משמעות. במילים פשוטות, פירוש הדבר הוא חישוב "p value ”, שהיא ההסתברות לתוצאות כמו שלנו אם אין באמת השפעה. אם ה p הערך קטן מספיק, התוצאה מוכרזה כמובהקת סטטיסטית.

באופן מסורתי, א p ערך נמוך מ- .05 הוא הקריטריון למשמעות. אם אתה מדווח א p<.05, סביר שהקוראים מאמינים שמצאתם השפעה אמיתית. אולם, עם זאת, למעשה אין השפעה ודיווחת על חיובי שווא.


גרפיקת מנוי פנימית


כתבי עת רבים יפרסמו רק מחקרים שיכולים לדווח על השפעה מובהקת סטטיסטית אחת או יותר. סטודנטים לתארים מתקדמים לומדים במהירות כי השגת המיתולוגיה p

הלחץ הזה להשיג pp פריצה.

הפיתוי של p פריצה

לדמות p פריצה, הנה דוגמא היפותטית.

ברוס סיים לאחרונה דוקטורט וזכה במענק יוקרתי להצטרף לאחד מצוותי המחקר המובילים בתחומו. הניסוי הראשון שלו לא מצליח, אבל ברוס מעדן במהירות את ההליכים ומנהל מחקר שני. זה נראה מבטיח יותר, אבל עדיין לא נותן p ערך נמוך מ- .05.

משוכנע שהוא עוסק במשהו, ברוס אוסף נתונים נוספים. הוא מחליט להוריד כמה מהתוצאות, שנראו בצורה ברורה.

לאחר מכן הוא מבחין שאחד המדדים שלו נותן תמונה ברורה יותר, ולכן הוא מתמקד בכך. עוד כמה שיפורים וברוס מזהה סוף סוף אפקט מעט מפתיע אך ממש מעניין שמשיג p

ברוס ניסה כל כך למצוא את ההשפעה שהוא ידע ארב איפשהו. הוא גם הרגיש את הלחץ להכות p

יש רק מלכוד אחד: למעשה לא הייתה השפעה. למרות התוצאה המובהקת סטטיסטית, ברוס פרסם חיובי שווא.

ברוס הרגיש שהוא משתמש בתובנה המדעית שלו כדי לחשוף את האפקט האורב כאשר נקט צעדים שונים לאחר שהחל את לימודיו:

  • הוא אסף נתונים נוספים.
  • הוא הוריד כמה נתונים שנראו חריגים.
  • הוא הוריד כמה מהצעדים שלו והתמקד במבטיחים ביותר.
  • הוא ניתח את הנתונים קצת אחרת וביצע כמה שיפורים נוספים.

הצרה היא שכל הבחירות האלה נעשו לאחר לראות את הנתונים. ברוס עשוי, באופן לא מודע, לקוטף דובדבן - לבחור ולצבט עד שהשיג את החמקמק pp

לסטטיסטיקאים יש פתגם: אם תענו את הנתונים מספיק, הם יתוודו. בחירות ושינויים שנעשו לאחר צפייה בנתונים הן שיטות מחקר מפוקפקות. השימוש באלה, בכוונה או לא בכדי להשיג את התוצאה הסטטיסטית הנכונה הוא p פריצה, וזו אחת הסיבות החשובות שפורסמו, תוצאות מובהקות סטטיסטית עשויות להיות חיוביות שווא.

איזה חלק מהתוצאות שפורסמו שגויות?

זוהי שאלה טובה, ושאלתית מסובכת. אף אחד לא יודע את התשובה, שכנראה תהיה שונה בתחומי מחקר שונים.

מאמץ גדול ומרשים לענות על השאלה לפסיכולוגיה חברתית וקוגניטיבית פורסם בשנת 2015. בהובלת בריאן נוסק ועמיתיו במרכז למדע פתוח, פרויקט שכפולות: פסיכולוגיה (RP: P) היו 100 קבוצות מחקר ברחבי העולם שכל אחת מהן מבצעת שכפול מדוקדק של אחת מ -100 התוצאות שפורסמו. באופן כללי, בערך 40 משוכפלים די טובואילו בסביבות 60 מקרים, מחקרי השכפול השיגו השפעות קטנות או קטנות בהרבה.

100 מחקרי שכפול RP: P דיווחו על השפעות שהיו בממוצע רק חצי מגודל ההשפעות שדווחו במחקרים המקוריים. ההעתקים שנערכו בקפידה נותנים כנראה אומדנים מדויקים יותר מהאפשר p פרצו מחקרים מקוריים, כך שנוכל להסיק כי המחקרים המקוריים העריכו יתר על המידה את ההשפעות האמיתיות על ידי גורם שניים בממוצע. זה מדאיג!

איך להימנע p פריצה

הדרך הטובה ביותר להימנע p פריצה היא להימנע מבחירה או תיקונים לאחר צפייה בנתונים. במילים אחרות, הימנע משיטות מחקר מפוקפקות. ברוב המקרים, הדרך הטובה ביותר לעשות זאת היא להשתמש רישום מוקדם.

הרשמה מראש דורשת שתכין מראש תוכנית מחקר מפורטת, הכוללת את הניתוח הסטטיסטי שיש ליישם על הנתונים. לאחר מכן אתה רושם מראש את התוכנית, עם חותמת תאריך, בכתובת מסגרת מדע פתוחה או כל רישום מקוון אחר.

לאחר מכן לבצע את המחקר, לנתח את הנתונים בהתאם לתכנית ולדווח על התוצאות אשר יהיו. הקוראים יכולים לבדוק את התוכנית הרשומה מראש וכך להיות בטוחים שהניתוח צוין מראש, ולא p נפרץ. רישום מוקדם הוא רעיון חדש ומאתגר עבור חוקרים רבים, אך סביר שהוא יהיה דרך העתיד.

הערכה ולא p ערכים

הפיתוי ל p פריצה היא אחד החסרונות הגדולים בהסתמכות p ערכים. אחרת היא ש pיותר כמו להגיד שאפקט קיים או שאין.

אבל העולם אינו שחור ולבן. כדי לזהות את גווני האפור הרבים עדיף להשתמש בה אומדן ולא p ערכים. המטרה בהערכה היא לאמוד את גודל האפקט - שעשוי להיות קטן או גדול, אפס ואפילו שלילי. מבחינת הערכה, תוצאה חיובית כוזבת היא אומדן שהוא גדול או גדול בהרבה מהערך האמיתי של אפקט.

בואו ניקח מחקר היפותטי על השפעת הטיפול. המחקר עשוי, למשל, להעריך כי הטיפול נותן בממוצע ירידה של 7 נקודות בחרדה. נניח שאנו מחשבים מהנתונים שלנו א מרווח ביטחון - טווח של אי ודאות משני צדדי ההערכה הטובה ביותר שלנו - של [4, 10]. זה אומר לנו שההערכה שלנו ל -7 היא ככל הנראה בתוך כ -3 נקודות בסולם החרדה של האפקט האמיתי - כמות התועלת הממוצעת האמיתית של הטיפול.

במילים אחרות, מרווח הביטחון מציין עד כמה ההערכה שלנו מדויקת. הכרת אומדן כזה ומרווח הביטחון שלו הוא אינפורמטיבי הרבה יותר מכל p ערך.

אני מתייחס להערכה כאחת ה"סטטיסטיקות החדשות ". הטכניקות עצמן אינן חדשות, אך השימוש בהן כדרך העיקרית להסיק מסקנות מנתונים היה עבור חוקרים רבים חדש, וצעד גדול קדימה. זה גם יעזור להימנע מעיוותים הנגרמים כתוצאה מכך p פריצה.

על המחבר

ג'וף קאמינג, פרופסור אמריטוס, La Trobe אוניברסיטה

מאמר זה פורסם במקור ב שיחה. קרא את מאמר מקורי.

ספרים קשורים:

at InnerSelf Market ואמזון