איך באמת עבד מודל המיקוד לפייסבוק של קיימברידג 'אנליטיקהעד כמה אתה יכול להיות פרופיל באינטרנט? אנדרו Krasovitckii/Shutterstock.com

החוקר שעבודתו נמצאת במרכז ה ניתוח הנתונים של פייסבוק-קיימברידג 'אנליטיקה והמהומה של פרסום פוליטי גילה שהשיטה שלו עבדה בערך כמו זו נטפליקס משתמשת בהמלצות על סרטים.

במייל אלי, חוקר אוניברסיטת קיימברידג 'אלכסנדר קוגן הסביר כיצד המודל הסטטיסטי שלו עיבד נתוני פייסבוק עבור קיימברידג' אנליטיקה. הדיוק שהוא טוען מציע שזה עובד בערך כמו גם שיטות מבוססות למיקוד בוחרים מבוסס על דמוגרפיה כמו גזע, גיל ומין.

אם הוא יאושש, חשבונו של קוגן אומר שהדוגמנות הדיגיטליות של קיימברידג 'אנליטיקה שהיו בשימוש היו בקושי כדור הגביש הווירטואלי כמה טענו. ובכל זאת המספרים שקוגן מספק גם להראות מהו - ומה אינו - אפשרי בפועל by שילוב נתונים אישיים עם למידת מכונה למטרות פוליטיות.

עם זאת, בנוגע לדאגה ציבורית מרכזית, המספרים של קוגן מעידים כי מידע על אישיות המשתמשים או "פסיכוגרפיה"היה רק ​​חלק צנוע מאופן שבו המודל פנה לאזרחים. זה לא היה מודל אישיות למהדרין, אלא כזה שהרתיח דמוגרפיה, השפעות חברתיות, אישיות וכל השאר לגוש מתואם גדול. נראה שגישת ההספגה-כל-המתאם-קוראת-אישיות-זה יצרה כלי קמפיין בעל ערך, גם אם המוצר שנמכר לא היה בדיוק כפי שהוא מחויב.


גרפיקת מנוי פנימית


ההבטחה למיקוד אישיות

בעקבות הגילויים בהם השתמשו יועצי הקמפיין של טראמפ קיימברידג 'אנליטיקה נתונים של 50 מיליון משתמשי פייסבוק לפייסבוק איבד שווי שוק המניות של מיליארדים, ממשלות ב שני צידי האוקיינוס ​​האטלנטי יש פתחו בחקירות, ומתהווה תנועה חברתית קורא למשתמשים לעשות זאת #DeleteFacebook.

אבל שאלה מרכזית נותרה ללא מענה: האם קיימברידג 'אנליטיקה באמת הצליחה למקד יעיל את מסרי הקמפיין לאזרחים על סמך מאפייני האישיות שלהם - או אפילו "שדים פנימיים", כפי שנטען על ידי מלשין של החברה?

אם מישהו היה יודע מה קיימברידג 'אנליטיקה עשתה עם מאסיבי הנתונים שלה בפייסבוק, אלה יהיו אלכסנדר קוגן ויוסף קנצלר. זה היה הסטארט -אפ שלהם מחקר מדע גלובלי שאסף מידע על פרופיל 270,000 משתמשי פייסבוק ועשרות מיליוני חבריהם באמצעות אפליקציית מבחן אישיות הנקראת "thisisyourdigitallife".

חלק המחקר שלי מתמקד בהבנה למידת מכונה שיטות, ו הספר הקרוב שלי דן כיצד חברות דיגיטליות משתמשות במודלים של המלצות לבניית קהלים. היה לי השערה לגבי איך המודל של קוגן והקנצלר עובד.

אז שלחתי מייל לקוגן לשאול. קוגן עדיין א חוקרת באוניברסיטת קיימברידג '; משתף הפעולה שלו הקנצלר עובד כעת בפייסבוק. בהפגנת אדיבות אקדמית יוצאת דופן, ענה קוגן.

תגובתו דורשת קצת פריקה, וקצת רקע.

מפרס נטפליקס ועד "פסיכומטרי"

עוד בשנת 2006, כשהייתה עדיין חברת DVD באמצעות הדואר, נטפליקס הציעה פרס של מיליון דולר לכל מי שפיתחה דרך טובה יותר לבצע תחזיות לגבי דירוג הסרטים של משתמשים ממה שכבר היו לחברה. המתחרה המפתיע ביותר היה מפתח תוכנה עצמאי המשתמש בשם הבדוי סיימון פאנק, שגישתה הבסיסית שולבה בסופו של דבר בכל ערכי הקבוצות המובילות. פאנק עיבד טכניקה בשם "פירוק ערך יחיד, ”עיבוי דירוגי משתמשים של סרטים לא סדרת גורמים או רכיבים - בעצם קבוצה של קטגוריות שהוסקו, מדורגות לפי חשיבות. בתור פאנק הוסבר בפוסט בבלוג,

"למשל, קטגוריה עשויה לייצג סרטי אקשן, עם סרטים עם הרבה אקשן למעלה, וסרטים איטיים בתחתית, ובהתאם משתמשים שאוהבים סרטי אקשן למעלה, ואלה שמעדיפים סרטים איטיים בחלק העליון. תַחתִית."

גורמים הם קטגוריות מלאכותיות, שלא תמיד דומות לסוג הקטגוריות שבני אדם ימצאו. ה הגורם החשוב ביותר בדגם נטפליקס המוקדם של פאנק הוגדר על ידי משתמשים שאוהבים סרטים כמו "פרל הארבור" ו"מתכנן החתונות ", תוך שהם שונאים סרטים כמו" אבודים בתרגום "או" שמש נצחית של המוח ללא רבב ". המודל שלו הראה כיצד למידת מכונה יכולה למצוא מתאמים בין קבוצות אנשים, וקבוצות של סרטים, שבני אדם עצמם לעולם לא יזהו.

הגישה הכללית של פאנק השתמשה ב -50 או במאה הגורמים החשובים ביותר הן למשתמשים והן לסרטים כדי לנחש היטב כיצד כל משתמש יעריך כל סרט. שיטה זו, המכונה לעתים קרובות הפחתת מימדיות או גורמת מטריקס, לא הייתה חדשה. חוקרי מדעי המדינה הראו זאת טכניקות דומות תוך שימוש בנתוני הצבעה על שיחות יכול לחזות את קולות חברי הקונגרס בדיוק של 90 אחוז. בפסיכולוגיה "חמש גדול"המודל שימש גם לחיזוי התנהגות על ידי קיבוץ שאלות אישיות שנוטה להיענות להן באופן דומה.

ובכל זאת, המודל של פאנק היה התקדמות גדולה: הוא איפשר לטכניקה לעבוד היטב עם מערכי נתונים ענקיים, אפילו כאלה עם הרבה נתונים חסרים - כמו מערך הנתונים של נטפליקס, שבו משתמש טיפוסי דירג רק כמה עשרות סרטים מתוך אלפי החברה בחברה סִפְרִיָה. יותר מעשור לאחר סיום תחרות פרס נטפליקס, שיטות מבוססות SVD, או מודלים קשורים לנתונים מרומזים, הם עדיין כלי הבחירה עבור אתרים רבים לחזות מה משתמשים יקראו, יצפו או יקנו.

מודלים אלה יכולים לחזות גם דברים אחרים.

פייסבוק יודעת אם אתה רפובליקני

בשנת 2013 פרסמו חוקרי אוניברסיטת קיימברידג 'מיכל קוסינסקי, דייויד סטילוול ותור גרייפל מאמר בנושא כוח הניבוי של נתוני פייסבוק, באמצעות מידע שנאסף באמצעות מבחן אישיות מקוון. הניתוח הראשוני שלהם היה כמעט זהה לזה ששימש בפרס נטפליקס, באמצעות SVD כדי לסווג את המשתמשים ואת הדברים שהם "אהבו" למאה הגורמים המובילים.

העיתון הראה שמודל גורם שנעשה רק עם "לייקים" של המשתמשים בפייסבוק הוא 95 אחוז מדויק בהבחנה בין משיבים לשחור ולבן, 93 אחוזים מדויקים בהבחנת גברים מנשים, ו -88 אחוז מדויקים בהבחנה בין אנשים שהזדהו כגברים הומואים מגברים שהזדהו כסטרייטים. זה אפילו יכול להבדיל נכון בין הרפובליקנים מהדמוקרטים 85 אחוז מהזמן. זה גם היה שימושי, אם כי לא מדויק כל כך ניבוי ציוני המשתמשים במבחן האישיות "חמש הגדולות".

היה מחאה ציבורית בתגובה; בתוך שבועות הייתה לפייסבוק הפך את אהבות המשתמשים לפרטיות כברירת מחדל.

קוגן וקנצלר, גם אז חוקרים מאוניברסיטת קיימברידג ', החלו להשתמש בנתוני פייסבוק לצורך מיקוד בחירות כחלק משיתוף פעולה עם חברת האם SCL של קיימברידג' אנליטיקה. קוגן הזמין את קוסינסקי ואת סטילוול להצטרף לפרויקט שלו, אבל זה לא הסתדר. על פי הדיווחים, קוסינסקי חשד שקוגן וקנצלר עשויים להיות הנדסה לאחור את מודל ה"לייקים "בפייסבוק עבור קיימברידג 'אנליטיקה. קוגן הכחיש זאת ואמר כי הפרויקט שלו "בנה את כל הדגמים שלנו באמצעות הנתונים שלנו, שנאספו באמצעות התוכנה שלנו ".

מה בעצם עשו קוגן והקנצלר?

כאשר עקבתי אחר ההתפתחויות בסיפור, התברר שקוגן והקנצלר אכן אספו הרבה נתונים משלהם באמצעות האפליקציה thisisyourdigitallife. הם בהחלט היו יכולים לבנות מודל SVD מנבא כמו זה שהופיע במחקר שפורסם על ידי קוסינסקי וסטילוול.

אז שלחתי מייל לקוגן לשאול אם זה מה שהוא עשה. להפתעתי, הוא כתב בחזרה.

"לא בדיוק השתמשנו ב- SVD", כתב וציין כי SVD יכול להיאבק כאשר למשתמשים מסוימים יש הרבה יותר "לייקים" מאחרים. במקום זאת, הסביר קוגן, "הטכניקה הייתה משהו שפיתחנו בעצמנו ... זה לא משהו שהוא נחלת הכלל". מבלי להיכנס לפרטים, קוגן תיאר את שיטתם כ"רב-שלבי התרחשות משותפת גִישָׁה."

עם זאת, המסר שלו אישר כי גישתו אכן דומה ל- SVD או לשיטות פקטוריזציה אחרות של מטריצות, כמו בתחרות פרס נטפליקס, ולמודל הפייסבוק Kosinki-Stillwell-Graepel. הפחתת ממדיות של נתוני פייסבוק הייתה ליבת המודל שלו.

עד כמה זה היה מדויק?

קוגן הציע שהדגם המדויק בו נעשה שימוש לא משנה הרבה - מה שחשוב הוא דיוק התחזיות שלו. לדברי קוגן, "המתאם בין ציונים צפויים למציאות ... היה סביב [30 אחוז] לכל ממדי האישיות". לשם השוואה, הציונים הקודמים של אדם גדולים הם בערך 70 עד 80 אחוז מדויק בחיזוי הציונים שלהם כשהם מבצעים את המבחן מחדש.

כמובן שאי אפשר לאמת באופן עצמאי את טענות הדיוק של קוגן. ולכל אחד בעיצומה של שערורייה כה מתוקשרת יתכן שיהיה תמריץ להמעיט בתרומתו. בו הופעה ב- CNN, הסביר קוגן לאנדרסון קופר שאינו מאמין יותר בכך שלמעשה הדגמים לא עבדו טוב במיוחד.

{youtube}APqU_EJ5d3U{/youtube}

אלכסנדר קוגן עונה על שאלות ברשת CNN.

למעשה, הדיוק שקוגן טוען נראה מעט נמוך, אך סביר. קוסינסקי, סטילוול וגראפל דיווחו על תוצאות דומות או מעט טובות יותר, כמו מספר לימודים אקדמיים אחרים שימוש בעקבות דיגיטליות לחיזוי אישיות (אם כי לחלק מהמחקרים הללו היו יותר נתונים מאשר רק "לייקים" מפייסבוק). מפתיע שקוגן וקנצלר יטרחו לעצב מודל קנייני משלהם אם פתרונות מדף ייראו מדויקים לא פחות.

אך חשוב לציין שדיוק המודל בציוני האישיות מאפשר השוואת תוצאות קוגן עם מחקרים אחרים. מודלים שפורסמו עם דיוק שווה ערך בחיזוי אישיות כולם מדויקים הרבה יותר בניחוש דמוגרפיה ומשתנים פוליטיים.

לדוגמא, מודל SVD דומה של Kosinski-Stillwell-Graepel היה מדויק ב -85 אחוז בניחוש השתייכות למפלגה, גם מבלי להשתמש בפרטי פרופיל אחרים מלבד לייקים. למודל של קוגן היה דיוק דומה או טוב יותר. הוספת אפילו כמות קטנה של מידע על חברים או דמוגרפיה של משתמשים עשויה להגביר את הדיוק הזה מעל 90 אחוזים. ניחושים לגבי מין, גזע, נטייה מינית ומאפיינים אחרים יהיו כנראה מדויקים יותר מ -90 אחוזים גם כן.

באופן קריטי, ניחושים אלה יהיו טובים במיוחד עבור משתמשי הפייסבוק הפעילים ביותר - האנשים שהמודל שימש בעיקר למיקוד. משתמשים עם פחות פעילות לנתח כנראה לא נמצאים הרבה בפייסבוק בכל מקרה.

כאשר פסיכוגרפיה היא בעיקר דמוגרפיה

הידיעה כיצד בנוי המודל מסייעת להסביר את ההצהרות הסותרות לכאורה של קיימברידג 'אנליטיקה לגבי התפקיד - או חוסר בו - פרופיל האישיות והפסיכוגרפיה שיחקו בדוגמנות שלו. כולם תואמים מבחינה טכנית את מה שקוגן מתאר.

מודל כמו של קוגן ייתן הערכות לכל משתנה זמין בכל קבוצת משתמשים. זה אומר שזה יהיה אוטומטית להעריך את חמשת ציוני האישיות הגדולים לכל בוחר. אבל ציוני האישיות האלה הם הפלט של המודל, לא הקלט. כל מה שהמודל יודע הוא שאהבות מסוימות בפייסבוק, ומשתמשים מסוימים, נוטות להתקבץ יחד.

באמצעות מודל זה, קיימברידג 'אנליטיקה יכולה לומר שהיא מזהה אנשים עם פתיחות נמוכה לחוויה ונוירוטיות גבוהה. אבל אותו מודל, עם אותן תחזיות בדיוק עבור כל משתמש, יכול באותה מידה לטעון שהוא מזהה גברים רפובליקנים מבוגרים פחות משכילים.

המידע של קוגן עוזר גם להבהיר את הבלבול לגבי האם קיימברידג 'אנליטיקה ממש מחק את החבורה שלו של נתוני פייסבוק, כאשר מודלים נבנים מהנתונים נראה שעדיין מסתובב, ואפילו מפותח הלאה.

שיחהכל העניין במודל להפחתת ממדים הוא לייצג את הנתונים בצורה מתמטית בצורה פשוטה יותר. זה כאילו קיימברידג 'אנליטיקה צילמה תצלום ברזולוציה גבוהה מאוד, שינתה אותו לגודל קטן יותר ואז מחקה את המקור. התמונה עדיין קיימת - וכל עוד קיימים המודלים של קיימברידג 'אנליטיקה, הנתונים קיימים גם ביעילות.

על המחבר

מתיו הינדמן, פרופסור חבר לתקשורת ופרסום, אוניברסיטת ג'ורג 'וושינגטון

מאמר זה פורסם במקור ב שיחה. קרא את מאמר מקורי.

ספרים קשורים

at InnerSelf Market ואמזון