כיצד מחשבים עוזרים לביולוגים לפצח את סודות החיים

לאחר שרצף הגנום האנושי בן שלושה מיליארד האות, מיהרנו לתוך "חדשomicsעידן המחקר הביולוגי. מדענים רצים כעת לרצף את הגנום (כל הגנים) או הפרוטומים (כל החלבונים) של אורגניזמים שונים - ובתוך כך הם אוספים כמויות אדירות של נתונים.

לדוגמה, מדען יכול להשתמש בכלים של "אומיקים" כגון רצף DNA כדי להקניט אילו גנים אנושיים מושפעים בזיהום שפעת ויראלית. אך מכיוון שלגנום האנושי יש לפחות 25,000 גנים בסך הכל, מספר הגנים שהשתנה אפילו בתרחיש פשוט כזה עשוי להיות באלפים.

למרות שרצף וזיהוי גנים וחלבונים נותנים להם שם ומקום, זה לא אומר לנו מה הם עושים. עלינו להבין כיצד הגנים, החלבונים וה כל הדברים שביניהם אינטראקציה בתהליכים ביולוגיים שונים.

כיום, אפילו ניסויים בסיסיים מניבים נתונים גדולים, ואחד האתגרים הגדולים ביותר הוא ניתוק התוצאות הרלוונטיות מרעשי רקע. מחשבים עוזרים לנו להתגבר על הר הנתונים הזה; אבל הם יכולים אפילו ללכת רחוק יותר מזה, לעזור לנו להמציא השערות מדעיות ולהסביר תהליכים ביולוגיים חדשים. מדעי הנתונים, במהותם, מאפשרים מחקר ביולוגי חדשני.

מחשבים להצלה

מחשבים מוסמכים באופן ייחודי לטפל במערכות נתונים מאסיביות מכיוון שהם יכולים במקביל לעקוב אחר כל התנאים החשובים הדרושים לניתוח.


גרפיקת מנוי פנימית


למרות שהם יכול לשקף טעויות אנוש עם תוכנתם, מחשבים יכולים להתמודד עם כמויות גדולות של נתונים ביעילות והם אינם מוטים כלפי המוכר כפי שחוקרים אנושיים עשויים להיות.

ניתן ללמד מחשבים גם לחפש דפוסים ספציפיים במערכות נתונים ניסיוניות - מושג המכונה למידת מכונה, שהוצע לראשונה בשנות החמישים, ובראשן המתמטיקאי. אלן טיורינג. לאחר מכן ניתן לבקש מאלגוריתם שלמד את הדפוסים ממערכות נתונים לבצע תחזיות המבוססות על נתונים חדשים שמעולם לא נתקלו בהן.

למידת מכונה חוללה מהפכה במחקר הביולוגי מכיוון שאנו יכולים כעת להשתמש במערכות נתונים גדולות ולבקש ממחשבים לסייע בהבנת הביולוגיה העומדת בבסיסו.

הכשרת מחשבים לחשיבה באמצעות סימולציה של תהליכי מוח

השתמשנו בסוג אחד מעניין של למידת מכונה, הנקראת רשת עצבית מלאכותית (ANN), במעבדה שלנו. המוח הן רשתות קשורות מאוד של נוירונים, המתקשרות באמצעות שליחת פולסים חשמליים דרך החיווט העצבי. באופן דומה, ANN מדמה במחשב רשת של נוירונים כשהם נדלקים ומכבים בתגובה לאותות נוירונים אחרים.

על ידי יישום אלגוריתמים המחקים את התהליכים של נוירונים אמיתיים, אנו יכולים לגרום לרשת ללמוד לפתור סוגים רבים של בעיות. גוגל משתמשת ב- ANN רב עוצמה בזכות המפורסם שלה כיום פרויקט חלום עמוק שבו מחשבים יכולים לסווג ואף ליצור תמונות.

הקבוצה שלנו חוקרת את המערכת החיסונית, במטרה למצוא טיפולים חדשים לסרטן. השתמשנו במודלים חישוביים של ANN לחקר קודי חלבון משטח קצרים שתאי החיסון שלנו משתמשים בהם כדי לקבוע אם משהו זר לגוף שלנו ולכן יש לתקוף אותו. אם נבין יותר כיצד תאי החיסון שלנו (כגון תאי T) מבדילים בין תאים נורמליים/עצמיים לחריגים/זרים, נוכל לתכנן חיסונים וטיפולים טובים יותר.

סרקנו קטלוגים זמינים לציבור של אלפי קודי חלבון שזוהו על ידי חוקרים לאורך שנים. חילקנו את קבוצת הנתונים הגדולה לשניים: קודים נורמליים של חלבון עצמי שמקורם בתאים אנושיים בריאים, וקודי חלבון חריגים שמקורם בנגיפים, גידולים וחיידקים. לאחר מכן פנינו לרשת עצבית מלאכותית שפותחה במעבדה שלנו.

ברגע שהזנו את קודי החלבון ל- ANN, האלגוריתם הצליח לזהות הבדלים מהותיים בין קודי חלבון רגילים וחריגים. לאנשים יהיה קשה לעקוב אחר תופעות ביולוגיות מסוג זה - יש ממש אלפי קודי חלבון אלה לנתח במערך הנתונים הגדול. נדרשת מכונה כדי לסבך את הבעיות המורכבות הללו ולהגדיר ביולוגיה חדשה.

תחזיות באמצעות למידת מכונה

היישום החשוב ביותר של למידת מכונה בביולוגיה הוא התועלת שלה בניבוי תחזיות המבוססות על נתונים גדולים. תחזיות מבוססות מחשב יכולות להבין את הנתונים הגדולים, לבדוק השערות ולחסוך זמן יקר ומשאבים.

למשל, בתחום הביולוגיה שלנו של תאי T, הידיעה לאיזה קוד חלבון ויראלי למקד היא קריטית בפיתוח חיסונים וטיפולים. אבל יש כל כך הרבה קודי חלבון בודדים מכל וירוס נתון שזה מאוד יקר וקשה לבדוק כל אחד מהניסויים.

במקום זאת, הכשרנו את הרשת העצבית המלאכותית כדי לסייע למכונה ללמוד את כל המאפיינים הביוכימיים החשובים של שני סוגי קודי החלבון-נורמלי לעומת לא נורמלי. אחר כך ביקשנו מהמודל "לחזות" אילו קודי חלבון ויראליים חדשים דומים לקטגוריה "לא תקינה" וניתן לראות אותם על ידי תאי T ובכך, המערכת החיסונית. בדקנו את מודל ANN על חלבוני וירוסים שונים שמעולם לא נחקרו קודם לכן.

אין ספק, כמו תלמיד חרוץ להוט לרצות את המורה, הרשת העצבית הצליחה לזהות במדויק את רוב קודי החלבון המפעילים תאי T בתוך וירוס זה. כמו כן, בדקנו בניסוי את קודי החלבון שסימן כדי לאמת את הדיוק של תחזיות ה- ANN. באמצעות מודל רשת עצבי זה, יכול מדען כך לנבא במהירות את כל קודי החלבון הקצרים החשובים מנגיף מזיק ובדוק אותם לפיתוח טיפול או חיסון, במקום לנחש ולבדוק אותם בנפרד.

יישום למידת מכונה בתבונה

הודות לשיפור מתמיד, מדעי הנתונים הגדולים ולמידת המכונה הופכים יותר ויותר הכרחיים לכל סוג של מחקר מדעי. האפשרויות לשימוש במחשבים לאימון ולניבוי בביולוגיה הן כמעט אינסופיות. החל להבין איזה שילוב של סמנים ביולוגיים הם הטובים ביותר לגילוי מחלה ועד להבנת מדוע בלבד חלק מהחולים נהנים מטיפול מסוים בסרטן, כריית ערכות נתונים גדולות באמצעות מחשבים הפכה למסלול יקר למחקר.

כמובן שיש מגבלות. הבעיה הגדולה ביותר במדעי הנתונים הגדולים היא הנתונים עצמם. אם הנתונים המתקבלים על ידי מחקרי -אומי אינם תקינים מלכתחילה או מבוססים על מדע גרוע, המכונות ילמדו על נתונים גרועים -מה שמוביל תחזיות גרועות. התלמיד טוב רק כמו המורה.

מכיוון שמחשבים אינם רגישים (עוד), הם יכולים בחיפושם אחר דפוסים לבוא איתם גם כאשר אף אחד לא קיים, ולגרום שוב לנתונים גרועים ולמדע שאינו ניתן לשחזור.

וכמה חוקרים העלו חששות לגבי הופכת מחשבים קופסאות שחורות של נתונים למדענים שאינם מבינים בבירור את המניפולציות והעיכולים שהם מבצעים בשמם.

למרות בעיות אלה, היתרונות של נתונים גדולים ומכונות ימשיכו להפוך אותם לשותפים בעלי ערך במחקר מדעי. בהתחשב באזהרות, אנו מוכנים באופן ייחודי להבין את הביולוגיה דרך עיניה של מכונה.

על המחברשיחה

סרי קרישנה, ​​מועמד לתואר שלישי, עיצוב ביולוגי, בית הספר להנדסת מערכות ביולוגיות ובריאות, אוניברסיטת מדינת אריזונה ודייגו צ'ואל, סטודנט לתואר שלישי במתמטיקה שימושית, אוניברסיטת מדינת אריזונה.

מאמר זה פורסם במקור ב שיחה. קרא את מאמר מקורי.


ספר קשור:

at InnerSelf Market ואמזון