מדע נתונים עצבי: איך ולמה

המדריך הגס לביצוע מדעי נתונים על נוירונים

מוח שעוסק במדעי נתונים. קרדיט: מוח מאת מאט וואסר מפרויקט הון

בשקט, בהתגנבות, סוג חדש של מדעי המוח קורם עור וגידים. מתוך שלל דרגות התיאורטיקנים עלו צוותים של מדעני המוח העוסקים במדעים עם נתונים על פעילות עצבית, על שקעים דלילים של מאות נוירונים. לא יצירת שיטות לניתוח נתונים, אם כי כולם גם עושים זאת. לא איסוף הנתונים האלה, לשם כך נדרש מערך מיומנות אחר, אימתני. אך מדעני המוח משתמשים במכלול המלא של טכניקות חישוב מודרניות על אותם נתונים כדי לענות על שאלות מדעיות אודות המוח. מדע נתונים עצבי התגלה.

מסתבר שאני אחד מהם, השבט הזה של מדעני נתונים עצביים. בטעות. למיטב הבנתי, כך נולדים כל התחומים המדעיים: בטעות. חוקרים עוקבים אחר אפם, מתחילים לעשות דברים חדשים ולפתע מגלים שיש המון קטן מהם במטבח במסיבות (כי זה המקום בו המשקאות נמצאים, במקרר - מדענים חכמים). אז הנה מניפסט קטן למדעי נתונים עצביים: מדוע הוא מתגלה ואיך אנו יכולים להתחיל לעשות זאת.

הסיבה זהה לכל תחומי המדע שרווחו מדע נתונים: כמות הנתונים יוצאת מכלל שליטה. עבור המדע של הקלטת המון נוירונים, למערך הנתונים הזה יש רציונל מדעי, מסוגים שונים. המוח פועל באמצעות העברת מסרים בין נוירונים. מרבית ההודעות הללו נעשות בצורת קטניות קטנטנות של חשמל: דוקרנים, אנו מכנים אותם. אז לרבים זה נראה הגיוני שאם אנחנו רוצים להבין איך המוח עובד (ומתי הם לא עובדים) אנחנו צריכים לתפוס את כל ההודעות המועברות בין כל הנוירונים. וזה אומר להקליט כמה שיותר דוקרנים מכמה שיותר נוירונים.

למוח דג הזברה התינוק יש כ -130,000 נוירונים, ולפחות מיליון קשרים ביניהם; במוח הדבורה יש כמיליון נוירונים. אתה יכול לראות איך זה ייצא מכלל שליטה מהר מאוד. כרגע אנו מקליטים איפשהו בין עשרות לכמה מאות נוירונים בו זמנית באמצעות ערכה סטנדרטית. בגבול הם אנשים שמקליטים אלפים בודדים, ואפילו מעטים מקבלים עשרות אלפים (אם כי הקלטות אלה לוכדות את פעילות הנוירונים בקצב איטי בהרבה מכפי שהנוירונים יכלו לשלוח את הדוקרנים שלהם).

אנו מכנים מערכות טירוף זה מדעי עצב: מדעי המוח, לחקר נוירונים; מערכות, על כך שהעזו להקליט מיותר מנוירון אחד בכל פעם. והנתונים מורכבים מכופף. יש לנו עשרות עד אלפי סדרות זמן מוקלטות בו זמנית, כל זרם של אירועי דוקרני (קוצים בפועל, או מידה עקיפה שלהם) מנוירון אחד. בהגדרה, הם אינם נייחים, הסטטיסטיקה שלהם משתנה עם הזמן. שיעורי הפעילות שלהם התפשטו על פי סדר גודל גדול, החל מהרהור שקט דמוי נזיר ועד "ערכת תוף במנהרת רוח". ודפוסי הפעילות שלהם נעים בין סדירות דמוית שעון, לגמגום ולחליקות, לסירוגין בין התקפי מאניה לבין התקפי תשישות.

עכשיו תתחתן עם זה להתנהגות של החיה שרשמת מהם את הנוירונים. התנהגות זו הינה מאות ניסויים של בחירות; או תנועות זרוע; או מסלולי נסיעה בסביבה. או תנועה של איבר חוש, או תנוחת השרירים כולה. חזור על מספר בעלי חיים. יתכן כי אזורי מוח מרובים. ולפעמים מוח שלם.

אין לנו אמת-קרקע. אין תשובה נכונה; אין תוויות אימונים לנתונים, פרט להתנהגות. איננו יודעים כיצד המוח מקודד התנהגות. כך שנוכל לעשות דברים עם תוויות התנהגותיות, אך כמעט תמיד אנו יודעים שאלו אינם התשובה. הם רק רמזים ל"תשובה ".

מדעי המוח המערכותיים הם אז גן שעשועים עשיר עבור מי שיכול להתחתן עם הידע שלו במדעי המוח אל הידע שלהם לניתוח נתונים. מדע נתונים עצבי נולד.

איך זה - או אפשר לעשות זאת? להלן מדריך גס. הגירוש של מדען הנתונים העצביים הוא לשאול שאלות מדעיות של נתונים ממדעי המוח של המערכת; לשאול: איך כל הנוירונים האלה עובדים יחד כדי לעשות את הדבר שלהם?

ישנן בערך שלוש דרכים בהן אנו יכולים לענות על שאלה זו. אנו יכולים לראות את שלוש הדרכים הללו על ידי התבוננות בהתאמה בין מחלקות מבוססות של בעיות בלימוד מכונה ואתגרים חישוביים במדעי המוח המערכותיים. נתחיל בבחינת מה יש לנו לעבוד עם.

יש לנו כמה נתונים מ- n עצבים שאספנו לאורך זמן. אנו גוש אלה למטריצה ​​נקרא X - כמה שיותר עמודות כמו נוירונים, וכמה שורות כמו נקודות זמן שרשמנו (איפה זה תלוי בנו כמה זמן "נקודת זמן" נמשכת: ייתכן הפוך את זה לקצר ופשוט שיהיה רשומה של כל רשומות כ -1 לספייק, ו- 0 אחרת. או שאנחנו עשויים להאריך אותה, וכל רשומה רושמת את מספר הדוקרנים במהלך הזמן שחלף). במשך הזמן הזה דברים קורים בעולם - כולל מה שהגוף עשה. אז בואו נכניס את כל זה למטריצה ​​נקרא S - כמה שיותר עמודות יש תכונות בעולם שאכפת לנו ממנו, וכמה שורות כמו נקודות זמן שרשמנו עבור אותן תכונות.

באופן מסורתי, למידת מכונה כוללת בניית שלוש כיתות של דגמים העוסקים במצב העולם והנתונים הזמינים: יצירתיות, מפלה וצפיפות. כמדריך מחוספס, טבלה זו מראה כיצד כל כיתה מתאימה לשאלה מהותית במדעי המוח של המערכת:

1 / דגמי צפיפות P (X): האם יש מבנה בדוקרנים? נשמע משעמם. אך למעשה זהו המפתח לחלקים גדולים של מחקר מדעי המוח, בהם אנו רוצים לדעת את ההשפעה של משהו (תרופה, התנהגות, שינה) על המוח; בו אנו שואלים: כיצד השתנה מבנה הפעילות העצבית?

בעזרת הקלטה של ​​חבורה של נוירונים, אנו יכולים לענות על כך בשלוש דרכים.

ראשית, אנו יכולים לכמת את הרכבת הדוקרנית של כל נוירון, על ידי מדידת הסטטיסטיקה של כל טור ב- X, כמו קצב הדוקרנות. ואז תשאלו: מה המודל P (X) לסטטיסטיקה הזו? אנו יכולים לאסוף נתונים סטטיסטיים אלה כדי למצוא "סוגים" של נוירון; או פשוט להתאים דגמים לכל ההפצה המשותפת שלהם. כך או כך, יש לנו מודל כלשהו של מבנה הנתונים בגרגיריותם של נוירונים בודדים.

שנית, אנו יכולים ליצור מודלים יצירתיים של פעילות האוכלוסייה כולה, באמצעות שורות ה- X - הווקטורים של הפעילות ברגע לרגע של כל האוכלוסייה. מודלים כאלה מכוונים בדרך כלל להבין כמה ניתן ליצור מחדש את מבנה ה- X מכמה אילוצים בודדים, בין אם מדובר בהתפלגות של כמה וקטורים עם כמה דוקרנים; או המתאמים בזוגות בין נוירונים; או שילובים ביניהם. אלה מועילים במיוחד לאימון אם יש רוטב מיוחד בפעילות האוכלוסייה, אם זה יותר מאשר הפעילות הקולקטיבית של מערכת עצבים עצמאיים או פשוט משעממים.

שלישית, אנו יכולים לנקוט בעמדה כי הפעילות העצבית ב- X היא מימוש ממדי גבוה של חלל ממדי נמוך, בו מספר הממדים D << n. בדרך כלל אנו מתכוונים לכך: כמה נוירונים ב- X קשורים זה לזה, ולכן איננו צריכים להשתמש ב- X כולו כדי להבין את האוכלוסייה - במקום זאת אנו יכולים להחליף אותם בייצוג פשוט בהרבה. אנו עשויים לאחוז ישירות את סדרות הזמן, כך שמתפרקות את X למערך N מטריצות קטנות יותר X_1 ל- X_N, שלכל אחת מהן יש (יחסית) קשרים חזקים בתוכה, וכך ניתן לטפל באופן עצמאי. לחלופין, אנו עשויים להשתמש בגישה כלשהי של צמצום ממדים כמו ניתוח רכיבים עיקריים, כדי לקבל סדרה קטנה של סדרות זמן המתארות כל אחת צורות דומיננטיות שונות בפעילות האוכלוסייה לאורך זמן.

אנחנו יכולים לעשות יותר מזה. האמור לעיל מניח שאנחנו רוצים להשתמש בצמצום ממדים כדי לקרוס נוירונים - שאנחנו מיישמים הפחתה על העמודות של X. אבל נוכל באותה קלות להתמוטט בזמן, על ידי החלת הפחתת ממד על שורות ה- X. במקום לשאול אם הפעילות העצבית מיותרת. , זה נשאל אם ברגעים שונים בזמן יש דפוסים דומים של פעילות עצבית. אם יש רק קומץ כאלה, ברור שהדינמיקה של הנוירונים המוקלטים היא מאוד פשוטה.

אנו יכולים להשליך גם גישות מערכות דינמיות. כאן אנו מנסים להתאים דגמים פשוטים לשינויים ב- X לאורך זמן (כלומר מיפוי משורה אחת לשנייה), ומשתמשים במודלים אלה בכדי לכמת את סוגי הדינמיקה ש- X מכיל - בעזרת מונחים כמו "מושך", "separatrix", " צומת אוכף "," שיפוץ קלשון ", ו"התמוטטות ארסנל" (רק אחד כזה אינו דבר אמיתי). אפשר לטעון, באופן סביר, כי הדגמים הדינאמיים המותאמים כך הם כולם דגמי צפיפות P (X), מכיוון שהם מתארים את מבנה הנתונים.

לעזאזל, נוכל אפילו לנסות להתאים מודל דינמי שלם של מעגל עצבי, חבורה של משוואות דיפרנציאליות המתארות כל נוירון, ל- X, כך שנדגם הדגם שלנו P (X) בכל פעם שאנחנו מפעילים את המודל מתנאים ראשוניים שונים .

בעזרת דגמי צפיפות אלה אנו יכולים להתאים אותם בנפרד לפעילות העצבית שרשמנו בקבוצה של מצבים שונים (S1, S2,…, Sm), ולענות על שאלות כמו: כיצד מבנה אוכלוסיית נוירונים משתנה בין שינה ל מתעורר? או במהלך התפתחות החיה? או במהלך לימוד משימה (שם S1 עשוי להיות ניסוי 1, וניסוי S2 2; או S1 הוא מפגש 1 ו- S2 מפגש 2; או שילובים רבים שלהם). אנו יכולים גם לשאול: כמה ממדים משתנה פעילות נוירון? האם הממדים שונים בין אזורים שונים בקליפת המוח? ומישהו ראה את המפתחות שלי?

2 / מודלים Generative P (X | S): מה גורם לדוקרן? עכשיו אנחנו מדברים. דברים כמו דגמים לינאריים לא לינאריים, או מודלים לינאריים כלליים. בדרך כלל מודלים אלה מיושמים על תאי עצב בודדים, על כל טור ב- X. בעזרתם אנו מתאימים מודל שמשתמש במצב העולם S כקלט, ומפזר סדרת פעילות עצבית התואמת את פעילות הנוירון ככל האפשר. בשלב זה בודקים את המשקלל הניתן לכל תכונה ב- S בהתרבות הפעילות של הנוירון, נוכל להבין מה נראה שהנוירון הזה נותן לעזאזל.

יתכן שנרצה לבחור במודל שיש בו גמישות מסוימת במה שנחשב "מדינת העולם". אנו יכולים לכלול את פעילות העבר עצמה של הנוירון כתכונה, ולראות אם אכפת לו ממה שהיא עשתה בעבר. עבור סוגים מסוימים של נוירון, התשובה היא כן. התפרצות יכולה להוציא הרבה מנוירון, והיא צריכה לשכב למנוחה קטנה לפני שהיא תוכל לעבור שוב. אנו יכולים גם לחשוב באופן רחב יותר, ולכלול את שאר האוכלוסייה - שאר ה- X - כחלק ממצב העולם S בזמן שהנוירון יורה. אחרי הכל, נוירונים משפיעים מדי פעם על ירי זה של זה, או כך אני מוביל להאמין. אז יש סיכוי זעיר שהתגובה של נוירון בקליפת המוח חזותית אינה מונעת רק על ידי התמצאות של קצה בעולם החיצון, אלא עשויה להיות תלויה גם במה שעושים גם 10000 תאי העצב המתחברים אליו. מה שאנו לומדים הוא הנוירונים המשפיעים בערך באוכלוסיה.

איננו צריכים להחיל את המודלים הדורניים הללו על נוירונים בודדים. אנו יכולים להחיל אותם באותה מידה על דגמי הצפיפות שלנו; אנו יכולים לשאול מה מקודד כל אשכול, או ממד כלשהו, ​​לגבי העולם. או כמו שכמה אנשים עשו כאן, אנו יכולים להשתמש במודל הצפיפות עצמו כמדינת העולם, ולשאול אילו תכונות של אותו מודל עצב במורד הזרם מעניקים לעזאזל.

סוגי השאלות עליהן אנו יכולים לענות באמצעות מודלים יצירתיים אלו די ברורות: איזה שילוב של תכונות מנבא בצורה הטובה ביותר את תגובת הנוירון? האם יש נוירונים בררניים רק לדבר אחד? איך נוירונים משפיעים זה על זה?

3 / מודלים מפלים P (S | X): איזה מידע נושאים דוקרנים? זוהי שאלה מרכזית במדעי המוח המערכות שכן מדובר באתגר העומד בפני כל הנוירונים הנמצאים במורד הזרם מהאוכלוסייה המוקלטת שלנו - כל הנוירונים שמקבלים תשומות מהנוירונים שרשמנו מהם וממלאים אותם במטריקס X. על אותם נוירונים במורד הזרם חייבים להסיק מה הם צריכים לדעת על העולם החיצוני המבוסס אך ורק על קוצים.

כאן אנו יכולים להשתמש בסווגים סטנדרטיים, המפנים קלט לפלטים המסומנים. אנו יכולים להשתמש בשורות של X כקלט, כל אחת מהן תמונת מצב של פעילות האוכלוסייה, ולנסות לחזות תכונה אחת, חלקן או כל אותן בשורות המקבילות של S. אולי עם עיכוב זמן כלשהו, ​​ולכן אנו משתמשים בשורה X_t כדי לחזות את המצב S_t-n שהיה n צעדים בעבר אם אנו מעוניינים כיצד אוכלוסיות קוד מצבים המוזנים למוח; או שנוכל להשתמש בשורה X_t כדי לחזות את המצב S_t + n שהוא צעדים n בעתיד אם אנו מעוניינים כיצד אוכלוסיות מקודדות השפעה מסוימת של המוח על העולם. כמו הפעילות בקליפת המוח שקורה לפני שאני מקליד כל אות ברגע זה.

כך או כך, אנו לוקחים כמה (אך לא את כולם, מכיוון שאיננו מגזים מדי) בשורות של X, ומתאמנים את המסווג למצוא את המיפוי הטוב ביותר האפשרי של X לנתח המקביל של S. ואז אנו בודקים את המסווג עד כמה הוא יכול חזה את שאר S משאר המקביל ל- X. אם יש לך מזל יוצא דופן, ה- X ו- S שלך עשויים להיות כה ארוכים עד שאתה מסוגל לחלק אותם לתכניות רכבת, בדיקה ותיקוף. שמור את האחרון בקופסה נעולה.

נוכל כמובן להשתמש בסיווג חזק ככל שתרצה. מרגרסיה לוגיסטית, דרך גישות בייסיות, לשימוש ברשת עצבית בת 23 שכבות. זה תלוי יותר במה שאתה רוצה מהתשובה, והמחליף בין הפרשנות לכוח שאתה מרגיש בנוח עם. הכתבים שלי במקומות אחרים הבהירו באיזה צד של חילופי דברים אלה אני נוטה להעדיף. אבל אני שמחה שהוכח לי שגוי.

מודלים מקודדים של תאי עצב הם תובנות, אך נוגעים בכמה משברים פילוסופיים ישנים ועמוקים. בדיקת קידוד באמצעות מודל מפלה מניחה שמשהו במורד הזרם מנסה לפענח את S מפעילות עצבית. ישנן שתי בעיות עם זה. נוירונים אינם מפענחים; נוירונים לוקחים דוקרנים כקלט ומפיצים את הדוקרנים שלהם. במקום זאת, הם מקודדים מחדש, ממערכת דוקרנים אחת למערך דוקרנים אחר: אולי פחות, או איטי יותר; אולי יותר, או מהיר יותר; אולי מזרם קבוע לתנודה. אז מודלים מפלים שואלים בצורה מדויקת יותר איזה מידע נוירונים שלנו מקודדים מחדש. אבל גם אם ניקח עמדה זו, יש בעיה עמוקה יותר.

עם מעט מאוד חריגים, אין דבר כזה נוירון "במורד הזרם". הנוירונים שהקלטנו ב- X הם חלק מהמוח המחוטב המסובך, מלא לולאות אינסופיות; התפוקה שלהם משפיעה על הקלט שלהם. גרוע מכך, חלק מהנוירונים ב- X הם במורד הזרם מהאחרים: חלקם מוזנים ישירות לאחרים. מכיוון שכאמור נוירונים משפיעים זה על זה.

מניפסט גס, אולי שימושי, למדע נתונים עצבי. זה לא שלם; אין ספק שמשהו לעיל אינו כשורה (תשובות על גלויה לכתובת הרגילה). האמור לעיל הוא ניסיון לסנתז את עבודתם של קבוצת מעבדות עם אינטרסים שונים מאוד, אך כונן נפוץ להשתמש במודלים מסוג זה על סטים גדולים של נתונים עצביים כדי לענות על שאלות עמוקות כיצד פועל המוח. רבים מאלו הם מעבדות נתונים, צוותים המנתחים נתונים ניסויים כדי לענות על שאלותיהם שלהם; אם למנות כמה - כרית ג'ונתן; כריסטיאן מאצנס; קונרד קורדינג; קנאקה רג'אן; ג'ון קנינגהם; אדריאן פיירהול; פיליפ ברנס; סיאן אודונל; פארק איל מימינג; ג'ייקוב מאקה; גאספר טקצ'יק; אוליבר מאר. אממ, אני. אחרות הן מעבדות ניסוי עם נטיות חזקות למדעי הנתונים: אן צ'רסלנד; מארק צ'רסלנד; ניקול רוסט; קרישנה שנוי; קרלוס ברודי; רבים אחרים אני מתנצל על שלא שמתי.

ישנם כנסים שבהם עבודה מסוג זה מתקבלת בברכה, ואף לא מעודדת אותם. יומן למדעי נתונים עצביים בדרך. משהו בונה. היכנס, הנתונים מקסימים *.

* כן הייתי צריך להתייחס לנתונים כיחיד כדי לגרום לבדיחה הזבל הזו לעבוד. העובדה שאני כותב את הערת שוליים זו כדי להסביר זאת תתן לך מושג לגבי תשומת הלב המהירה לפרטי נתונים עצביים שמצפים מדענים.

רוצה יותר? עקוב אחרינו בספייק

טוויטר: @ markdhumphries