הגישה החדשה של OpenAI ללמידה בחיקוי חד פעמי, הצצה לעתיד AI

לימוד חיקוי חד-פעמי יאן דואן, מרסין אנדריצ'וביץ ', בראדי סי סטאדי, ג'ונתן הו, ג'ונאס שניידר, איליה סוצקבר, פיטר אבבל, וויצ'ך זארמבה

ב- 16 במאי שיתפו חוקרי OpenAI סרטון וידאו של אחד הפרויקטים שלהם יחד עם שני מאמרים בעלי חשיבות הבוחנת פתרונות לשלושה צווארי בקבוק עיקריים בהתפתחות AI הנוכחית: למידת מטה, למידה חד פעמית ויצירת נתונים אוטומטית. בפוסט הקודם שלי הבטחתי מאמר המוקדש לבעיה המרתקת של לימוד חד פעמי, אז הנה. תוכלו להתחיל להסתכל בסרטון הווידיאו שהם פרסמו המסביר את עבודתם המדהימה:

בסרטון זה אתה רואה רובוט פיזי אחד זרוע מערם קוביות זו על גבי זו. הכרת המשימות המורכבות שרובוטים תעשייתיים מסוגלים כיום לבצע, אם החוקר לא היה מנסה להסביר את המתרחש, על חשבונות רבים זה יהיה מדהים מאוד. בסביבה מבוקרת המשימה היא פשוטה, גישות פרוצדוראליות (מקודדות קשה) כבר פתרו את הבעיות הללו, מה שמבטיח ומהפכני הוא עד כמה המסגרת הכללית שמתחתיה יכולה להתאים את עצמה להתנהגויות מרובות, מורכבות ומסתגלות יותר בסביבות רועשות יותר.

ההבדל במוח בין האדם לבעלי החיים הגבוהים יותר, גדול ככל שיהיה, הוא ללא ספק בדרגה מסוימת ולא באדיבות.
- צ'ארלס דארווין

באופן אנלוגי, מאמר זה מהווה עדות חזקה לכך שההבדלים במערכות הקוגניטיביות בין ה- AI המגולמים הנוכחיים (בינה מלאכותית של מערכות פיזיקליות) לרובוטים של המאה ה -22 יהיו שונים בקנה מידה ולא מהסוג. מאז תחרות ImageNet 2012 *, פורח מחקר למידה מעמיקה, לא כל כך כדי לשנות את אופי החישוב המופץ שנעשה על ידי רשת עצבית, אלא על ידי מציאת דרכים חדשות לבנות רשתות על מנת שילמדו משימה ספציפית. עבור פונקציה של רשת עצבית היא מבנה, מבנה זה אינו מקודד קשה (לא תוכנן בעבודת יד) אך הוא התוצאה של יחידות חישוב אטומיות המחוברות בתחילה בין כניסות ויציאות, המסוגלות לשנות את המבנה והחיבור שלהם. זה על ידי שינוי המבנה הכולל של הרשת שהיא לומדת פונקציה ספציפית.

במאמר זה הם בנו מסגרת כללית המסוגלת להכשיר סוכן לייצג משימות בצורה מופשטת, וללמוד להעביר את הידע הזה למשימות חדשות ובלתי נראות (העברת למידה) לאחר הדגמה אחת בלבד של המשימה החדשה (למידה חיקוי אחת).

המשימות

למרות שהיישום האדריכלי המדויק שונה, הם לוקחים שתי משימות כדוגמאות כדי להראות את ביצועי הגישה הכללית.

חלקיקים מגיעים

בדוגמה הראשונה המערכת מקבלת כניסות של עמדות יעד צבעוניות במטוס והדגמת וידיאו בודדת של הסוכן המדמה שהולך ליעד שצוין.

איור 2. הרובוט הוא מסת נקודה הנשלטת עם כוח דו ממדי. משפחת המשימות היא להגיע לנקודת ציון יעד. זהות נקודת ציון שונה ממשימה למשימה, והמודל צריך להבין לאיזה מטרה להמשיך בהתבסס על ההפגנה. (משמאל) איור של הרובוט; (אמצע) המשימה היא להגיע לתיבה הכתומה, (מימין) המשימה היא להגיע למשולש הירוק.

במהלך האימונים על המערכת לשחזר את אותה משימה (להגיע לכתום) אך מתצורה אחרת, עם עמדות התחלה שונות עבור הרובוט והמטרות. לא ברור אם במהלך הבדיקה הנבדק נבדק במשימה שעליו הוכשר (להגיע כתום) או במשימה שמעולם לא ראה (להגיע ירוק למשל) או את שניהם.

המדיניות המיומנת מוערכת על פי תרחישים חדשים ומתנה על מסלולי הדגמה חדשים שלא נראו במהלך האימונים.

בטוח שהסוכן צריך להסיק את יעד המטרה מהדגמה ייחודית ולהתחיל שוב מתצורה אחרת. זה מרמז שלא ניתן היה ללמוד את הרצף המוטורי המדויק לפני הבדיקה ויש להסיק ממנו באמצעות הפשטה (ייצוג מובנה ברמה גבוהה יותר) של המשימה ותכנון מוטורי.

חסימת ערימה

בדוגמה השנייה הסוכן צריך ללמוד לערום קוביות (המזוהות על ידי צבעים שונים) בסדר זהה לזה שמוצג בהדגמה מדומה אחת. הדגמה מדומה זו היא סדרה של תמונות דו מימדיות שנוצרו על ידי מנוע פיסיקה תלת מימדית, בהן מתכננים את המאפיינים של המנוע והמנגנון החושי של הרובוטים.

מדיניות חד-פעמית. מדיניות יחידה שהוכשרה לפתור משימות רבות. המשימה העליונה: {abc, def}, המשימה התחתונה: {ab, cd, ef}

בשתי הדוגמאות המיקומים הראשוניים של הקוביות בהפגנה ובמבחן האמיתי שונים, כל משימה מתחילה ממיקום התחלתי אחר. הרובוט לא מנסה להחליף את הקוביות כך שתתאים למיקום ההתחלתי של ההפגנה, הוא מעביר את המשימה ברמה הגבוהה יותר של ערימת הקוביה בכל מצב שהוא מתחיל בו.

הדרכה באמצעות אקראיות של תחום

בשני המקרים כל התמונות שמשתמשות במהלך אימונים מתקבלות באמצעות הדמיה באמצעות אקראיות של תחום בהן הן יסדרו את האספקטים הבאים של הדגימות באופן אקראי:

מספר וצורה של חפצי מסיחים על השולחן מיקום ומרקם של כל האובייקטים על השולחן מרקמים של השולחן, הרצפה, סקייבוקס ורובוט מיקום, כיוון ושדה הראיה של המצלמה מספר האורות בסצינה מיקום, כיוון, ומאפיינים ספקולאריים של האורות סוג וכמות הרעש האקראי שנוסף לתמונות

סט אימונים להגעה לחלקיקים

אנו לוקחים בחשבון מערך קשה יותר ויותר של משפחות משימות, שבהן מספר ציוני הדרך עולה מ -2 ל -10. עבור כל משפחת משימות אנו אוספים 10000 מסלולי הדרכה לאימונים, בהם עמדות ציוני הדרך והמיקום ההתחלתי של רובוט הנקודה אקראיים. אנו משתמשים במדיניות מומחים בקידוד קשה כדי לייצר הפגנות ביעילות. אנו מוסיפים רעשים למסלולי התהליך על ידי הפרעה של הפעולות המחושבות לפני יישוםן על הסביבה, ואנחנו משתמשים בשיבוט התנהגותי פשוט כדי להכשיר את מדיניות הרשת העצבית.

סט אימונים לערימת בלוקים

באופן קונקרטי, אנו אוספים 140 משימות אימונים ו -43 משימות בדיקה, כאשר לכל אחת מהן מתווה רצוי שונה של הבלוקים. מספר החסימות בכל משימה יכול להשתנות בין 2 ל -10. אנו אוספים 1000 מסלולי מסלול לכל אימונים ומקיימים מערך נפרד של מסלולי תצורה ראשוניים שישמשו להערכה. בדומה למשימה שמגיעה לחלקיקים, אנו מזריקים רעש לתהליך איסוף המסלול. מסלולי התהליך נאספים באמצעות מדיניות בקידוד קשה.

הפגנות מוצלחות נאספות באמצעות מדיניות בקידוד קשה

שים לב שבלימוד מסלולי הדרך הנכונים נוצרים על ידי מדיניות "מקודדת" פרוצדורלית, שלדעתי מסתמכת על טכניקות קלאסיות לזיהוי ובקרת מערכות. אז במהלך אימונים ובדיקה לסוכן יש שתי כניסות: א) הדגמה בתצורה A, וב) תצורת התחלה B. במהלך אימונים בלבד, לאלגוריתם הלמידה יש ​​גם גישה לתגובה אידיאלית: מסלול שמתחיל מתצורה B ש עונה על הבעיה ואיתה תשווה את תגובת הסוכן במהלך הלמידה - מה שהופך אותה לבעיית למידה בפיקוח.

לכל משימת אימונים אנו מניחים שהזמינות של מערכת הפגנות מוצלחות.

אם זה לא ברור, אעבור על ההבדלים בין הסוגים השונים של פרדיגמות הלמידה בחלק הבא.

פונקציית אלגוריתם ואופטימיזציה

למידה בפיקוח מתייחסת לפרדיגמות אימוניות בהן בכל החלטה יש לרשת גישה לבחירה הנכונה שהיה עליו לעשות, ומכאן לרעיון הטעות. לדוגמה במשימת סיווג בין כלבים לחתולים ידוע מראש תווית התמונות של כלבים וחתולים במהלך אימונים והטעויות מתגלות באופן מיידי. במובן זה זה שונה מלמידה ללא פיקוח, כאשר באופן כללי הסוכן מתבקש למצוא מבנה שלא היה ידוע בעבר בתשומות שהוא מקבל, וללא תוויות של חתולים וכלבים היה צריך לגלות שיש שני אשכולות של חפצים שונים בלבד המבוססים על המידע הכלול בנתונים. זה גם שונה מלימוד חיזוק שמתייחס לעתים קרובות למערכת בזמן אמת שבה רצף ההחלטות המדויק המוביל למטרה אינו ידוע, אך רק "תגמול" סופי יחליט אם הרצף היה נכון או לא. בעזרת למידת חיקוי הם הופכים בעיית לימוד חיזוק קלאסית לבעיית למידה מפוקחת, בה המחושב שגיאה ממרחק למסלול שנצפה.

כפי שקורה בכל הגדרת אימונים בפיקוח, המשימה העומדת בפניך מוגדרת לחלוטין על ידי פונקציית האובדן, שמטרתה לכמת עד כמה התרחק הסוכן מההתנהגות המיועדת. הגדרת פונקציה זו היא לרוב הצעד הקריטי, מכיוון שהיא קובעת כיצד אלגוריתמי האופטימיזציה מעדכנים את הפרמטרים של המודל. אלגוריתמים אלו חשובים מבחינת זמן החישוב, ולעתים קרובות הם מצריכים התאמות מסוימות בכדי להיות מסוגלים להתכנס, אם בכלל. אכן הפתרונות שיפחיתו את הפונקציה במימד גבוה מאוד שוכנים במעטפת קטנה מאוד של חלל הפרמטרים, עם מרחק פטיש קטן ביניהם, ברגע שתתרחקו מאותו דומיין קטן המרחק בין הפתרונות גדל במהירות. יש הרבה מאוד עבודה מעניינת מאוד בנושא זה שנעשתה בין השאר על ידי ג'ניפר צ'ייס המדהימה מאוד, היא מצחצחת את הנושא בראיון מאוד מעניין בפרק האחרון של מכונות מדברות.

במהלך אימון רשתות המדיניות (הרשת כולה, המסוגלת להחליט מתוך קלט איזו פעולה לנקוט) הם מעבדים תחילה את מסלול ההפגנה המוצלח. עבור חלק זה הם ישוו בין שתי גישות, השיבוט ההתנהגותי הקלאסי (לא בדיוק בטוח ביישום בו השתמשו) ואלגוריתמי DAGGER. לאחר מכן זה יאפשר למזער את איטרטיבי של פונקציית האובדן באמצעות L2 או אובדן צולב אנטרופיה על סמך האם פעולות רצופות או בדידות (בהתבסס על התפלגות אירועים ברצף). בכל הניסויים הם השתמשו באלגוריתם Adamax כדי לבצע את האופטימיזציה עם קצב למידה של 0.001.

גודל הצעד מתחיל בקטן ומתפורר באופן אקספוננציאלי.

האלגוריתם כשלעצמו אינו מאפשר העברה, כך אתה בונה את מערך האימונים שלך ואת פונקציית האובדן שלך שיאפשר העברה.

במשימות קיימים שני סוגים של העברות. הסוג הראשון מכונה "גישור על פער המציאות", מדובר בהכללה בלמידה המאפשרת העברת בין אימונים על תשומות מדומות לבדיקת גירויים טבעיים. נתוני סימולציה הם לרוב קירוב מרושש של העולם האמיתי, מושלם מדי, חסר במורכבות האובייקט האמיתי. בעולם האמיתי המצלמה עשויה להיות לקויה ורועשת יותר, השליטה המוטורית תהיה פחות מדויקת, הצבעים ישתנו, המרקמים יהיו עשירים יותר וכו 'כדי לאפשר העברה ראשונה זו הם משתמשים בשיטה שהם מכנים אותה "אקראית תחום" : על ידי הוספת רעש לתשומות הרשת יכולה ללמוד את המבנה הרלוונטי הנפוץ שיאפשר לה הכללה מתאימה לעולם האמיתי. הם למשל ישנו את זווית המצלמה בין דוגמאות אימונים, ישנו את המרקמים, או יהפכו את מסלולי המסלול להיות פחות מושלמים. על ידי הוספת רעש במהלך האימונים אנו מוסיפים איתנות.

ההעברה השנייה שנבדקה כאן היא היכולת לייצר רצף מוטורי רלוונטי בקבוצה של תצורה ומטרה שלא נראו בעבר, על סמך הדגמה יחידה שמתחילה בתצורה ראשונית אחרת אך עם מטרה סופית דומה. שוב כאן יתאפשר העברה על ידי האופן בו אנו בונים את מערך האימונים ומדגמים את פונקציית ההפסד. על ידי הצגת הדגמות במהלך אימונים שאינם מתחילים מאותו תנאי ראשוני בכדי להגיע למטרה דומה, אתה מאפשר לרשת ללמוד להטמיע ייצוג ברמה גבוהה יותר של המטרה מבלי להשתמש בעמדות מוחלטות, כמו גם ייצוג מסדר גבוה יותר של הרצף המוטורי שאינו חיקוי פשוט. הארכיטקטורה הראשונית התמימה מאפשרת לאימונים לשנות את המבנה בצורה רלוונטית, ומבנה מאומן זה מרמז על התפקיד הסופי.

יעדים

לפרדיגמת הערימת הבלוקים היו להם כמה אילוצים שהם רצו שסוכן הלמידה שלהם יעמוד.

זה אמור להיות קל ליישום למופעי משימות שיש להם מספר בלוקים משתנה.
זה צריך באופן טבעי להכליל לפרמוטציות שונות של אותה משימה. לדוגמה, על המדיניות לבצע ביצועים טובים במשימה {dcba}, גם אם היא מאומנת רק במשימה {abcd}.
זה אמור להכיל הדגמות באורכים משתנים.

היו להם כמה שאלות שהם רצו לענות על משימה זו.

כיצד משתלבים אימונים עם שיבוט התנהגותי עם DAGGER בהתחשב בכך שניתן לאסוף מספיק נתונים באופן לא מקוון?
כיצד ההתניה בהפגנה כולה משתווה להתניה בתצורה הסופית הרצויה, גם כאשר בתצורה הסופית יש מספיק מידע כדי לפרט את המשימה במלואה?
כיצד ההתניה בהפגנה כולה משתווה להתניה ב"תצלום מצולם "של מסלול, שהיא תת-קבוצה קטנה של מסגרות שהכי אינפורמטיביות ביותר
האם המסגרת שלנו יכולה להכליל בהצלחה לסוגים של משימות שמעולם לא ראתה במהלך האימונים? (++)
מהן המגבלות הנוכחיות של השיטה?

ארכיטקטורה

הגעה לחלקיקים

בדוגמה ראשונה זו הם השוו בין שלוש ארכיטקטורות שכולן מבוססות על רשתות עצביות לזיכרון ארוך טווח (LSTM). תיאור של רשת זו יעבור בפוסט עתידי על זיכרון ותשומת לב, שהם נושאים מרתקים לחלוטין הן במדעי הקוגניציה והן במדעי החישוב. למעשה, LSTM מזין תפוקות רשת קודמות (בזמן) כחלק מכניסת הרשת בכל נקודת זמן חדשה, ומאפשר למידע על מצבי עבר ליידע את ההווה (ומכאן שמם של רשתות זיכרון לטווח הקצר). הם עומדים בשורש טכנולוגיות חדישות רבות העוסקות בסדרות זמן (אלקסה, סירי וכו ').

כאן הם משתמשים בשלושת התנאים הספציפיים האלה:

  1. LSTM רגיל: לומד להטמיע את מסלול המסלול ואת המצב הנוכחי כדי להזין אותו לפרפטרון רב שכבתי שייצר את הפעולה המוטורית
  2. LSTM עם תשומת לב: לייצר ייצוג משוקלל על פני ציוני הדרך
  3. מצב סופי בתשומת לב: השתמש באימונים רק במצב הסופי בכדי לייצר שקלול על פני ציוני דרך, בדומה לארכיטקטורה הקודמת

חסימת ערימה

בעוד שבאופן עקרוני רשת עצבית גנרית תוכל ללמוד את המיפוי מהדגמה והתבוננות נוכחית לפעולה מתאימה, מצאנו שחשוב להשתמש בארכיטקטורה מתאימה. הארכיטקטורה שלנו ללימודי חסימת בלוקים היא אחת התרומות העיקריות של מאמר זה, ואנו מאמינים שהיא מייצגת את האופן שבו אדריכלות ללמידה בחיקוי חד פעמי של משימות מורכבות יותר עשויה להיראות בעתיד.

מודולי תשומת לב

המאמר נותר ברמה גבוהה יחסית בתיאור מבנה הרשתות המשמשות ללימוד המשימה. מרכיב עיקרי בארכיטקטורה הוא מודול הקשב שלהם, אך אני מאמין שנושא זה אכן זקוק לפרסום ספציפי העומק בפירוט בתפקידו המהותי. באנלוגיה לתפיסה המדעית הקוגניטיבית של תשומת לב מתמשכת, מודולי תשומת לב משמשים כדי לשמור ולהתמקד במידע רלוונטי הכלול על פני מרחב וזמן משתנים. הוא מפיק פלט בגודל קבוע המכיל הטבעה של תוכן מידע שנמתח בזמן ובמרחב. באנלוגיה לטופולוגיה, ענף של מתמטיקה שלדעתי יביא מידע רב על האופן בו אנו מבינים ייצוגים מבוזרים בעתיד, רשת תשומת לב מבצעת איזומורפיזם טופולוגי של מידע, אותה עקמומיות, צורה שונה. שים לב שרשת זו אינה ממלאת תפקיד של גלאי הבליחות המסוגל להתמקד באירועים בלתי צפויים או נדירים, שהיא פונקציה הקשורה לתפיסת הקשב במדעי המוח.

כאן הם משתמשים בשני סוגים של רשת קשב: א) רשת קשב זמנית המייצרת סכום משוקלל על פני תוכן (שאילתות, הקשר וקטורי זיכרון) המאוחסנים בזיכרון, וב) רשת קשב שכונתית המסוגלת לשחזר מידע יחסית לחסימה. מיקום בהתאם לשאילתה הנוכחית של הסוכן.

רשת תשומת לב זמנית, עם c: וקטור הקשר, m: וקטור זיכרון, ש: וקטור שאילתה, v: משקל וקטורי נלמד. הפלט הוא באותו גודל כמו וקטור הזיכרון. זהו שילוב ליניארי של אותם וקטורים המאפשר לווקטור זיכרון להשפיע יותר על הפלט על בסיס וקטורי ההקשר והשאילתה.אותו רעיון כאן, התחרות בין מידע מרחבי נשמרת באופן דינמי על ידי מערכת הקשב.

רשת המדיניות

הרשת השלמה מורכבת משלוש רשתות משנה שונות: רשת ההדגמה, רשת ההקשר ורשת המניפולציות.

רשת ההפגנה מקבלת מסלול הדגמה כקלט ומייצרת הטבעה של ההפגנה שתשמש את המדיניות. גודל ההטבעה הזה גדל באופן לינארי כפונקציה של אורך ההפגנה כמו גם מספר הבלוקים בסביבה.

כפי שמוצג כאן, רשת ההדגמות מסוגלת להטביע הדגמה של מורכבות וגודל משתנים לתבנית משותפת שתשמש את רשת ההקשר לייצוג המשימה. ככל הנראה כבר ברמה זו מתרחשת הכללה, הטמעת ההפגנה צריכה להשאיר מידע על מסלול המסלול המדויק ועל עמדות מוחלטות של הקוביה שנראו במהלך ההפגנות.

בהתבוננות במבנה רשת ההקשרים, אם כי מרמה גבוהה מאוד, אנו רואים את הממשק עם רשת ההפגנה המזין הטמעה של ההפגנה למודולי הקשב הזמני המרכזי. אנו רואים גם שפעולות קודמות (LSTM) ומצב נוכחי מוזנות כקלט שמושרף עם הטמעת ההפגנה כדי לייצר הטמעת הקשר עולמית שנשלחה לרשת המוטורית.

התיאור שלהם של פונקציית הרשתות הוא לדעתי החלק החשוב ביותר בעיתון:

רשת ההקשר מתחילה על ידי חישוב וקטור שאילתה כפונקציה של המצב הנוכחי, המשמש לאחר מכן לצורכי שלבי זמן שונים בהטבעת ההדגמה. משקלי תשומת הלב על בלוקים שונים באותו שלב זמן מסכמים יחד, כדי לייצר משקל יחיד לכל שלב. התוצאה של תשומת לב זמנית זו היא וקטור שגודלו פרופורציונאלי למספר הבלוקים בסביבה. לאחר מכן אנו מפנים תשומת לב שכונתית כדי להפיץ את המידע על גבי ההטבעות של כל בלוק. תהליך זה חוזר על עצמו מספר פעמים, כאשר המדינה מתקדמת באמצעות תא LSTM עם משקולות לא קשורות.
רצף הפעולות הקודם מייצר הטבעה שגודלה אינו תלוי באורך ההפגנה, אך עדיין תלוי במספר הבלוקים. לאחר מכן אנו מיישמים תשומת לב רכה סטנדרטית לייצור וקטורים בממד קבוע, כאשר תוכן הזיכרון מורכב רק ממיקומים של כל בלוק, שיחד עם מצבו של הרובוט מהווים את הקלט המועבר לרשת המניפולציה.
באופן אינטואיטיבי, למרות שמספר האובייקטים בסביבה עשוי להשתנות, בכל שלב של פעולת המניפולציה, מספר האובייקטים הרלוונטיים הוא קטן ובדרך כלל קבוע. עבור סביבת הערימת הבלוק באופן ספציפי, הרובוט צריך רק לשים לב למיקומו של הבלוק אותו הוא מנסה להרים (בלוק המקור), כמו גם למיקום הגוש אותו הוא מנסה להציב על גבי ( גוש היעד). לפיכך, רשת מאומנת כראוי יכולה ללמוד להתאים את המצב הנוכחי לשלב המקביל בהפגנה, ולהסיק את זהויות המקור ובלוקי היעד המובעים כמשקלי תשומת לב רכים על פני בלוקים שונים, המשמשים אז כדי לחלץ את העמדות המתאימות ל יועברו לרשת המניפולציות.

האופן בו הם מסיימים את התיאור שלהם הוא דוגמה מושלמת לסחף הנוכחי של מחקרי AI מגישה מערכתית מומחית לגישה של מערכת למידה, וזה גם רומז לדיון סביב התפתחות המוח למטה.

למרות שאיננו אוכפים פרשנות זו בהכשרה, ניתוח הניסוי שלנו תומך בפרשנות זו לאופן שבו המדיניות המלומדת עובדת באופן פנימי.

הם לא יודעים איך זה עובד! הם בונים מבנה שמסוגל לבצע חישוב מסוים ולאחסן מידע מסוים שלדעתנו מועיל א-פריורי, ומאכילים אותו מערך אימונים בתקווה שכל המבנה ילמד! יש מעין וודו של מחקר בינה מלאכותית בעלייה, אמנות, דרך לכוון את החיפוש היוריסטי בכיוון הנכון. ונראה שהרבה מאוד מהקוסמים האלה עובדים כעת ב- openAI.

במילים שלהם רשת המניפולציה היא המבנה הפשוט ביותר, החל מהטמעת ההקשר המוזנת לפרפטרון הרב שכבתי, נוצרת פעולה מוטורית.

תוצאות

תוצאות הן לעיתים קרובות חלק שעבורו אינני מעוניין במעט, במיוחד עבור אותם מאמרים טכניים מבריקים להפליא. אני אלך מהר, כאשר בשורה התחתונה הגישה הזו עובדת, היא מבצעת בדיוק דומה למדיניות המומחים בקידוד קשה, ובניגוד לגישה פרוצדורלית ספציפית זו, ניתן להכללה למגוון גדול של משימות.

הגעה לחלקיקים

חסימת חסימות

בניסויים אלה הם גם בדקו תנאים שונים. בעזרת DAGGER הם השוו בין שלוש מצבי קלט שונים על ידי דגימה למטה של ​​מסלול ההפגנה: מסלולי מסלול מלאים, תמונת מצב של מסלול הדרך, או שימוש רק במצב הסופי. הם גם השוו את אלגוריתם השיבוט התנהגותי עם מסלול ההפגנה המלא.

עדות חזקה ליכולת המערכת הכללה על פני זהות קוביה

דיון

מקריאת ההתקדמות בקצב המהיר שעשתה OpenAI בחודשים האחרונים, אני חש דחף הולך וגובר לדבר על עבודתם ולשתף את מחשבותיי על מה אני מאמין בעבודתם, ועל ההתקדמות בתחום AI בכללותו, ליידע את הבנתנו כיצד מוח ביולוגי עובד. בפרט הרעיון ההולך וגובר לפיו התפקודים הקוגניטיביים המשותפים לכאורה בין בני אדם אינם נובעים כל כך ממבנה משותף שיודע בפנימיות כיצד לבצע משימה, אלא במקום זאת תוצאה של מבנים תמימים דומים יחסית אשר התעמתו עם אותה סביבה, ללמוד לבצע משימות דומות. הפונקציה היא תוצאה של מבנה חסר פונקציה שמסוגל רק ללמוד משימה מסוימת בגלל סביבה ספציפית ולא מבנה שמסוגל לבצע את המשימה באופן טבעי, פשוט לצבוט כמה פרמטרים להתאמה לסביבה.

משימות לעומת תצורות: הגדרה שרירותית לכאורה

אני חייב להודות שאני לא מבין מדוע בחרו לדבר על משימות שונות כמו שעשו. משימה מוגדרת בניסוי הערמת הבלוקים כמערכת מיתרים המייצגים את מיקום הבלוקים ביחס זה לזה, מספר האלמנטים בערכה מגדיר את מספר הערימות ומספר התווים את מספר הבלוק שצריך לסדר. . משימה אם כן היא סידור של בלוקים בערימות ללא קשר למיקומה המוחלט של הערימה.

חסימות מסוימות עשויות להיות על השולחן אך אינן חלק מהמשימה

הבחירה שלהם בהגדרת המיקום היחסי ומספר הערימות כקריטריונים למשימה נפרדת נראית שרירותית. אכן, יכול להיות גם הגיוני לדבר על משימות שונות על סמך עמדות ההתחלה המוחלטות של הבלוקים (מה שהם מכנים תצורה). אני מאמין שהאופי המשותף של הבעיה ניכר בעיניהם, אך לצורך הבהירות הם מעדיפים לא להיכנס לפרטים. זה הגיוני יותר למסגר את לימוד המדיניות כשני סוגים של הכללות, כפי שהם מתרחשים בהמשך:

שים לב שההכללה מוערכת במספר רב של רמות: המדיניות המלומדת לא צריכה רק להכליל לתצורות חדשות ולהדגמות חדשות של משימות שנראו כבר, אלא גם צריכה להכליל למשימות חדשות.

פשוט החלף "משימות" ב"הזמנת ערימה ". לימוד נכון של המשימה פירושו שהסוכן לומד הטבעה המסוגלת להפשט את מיקום הקוביות (תצורה), אך גם את זהותם (משימה), את מספר הערימות (משימה) ואת מסלול ההפגנה (שהוצג בקצרה ב- הצעת המחיר) כדי לייצר תגובה מוטורית רלוונטית.

ההכללות הללו נראות סותרות, כיצד אותה רשת יכולה להפשיט את התצורה הראשונית של הקוביה או את זהותן ובכל זאת לשחזר את מיקומה המוחלט לתגובה המוטורית?

זה מסביר את הצורך ברשתות משנה שיתופיות שונות במהלך הלמידה, קבלת תשומות שונות, וזה מסביר כי ברשת ההקשר ייצוג מופשט של המשימה מוזן מידע על סדר נמוך יותר, כמו קוביות מוחלטות, לפני הפקודה היורדת.

אתם עשויים לחשוב שהערות על הבחנה זו של משימה ותצורה היא מטופשת, אך חיוני להבין כי זהו למעשה אותו תהליך של הפשטה במשחקים על אובייקטים שונים (וזה נפתח לסעיף הבא).

אין למידה ללא תקיף

למידת העברות היא אולי המושג המרתק ביותר של קוגניציה בין אם זה בסיליקו או in vivo, זה נושא חם מאוד גם לחוקרי AI וגם למדעי המוח, וזה במקרה נושא עבודת הדוקטורט שלי. שים לב שמושגים קשורים זה לזה נבדקו בתחומים רבים לפני למידת מכונה, ולמושג מופשט ומוגדר תמיד חלקית יש שמות רבים. פילוסופים, אנתרופולוגים וסוציולוגים עשויים להתייחס לזה כ (פוסט-) סטרוקטורליזם (קלוד לוי-שטראוס, מישל פוקו), הבלשן ידבר על סינטגמה ועל מבני עץ מקוננים (נועם חומסקי), מתמטיקאים בטח יחשבו על הומאומורפיזם או השחלות וחינוך. חוקרים או מדעני עצבים עשויים להתייחס לזה כאל למידה מבנית. יתכן שתראה מושג קשור בתחום של למידת מכונות כמו למידת ייצוג ומטרות למידה, אשר בהתאם למחבר עשוי להתייחס ללמידה העברה או לפרדיגמת הלמידה המשמשת לביצוע למידת העברה. כשמדברים על רשתות עצביות עמוקות ההבדלים הללו מטושטשים, שכן במהותה רשת עצבית לומדת להטמיע בעיה מסוימת (למידת ייצוג) על ידי שינוי המבנה שלה (מטה-למידה) בדרך כלל בסביבה רועשת שמשמעה צורה של למידה העברה.

לחוקרי AI ולמדען הקוגניטיבי יש לעיתים קרובות הגדרה קונקרטית מאוד של למידת העברה, זהו התהליך שמאפשר למערכת להשתמש בידע שנרכש במשימה מסוימת כדי לבצע משימה אחרת החולקת מבנה קומפוזיציוני משותף (כמתואר במאמר). למדע הקוגניטיבי מושג זה של העברה קרובה ורחוקה, תלוי באיך שנראה ששתי המשימות שונות זו מזו. אך מנקודת מבט מופשטת יותר, בסביבה רועשת ומורכבת, כל למידה היא סוג של למידת העברה וההבדל בין העברה קרובה מאוד רחוקה מאוד הוא רק עניין של מידע משותף - שוב עניין של מידה ולא טבע.

בסביבה מבוקרת, נעשים מאמצים מקדימה לבניית שיקול דעת קשה של המציאות, אך למעשה שיקול דעת זה משחזר באופן פרוצדורלי את מה שעושה למידה העברה, הוא מאחד מערכת אינסופית של מצבים שנמצאים במציאות תחת מבנה תוחם משותף. בעיקרו של דבר העברת למידה מתייחסת ישירות או כהרחבה לתהליך שבאמצעותו סוכני למידה משתמשים בחללים לבניית מודלים של העולם. זהו תהליך שמשתמש בקווי דמיון, חזרות, וריאציות של אותו הדבר, ליצירת ייצוג מופשט ומורכב יותר ויותר אשר יבנה הרכבים לאורך טווח השונות על ידי הקלט. במובן כללי זה מאפשר ליצור את הפעולות הבסיסיות דרכן אנו מתפעלים קבוצות מידע, בדומה למתמטיקה היא מאפשרת איחוד וצמתים. זה מאפשר זהויות, זה מסביר את היכולת שלנו לסווג אובייקטים. ג'וש טנמבוים נותן דוגמא שבאמת דיברה איתי: דמיין שאתה מלמד ילד בן שנתיים להכיר סוס בפעם הראשונה, אתה מראה לו תמונה של סוסים שונים ואז אתה מראה לו תמונה של סוס אחר תמונה של בית ולבקש שיגיד לך מי הוא הסוס. ילד יבצע את המשימה הזו די בקלות אבל זה עדיין משהו שמחשב לא יכול לעשות טוב עם כל כך מעט תשומות (למידה חד פעמית).

איך הילד עשה את זה?

הכרת בעלי חיים נחקרה אצל ילדים ומתייחסת ליכולת שלנו לפרק חפצים לחלקים רלוונטיים, טווח הצבעוניות של הפרווה, גודל הצוואר, הצורה הכללית וכו '. יכולת זו היא גם מה שמאפשר לך לפתוח לך דלת מעולם לא ראיתם, למדתם רצף מוטורי שמכליל לכל מצב (הכללת תחום). זה גם מה שאתה משתמש בו כדי לבנות מודלים מסבירים שמפשטים את העולם, אולי אכן תופתע בתחילה מההופעה הפתאומית של קוקייה בשעון שוויצרי מפורסם, אבל אחרי המראה השני תצפה לזה. מציאת invariance היא כיצד רשת עצבית לומדת ודגמים אלה בנויים באופן לא מודע. דוגמא לכך היא כיצד אנו לומדים אינטואיטיבית על פיזיקה עוד לפני ששמענו על מתמטיקה ומספרים.

אפשר לשאול למשל כמה מהר ילד שנולד במיקרובראוויציה יסתגל לכובד האדמה וללמוד באופן אינטואיטיבי כי חפצים ייפלו לאדמה כשירדו?

אנו עשויים להניח כי תינוקות ורוב בעלי החיים ישתנו את המודל שלהם באופן לא מודע, ממש כמו כשמניחים גרביים על כפותיו של כלב ולוקח קצת זמן להסתגל למידע החדש.

אך עבור ילד צעיר תיערך חקירה מודעת ושינוי במודל האינטואיטיבי שלו, מסקרנות, דרך שפה, סמלים ואמונות. היכולת שלנו לחקור במודע ולשנות את המודלים שלנו היא מרתקת, וכתוצאה מכך בני אדם עשויים להיות המין היחיד שמסוגל למלל את התהליך אך מינים אחרים עשויים לבצע עדכונים מודעים דומים.

אי השחלה היא תכונה חובה של זמן, אם הכל היה תמיד חדש ובשום אופן לא ניתן לחזות אותו, עדיין היה נשאר בלתי פוסק ייחודי זה שהכל תמיד חדש ובלתי ניתן לחיזוי. אי אפשר לדמיין עולם ללא גלגול, מכיוון שלא יכול היה להיות עולם להתייחס אליו, בלי גלגול החיים היו בלתי אפשריים ומוחנו חסר תועלת. החיים הם מכונה שעובדת רק על ידי חזרה חוזרת של אירועים, חזרת גורמים ותופעות, של הכנסת מחזור מחודש של אנרגיה לאורגניזם. ובמסע של לייף לשפר את השימוש בו במחזורים ההכרחיים, המוח שלנו הוא הכלי האולטימטיבי. זו מכונת חיזוי, איבר מסתגל שמסוגל למצוא חזרה באופן דינמי ולהשתמש בו כדי ליצור אינטראקציה טובה יותר עם העולם.

שיטה זו שהחיים בחרו היא חזקה ביותר לשינויים קלים במבנה. מה שנשאר זהה הוא העולם, המאפיינים הסטטיסטיים של הסביבה, אך המבנה העצבי הנתקל בו יכול להשתנות כל עוד הוא יכול להטמיע את המידע הרלוונטי שפיתח כדי לטפל בו. זה מסביר מדוע המוח שלנו יכול להיות שונה כל כך מאינדיבידואל לאינדיבידואל, אפילו קליפת המוח העיקרית, ובכל זאת לשתף את אותן פונקציות.

מערכות עצבים אינן מסתגלות, הן אינן זקוקות להתפתחות ומאטציות גנטיות איטיות כדי לשנות את ההתנהגות בדרכים רלוונטיות. מערכת עצבים פשוטה, כמו זו שנמצאת ב- C. Elegans, משמשת כמתאמת פנימית מולדת וחיישן חיצוני: לחוש אוכל ולעבור אליו, לברוח מכאב, להתרבות. מערכות פשוטות אלה היו בתחילה קשיחות וביצעו קירוב קיצוני של עולמנו הרועש ביותר על מנת להפריד אותו במערכה קטנה של מצבים אפשריים (אוכל משמאל, חום מתחת וכו '). היכולות המוטוריות והחושיות שלנו התפתחו יד ביד עם יכולות החיזוי של מערכת העצבים שלנו. ככל שהחיישנים שלנו התדייקו יותר, מערכת העצבים הצליחה אט אט לשנות את המבנה שלה לאחסון מידע וללמוד מהניסיון. בתחילה הוא הצליח ללמוד לזהות קטגוריות מסוימות של תשומות, כגון סוגים של ריחות או דפוסי אור, וגם הצליח ללמוד דרך ניסוי וטעייה לשלוט במערכת המוטורית ההולכת וגוברת שלה. שימו לב שהעולם כל כך מורכב עד שמוחנו התפתח באופן טבעי לעבר פרדיגמה למידה ולא גישה פרוצדוראלית מולדת. מבחינה חישובית זה הגיוני לחלוטין, למשחק פשוט של גו יש מרחב של מדינה גדול בהרבה (2.10¹⁷⁰) ממספר האטומים ביקום (10⁸⁰), וככל שהאורגניזמים הופכים מורכבים יותר מנסים לבצע קוד חישובים של כל האפשרויות האפשריות קובע שזה יכול להיות במהירות הופך להיות בלתי ניתן למישוש בגלל פיצוץ קומבינטורי.

יש אנשים שיכולים להאמין שהמוח שלנו בנוי בצורה כזו שהוא מייצג באופן פנימי את המרחב שהוא הולך להתפתח בו, שב- DNA איפשהו יש גן למה שמהווה פנים, או את הארגון הזמני של גלי הקול שעושים מילים למעלה. הם עשויים להאמין שהידע המולד הזה מקודד בלידה איפשהו. אחרים עשויים להאמין, כמו מורי לפילוסופיה כשהייתי בתיכון, שהקיום קודם למהות, וכי המוח שלנו מוגדר באופן מוחלט ובלעדי על ידי מפגש האורגניזם והעולם. המציאות כמובן מורכבת יותר, ועבור מרבית המערכות הטלנספליות שנחקרו עד כה, המוח אינו מקודד בפנים את הפונקציה שתבצע אלא ילמד אותה בהתאם למידע הכלול בתשומותיו. אם הקלט דל מדי במידע רלוונטי, יכולת הלמידה במבנה זה עשויה להיות תאריך תפוגה (למשל אמבלופיה). אבל אם המבנה המולד אינו מקודד את התפקוד הסופי, למוח יש מבנה ספציפי. מבנה זה נשמר על פני פרטים, ואנשים מאותו המין חולקים תפקודים וכוננים משותפים. ד.נ.א אכן מקים מבנה מסוים במקום, מבנה שאינו מסוגל לבצע את תפקידם הסופי בפנים, אך מבנה המסוגל ללמוד את המורכבות של משימות ספציפיות על סמך חוויה אינדיבידואלית. אין זה מפתיע שהאבולוציה הביאה להופעה של מחסום מוח-דם יעיל ביותר, שמבודד את המוח משאר הגוף כמו גם את קרום המוח וקליפת העצם הקשה המגן עליו מפני העולם החיצון, מכיוון שלא כמו איברים אחרים שבהם המבנה מקודד בגנום, לא ניתן להתחדש במבנה של מוח מאומן מדגם המאוחסן בפנים. מה שמרתק הוא שאנחנו רואים את אותם מנגנוני למידה המתעוררים באנלוגיה באמצעות פיתוח רשתות עמוקות ומורכבות יותר ויותר המבצעות משימות מורכבות יותר ויותר.

מבני קומפוזיציה קשה לראות אך בכל מקום

בתור עמוד הערה מוזר שאפילו המחברים אינם מכירים בכך שלמשימתם הראשונה להגיע למטרה יש מבנה קומפוזיציוני.

החלקיק שמגיע למשימות מדגים יפה את האתגרים בהכללה בתרחיש פשטני. עם זאת, המשימות אינן חולקות מבנה קומפוזיציוני, מה שהופך את הערכת ההכללה למשימות חדשות למאתגרת.

אף על פי שהמבנה אכן הוא ברמה נמוכה יותר מערמת הבלוקים, ולא נגיש למניפולציה ניסיונית, המשימה היא אכן מורכבת ממבנה משותף. מבנה קומפוזיציוני אחד, המקשר את העולם למישור, הוא ששמירת זהות הקוביה (צבע) נשמרת עם התרגום, והליכה מבלוק A - או ממיקום התחלה אקראי- במיקום (Xa1, Ya1) לחסימה B במיקום (Xb1, Yb2 ) הוא חלק מאותו מבנה קומפוזיציוני מסדר גבוה יותר מאשר מעבר מבלוק A במיקום (Xa2, Ya2) לחסימה B במיקום (Xb2, Yb2).

ממשקים בין רשתות

סוכנות של רשתות עצביות המסוגלות לטפל בתשומות ברמות הפשטה שונות תזדקק לממשקים, תחום שלדעתי נותן הרבה שנותר לגלות. ממשקים אלה יכולים להיות בעלי אופי רב. ניתן לראות אותם למשל כשפה נפוצה בין שתי רשתות, כפי שמודגם במאמר, רשת ברמה נמוכה יותר חמושה במערכת תשומת לב (רשת הדגמה) יכולה לתרגם הדגמה בייצוג רשת אחרת (רשת ההקשר) יכולה להשתמש בה להפנות פעולה בכל אורך או התצורה הראשונית של ההפגנה.

פני השפה הזו הם כאן מטוס קבוע בגודלו, אך ניתן לדמיין שינויים אפשריים העלולים לשפר את התקשורת בין הרשת. לדוגמה ניתן להגדיר את גודל המשטח לגדול או להתכווץ באופן דינמי כאשר הרשתות מתקשרות במהלך הלמידה, ומכאן דחיסה או הרחבת מורכבות השפה. אנו יכולים גם לדמיין אינטראקציות דינאמיות יותר, באמצעות משוב למשל. אנו יכולים לדמיין את קיומם של רשתות מנחים אשר ילמדו להחליק תקשורת בין רשתות, הקיימות כרשת מקבילה אשר לומדות לשנות את הקלט של הרשת הראשונה על בסיס הקלט והפלט של הרשת השנייה. אנו יכולים לדמיין רשתות הקשר מורכבות הפועלות כשטף טוניק (משתנה לאט) לרשתות מרובות יותר מתמחות ... תחום מחקר עתידי מרתק!

מקרים של כישלון רומזים לתפקידים האפשריים למודולים חדשים שיכולים להיות להם

ראוי לציין כי לעתים קרובות טעויות נובעות מטעויות מוטוריות, וכי מספר הטעויות גדל עם מורכבות המשימה.

אסור להידרדר לתפקוד המוטורי רק על ידי הגדלת מספר המטרות, זוהי עדות חזקה לכך שהדרך בה רשת הרבייה לומדת לדבר עם הרשת המוטורית היא מופשטת מדי. זה מוזר מכיוון שלדבריהם הבדיקה שלהם מראה שהממשק בין רשת ההקשר לרשת המנוע הוא קונקרטי יחסית (מיקום הרובוט, מיקום המטרה).

פתרון אפשרי יכול להיות, מכיוון שמדובר בארכיטקטורה מודולרית, להשתמש בפונקציות אובדן שונות, או בפונקציות אובדן מודולריות המייצגות כל אחד מהיבטים ספציפיים של המשימה. זה יעזור גם על ידי מקבילה של אזורים טרום-מוטוריים במוח כדי להבטיח שההפגנה ורשת ההקשר יכולה להישאר מופשטת מבלי להידרדר לפקודה המוטורית. אזורים פרוטוטוריים נחוצים כדי לאתר לוקליזציה טובה יותר של אובייקטים על בסיס המטרה (מרשתות מופשטות) ותשומות החישה, על מנת לבחור את הפקודה המוטורית הטובה ביותר. נראה שרשת ההקשר מנסה להעביר את ההפגנה לשיבוץ ברמה גבוהה יותר ולהכין פעולה מוטורית בעת ובעונה אחת בהקשר הנוכחי. תפקידה של רשת קדם-מוטורית יהיה ללמוד לתקשר עם המערכת המוטורית בצורה מכוונת ומסתגלת, תוך שילוב הן של פונקציות הפרוטוטור והן של המוח הקטן ללמידה מוטורית והתאמה מהירה.

יש תיאוריה מעניינת, הפרדוקס של מוראבק, המנבא כי לא יהיה זה קוגניציה ברמה גבוהה יותר שתחייב מיסוי חישובי אלא טיפול בתשומות חושיות ובתפוקות של מערכות מוטוריות. זה אכן יכול להסביר את הכמות הגדולה של נוירונים שנמצאים במוח המוח שלנו (יותר מאשר בשאר מוחנו) כדי לשלוט באופן אדפטיבי בפעולה המוטורית. פרדוקס זה גובש בתקופה (שנות ה 80) בהן עדיין האמנו שנוכל להטמיע את הידע שלנו במכונה לביצוע משימה מורכבת בסביבות רועשות בלתי נשלטות. כמובן שפרדוקס זה הגיוני אם איכשהו המכונה מסוגלת לייצג את העולם במערך מצבים מופרך, בניית פונקציה ברמה גבוהה יותר תהיה קלה יותר. אבל אני מאמין ששניהם יתבררו כמגיבים מאוד, והייצוג הפנימי המשמש בממשק בין הרשתות יהיה רחוק מכל מה שידמה לייצוגים המודעים שלנו.

סיכום

על ידי שילוב של רשתות עצביות שונות שכל אחת אחראית על טיפול ספציפי בבעיה, מאמר זה מראה כי על ידי יצירת משימה הטמונה באופן כללי בהכללה, ובניית סביבת למידה מתאימה באמצעות אקראיות של תחום, רשת עצבית עם גישה לזיכרון מערכת הקשב יכולה ללמוד להכליל מעבר לשכפול פשוט. זה יכול ללמוד לגלות מטרה של סדר גבוה יותר שהודגם רק פעם אחת בזרם חזותי על מידע, ומבצעת חישוב במרחב הכללי כדי לשחזר את הפעולות המתאימות המסוגלות לשחזר את המטרה בהקשר אחר.

בעתיד נראה מורכבות גוברת של מבנים הבנויים על אותם אבני בניין אטומיות המסוגלים ללמוד להכליל משימות מורכבות אך חשוב מכך לבצע כמה משימות כאלה, בסביבות חדשות, עם פחות הסתמכות על שיטות מקודדות קשיחות כמו עיבוד מראש של תשומות או אחסון זיכרון. אחסון זיכרון יוחלף על ידי ייצוגים מבוזרים ברשת זיכרון, מערכות קשב יוחלפו בפעילות מחזורית ברשתות קשב בזמן אמת. נשאלת השאלה כיצד נוכל להתאים טכנולוגיה טורית חזקה (מכונות טיורינג) להסתמכות המוגברת שלנו על מחשוב מבוזר במערכת הגלומה.