6 בעיות שעומדות בפני AI בזיהוי דיבור

כל החברות הגדולות משקיעות בזיהוי קולי והעולם מסתגל לאט לאט בהתמדה לטכנולוגיה החדשה של בינה מלאכותית (AI). אז למה זה לוקח כל כך הרבה זמן, מדוע הוא עדיין לא חלק מחיי היום יום שלנו? להלן 6 הסיבות לכך.

אתה הולך לחנות לחפש צבע ומותג מסוים של מוצר. אתה שואל עובד אם המוצר שאתה רוצה זמין. העובד הולך למחסן, בודק את המלאי שלו לגבי המוצר וחוזר זמן מה אחר כך, רק כדי לומר לך שהמוצר שלך כבר לא זמין.

עכשיו דמיין את זה, אתה נכנס לאותה חנות ומספר למכשיר קטנטן את המוצר שאתה רוצה לקנות. תוך שנייה קול אומר לך את הזמינות המדויקת של המוצר שלך, ואם הוא לא זמין, הוא נותן לך פרטים על השקעים שבהם המוצר זמין.

מכשיר ה- AI עושה זאת על ידי סריקה פנימית דרך כל מערכות המלאי הדיגיטליות. עם יתרונות רבים ביחס ללוגיסטיקה של עלויות ויותר מכך נוחות, מדוע האומנות של זיהוי דיבור ועוזרים אישיים טרם הושלמה?

כאשר מדע עושה צעדים אדירים בזיהוי גלי קול, אנו מסתכלים על כמה מהבעיות העיקריות שעומדות בפני החוקרים בעת פענוח דיבור לטקסט.

רעש

מכונות הקלטה קולית מגלות גלי קול הנוצרים באמצעות דיבור. רעשי רקע בחדרים מקשים על מערכות להבין ולהבחין בין גלי הקול הספציפיים לקול המארח. זה מטשטש את הצליל שנאסף על ידי המכשירים, מבלבל ומגביל את יכולת העיבוד שלו.

הד

הדים הם בעצם גלי קול המשתקפים על פני משטחים שונים, כמו קירות, שולחנות או ריהוט אחר. זה מוביל לחזרה לא מאורגנת של גלי קול חזרה לקולטנים, ובכך להפחית את הבהירות.

מבטאים

מגוון רחב של מבטאים בכל שפה הוא גורם נוסף שמוביל לקשיים בזיהוי דיבור. אם ניתן לבטא את אותה מילה במספר דרכים שונות, ההברות והפונטיקה של אותה מילה נוטות להשתנות, ומקשה על התהליך של המכונה.

צלילים דומים

מילים וביטויים נשמעים דומים יכולים למנוע קידוד ופענוח נכון של ההודעה הקולית. לדוגמא, "בואו הורס חוף נחמד" ו"בואו ונזהה דיבור "דומים מאוד מבחינה פונטית ויכולים לבלבל את המכשיר בקלות.

שגיאת מכונה

לרמות הדיוק של זיהוי קולי יש שיעורי שגיאה גבוהים. מכונות עדיין מתמודדות עם כ -8% -12% מהטעויות, שזה יותר מפי שניים מאשר בני האדם מבצעים בנאום היום יום שלהם. טעויות בקידוד נתונים שנאספו הם מכריעים לביצועים, מכיוון שזה הצעד הראשון שמכשירי ההקלטה הקולית יפעלו עליהם.

נאום לא מאורגן

שילוב מילים בשיחות היומיומיות שלנו פירושו שמילים וביטויים רבים מתמזגים זה בזה. זה אינו מתאים לזיהוי מכונה וקולית לטקסט, מכיוון שהוא מקשה על זיהוי מילים או ביטויים ספציפיים שישפיעו על התגובה והפעולות התוצאתיות של המכשיר.

בסך הכל, לא משנה כמה מתקדמים מכונות אלה, הגורמים לעיל ימשיכו להפריע להתפתחותם של עוזרי AI לנוע קדימה. עם זאת המהירות בה התפתחו המדע והטכנולוגיה, כל החברות הגדולות מתמקדות ביצירת מכשירים לזיהוי קולי אופטימלי, ובמוקדם או במאוחר הם יגולסו, ולכולנו יהיה רובוט מאופשר באמצעות קול שיפעיל את בתנו כמו גם חיינו.

למידע נוסף על אירוע RAF 100 ומהו STEM

דאגו לעקוב אחרינו בלינקדאין כדי לגשת לתוכן הבלעדי שלנו! # raf100event #WhatIsSTEM