روش ابتکاری یک تیم تحقیقاتی توانایی استفاده از تصویربرداری رزونانس مغناطیسی عملکردی (fMRI) را برای بازسازی مداوم زبان انسان دارد. اثر اخیر اولین نمونه در نوع خود محسوب می شود. این یافته ها به عنوان گامی جدید در جستجوی رابط های بهتر بین مغز انسان و کامپیوتر در نظر گرفته می شود. چنین رابط هایی را می توان به عنوان یک فناوری کمکی برای کسانی که نمی توانند به طور معمول صحبت کنند یا تایپ کنند، توسعه داد.
در مقاله ای که در 29 سپتامبر در پایگاه داده bioRxiv به عنوان پیش از انتشار بارگذاری شده است، تیمی از دانشگاه تگزاس در آستین یک “رمزگشا” یا الگوریتم را توصیف می کند که می تواند کلماتی را که شخص در طول تشدید مغناطیسی عملکردی بیان می کند “خواند” کند. تصویربرداری (fMRI) اسکن مغز. )، شنیده یا درباره آنها فکر کرده است. در حالی که تیم های دیگر قبلاً موفقیت در بازسازی زبان یا تصاویر بر اساس سیگنال های ایمپلنت مغزی را گزارش کرده بودند، سیستم رمزگشای جدید اولین رویکردی است که از یک روش غیرتهاجمی برای انجام این کار استفاده می کند. الکساندر هوثیک عصب شناس در دانشگاه تگزاس در آستین و یکی از نویسندگان این مطالعه می گوید:
اگر بیست سال پیش از هر عصب شناس شناختی در جهان می پرسیدید که آیا این امکان پذیر است، آنها به شما می خندیدند.
یوکیاسو کامیتانییک عصبشناس محاسباتی در دانشگاه کیوتو که در این تحقیق شرکت نداشت، در ایمیلی به The Scientist اظهار داشت که دیدن توالیهای زبانی قابل فهم تولید شده توسط یک رمزگشای غیرتهاجمی «هیجانانگیز» است و «این مطالعه پایه محکمی برای توسعه برنامه های کاربردی [رابط مغز و رایانه] ایجاد می کند”.
ما نباید فراموش کنیم که استفاده از داده های fMRI برای چنین تحقیقاتی اساساً دشوار است. زیرا سرعت عملکرد سیستم های داده fMRI در مقایسه با سرعت افکار انسان نسبتاً پایین است. دستگاه های MRI به جای شناسایی و ردیابی فعالیت عصبی در مقیاس میلی ثانیه، تغییرات جریان خون در مغز را به عنوان نماینده ای برای فعالیت مغز اندازه گیری می کنند. چنین تغییراتی چند ثانیه طول می کشد. به گفته هوث، دلیل کارآمدی روش مذکور در پژوهش اخیر این است که سیستم ابداعی، زبان را نه کلمه به کلمه، بلکه در سطحی بالاتر و در چارچوب یک جمله یا اندیشه، تشخیص و رمزگشایی می کند.
Huth و همکارانش الگوریتم خود را با استفاده از ضبط مغز fMRI توسط هوش مصنوعی آموزش دادند. افراد مورد مطالعه آنها شامل یک زن و دو مرد (همه در دهه سوم یا چهارم زندگی خود) بودند. آنها به 16 ساعت پادکست و رادیو گفتگو گوش دادند. برخی از برنامه های معروف مانند ساعت رادیویی شب پره، تد تاک و آنتروپوسن جان گرین بررسی شد از جمله رسانه های مورد استفاده در این آزمایش بودند. به گفته هات، برای ساخت یک رمزگشای دقیق و با کاربرد گسترده، مهم است که شرکت کنندگان در تحقیق به طیف وسیعی از رسانه ها گوش دهند. او خاطرنشان میکند که مقدار دادههای fMRI جمعآوریشده با اکثر مطالعات دیگر با استفاده از ضبطهای fMRI سازگار است. اگرچه او موضوعات تحقیقاتی کمتری در دسترس داشت.
سیستم رمزگشا مجموعهای از پیشبینیها را از ظاهر قرائتهای fMRI بر اساس 16 ساعت ضبط fMRI از مغز افراد انجام داد. Huth گفت که استفاده از این “حدس زدن ها” برای اطمینان از اینکه رمزگشا می تواند افکاری را ترجمه کند که لزوماً با یکی از ضبط های صوتی شناخته شده استفاده شده در طول آموزش توسط هوش مصنوعی مطابقت ندارند، کلیدی بود. سپس این «حدسها» در برابر ضبطهای fMRI بیدرنگ بررسی شدند، و در نهایت پیشبینی که بیشتر با قرائتهای fMRI واقعی مطابقت داشت، کلماتی را که سیستم رمزگشایی در مرحله نهایی تولید کرده بود، تعیین کرد.
برای تعیین میزان موفقیت رمزگشا، محققان شباهت تولید رمزگشا را با محرک های ارائه شده به سوژه ارزیابی کردند. آنها همچنین زبان تولید شده توسط همان رمزگشا را که در برابر ضبط fMRI بررسی نشده بود، بررسی کردند و امتیاز دادند. سپس محققان نمرات ثبت شده را مقایسه کردند و اهمیت آماری تفاوت بین این دو را مورد آزمایش قرار دادند.
نتایج نشان داد که حدسهای الگوریتم در نهایت یک داستان کامل از ضبطهای fMRI تولید کرد که به گفته Huth با داستان واقعی گفته شده در ضبط «بسیار خوب» مطابقت داشت. با این حال، کاستی هایی نیز در الگوریتم وجود دارد. به عنوان مثال، این سیستم در به خاطر سپردن ضمایر چندان خوب نیست و اغلب ضمایر اول شخص و سوم شخص را با هم اشتباه می گیرد. همانطور که Huth توضیح می دهد، رمزگشا «می داند که چه اتفاقی می افتد. اما او نمی داند چه کسی این کارها را انجام می دهد.»
به گفته سام نستاز، محقق و مدرس موسسه علوم اعصاب پرینستون، استفاده از ضبطهای fMRI برای این نوع رمزگشایی مغز “دیوانهکننده” است. زیرا چنین داده هایی معمولاً بسیار کند و نویز هستند. او اضافه می کند:
با این مقاله، آنها نشان میدهند که اگر یک چارچوب مدلسازی به اندازه کافی هوشمند داشته باشیم، میتوانیم مقدار شگفتانگیز اطلاعات را از ضبطهای fMRI استخراج کنیم.
طبق یافتههای Huth و تیمش، از آنجایی که رمزگشا از ضبطهای مغز fMRI غیرتهاجمی استفاده میکند، پتانسیل بیشتری برای کاربردهای دنیای واقعی نسبت به روشهای تهاجمی دارد. با این حال، هزینه و تلاش برای استفاده از دستگاه های MRI یک چالش آشکار است. او می گوید:
مگنتوآنسفالوگرافی یا مغناطیس مغزی، یکی دیگر از تکنیک های غیرتهاجمی، اما قابل حمل تر تصویربرداری مغز است و از نظر زمانی دقیق تر از fMRI است. این تکنیک به طور بالقوه می تواند با رمزگشای محاسباتی مشابه برای ارائه روشی برای ارتباط غیرکلامی افراد استفاده شود.
Huth معتقد است که هیجانانگیزترین مؤلفه موفقیت رمزگشای آنها به «بینشی» مربوط به عملکرد مغز مربوط میشود. به عنوان مثال، او برخی از نتایج تحقیقات خود را در مورد نزدیک شدن به پاسخ به این سوال به اشتراک گذاشت که “کدام بخش های مغز مسئول ایجاد معنا هستند؟” اشاره می کند. با استفاده از این سیستم رمزگشایی، تیم تحقیقاتی توانست تعیین کند که هر یک از این بخشهای مغز انسان در طول ثبت دادههای مربوط به نواحی خاص مانند قشر جلوی مغز یا قشر گیجگاهی جداری، چه اطلاعات معنایی را نشان میدهند. بر اساس یکی از یافتههای جالب آنها، دو ناحیه مغز اطلاعات یکسانی را به رمزگشا ارائه میکنند و رمزگشا هنگام استفاده از ضبطهای هر دو ناحیه به همان اندازه خوب عمل میکند.
هوث می افزاید که شگفت انگیزترین جنبه سیستم دوم، توانایی رمزگشا برای بازسازی محرک هایی بود که از زبان معنایی استفاده نمی کردند. حتی اگر در مورد موضوعات شنیداری زبان گفتاری تدریس می شد. به عنوان مثال برای آشکارتر شدن این بیانیه، باید اشاره کنیم که پس از یادگیری، الگوریتم دانشمندان با موفقیت مفهوم موضوعات یک فیلم صامت مشاهده شده توسط افراد تحقیق را بازسازی کرد. این الگوریتم همچنین تجربه مبتنی بر ادراک یک شرکت کننده از گفتن یک داستان را بازسازی کرد. هوث همچنین می گوید:
این واقعیت که آن پدیده ها [در مغز] آنها تا حد زیادی همپوشانی دارند، چیزی که ما تازه در حال درک آن هستیم.
نتایج آزمایشگاه Huth (که هنوز توسط همتایان مورد بررسی قرار نگرفته اند) سوالاتی را برای Kamitani و Nastase در مورد نحوه پردازش رمزگشاها زبان های مبتنی بر متن یا گفتار ایجاد می کند. نستاز می گوید:
از آنجایی که رمزگشای جدید به جای کلمات جداگانه، معنا یا معنایی را در پشت جملات تشخیص می دهد، اندازه گیری موفقیت آن می تواند دشوار باشد، زیرا بسیاری از ترکیبات کلمات می توانند به عنوان خروجی خوب به حساب بیایند. این موضوع جالب از کارشان بیرون آمده است.
Huth تصدیق می کند که برای برخی افراد چنین فناوری هایی که قادر به “خواندن ذهن” هستند ممکن است کمی ترسناک یا ترسناک به نظر برسند. او بیان میکند که تیم تحقیقاتی تحت نظارت او عمیقاً در مورد پیامدهای این تحقیق و مسیرهای احتمالی فکر کردهاند و به دلیل نگرانیهای موجود در مورد حریم خصوصی ذهنی، به بررسی احتمال یک موضوع وسوسهانگیز نیز رفتهاند: آیا رمزگشا بدون نیاز به همکاری شرکت کننده
در برخی آزمایشها، محققان از آزمودنیها خواستند تا با انجام کارهای ذهنی دیگر مانند شمارش، نامگذاری و تصور حیوانات و تصور داستانی متفاوت در حین پخش صدا، حواس خود را پرت کنند. آنها همچنین دریافتند که نامگذاری و تخیل حیوانات در رمزگشایی نادرست مؤثرتر است.
از سوی دیگر، از نقطه نظر حفظ حریم خصوصی، نکته مهمی وجود دارد که باید به آن توجه کرد: رمزگشایی که در اسکن مغز یک فرد آموزش دیده است، نمی تواند زبان فرد دیگر را بازسازی کند و اساساً هیچ اطلاعات قابل استفاده ای را در این مطالعه باز نمی گرداند. بنابراین حتما متوجه شده اید که در چنین سیستمی قبل از رمزگشایی دقیق از افکار فرد، آن فرد باید با دانش و تصمیم خود در جلسات آموزشی گسترده شرکت کند.
برای Nastase، این واقعیت که محققان به دنبال شواهدی مبنی بر محافظت از حریم خصوصی ذهنی بوده اند، دلگرم کننده است. او می گوید:
[آنها] آنها می توانستند به راحتی این مقاله را شش ماه پیش بدون هیچ یک از آن آزمایشات انجام دهند [حریم خصوصی] انتشار
با این حال، او هنوز کاملاً با توضیح نویسندگان مقاله تحقیقاتی متقاعد نشده است که آزمایشات آنها و سیستم رمزگشایی هیچ جنبه نگران کننده حریم خصوصی ندارند. از سوی دیگر، باید توجه داشته باشیم که تحقیقات آینده احتمالاً میتوانند راههایی برای حذف محدودیتهای حریم خصوصی ذهنی مطرح شده در این تحقیق بیابند و در این صورت باید نگران باشیم. نستاس در پایان توضیح می دهد:
آیا مزایای چنین فناوری هایی بیشتر از خطرات یا خطرات احتمالی آنهاست؟ . این سوال بسیار مهمی است