گزارش تکان دهنده از آمادگی هوش مصنوعی برای جایگزینی انسان

بنچمارک the Agent Company در گزارش اخیر خود به یافته‌های یک شبیه سازی در دانشگاه CMU پرداخته که ظرفیت‌های هوش مصنوعی برای انجام وظایف انسانی را مورد بررسی قرار داده است. یافته‌های حاصل از این ارزیابی که با شبیه سازی یک شرکت و مشارکت 11 ایجنت هوش مصنوعی انجام شده به یافته‌های جالبی در مورد عملکرد و توانمندی هوش مصنوعی منتهی شده است.

به گزارش پارسینه، گمانه زنی‌ها پیرامون آینده هوش مصنوعی و افزایش نقش و کاربرد آن در حوزه‌های مختلف یکی از اصلی‌ترین موضوعات مورد بحث در حوزه‌های مختلف است. با توجه به نحوه عملکرد هوش مصنوعی بسیاری از حوزه‌ها حتی در حال حاضر نیز از آن متأثر شده و به نظر می‌رسد این تأثیرگذاری در آینده عمیق‌تر و گسترده‌تر خواهد شد. یکی از اصلی‌ترین گمانه‌ها در این خصوص توانایی هوش مصنوعی برای انجام فعالیت‌های انسانی و جایگزینی ماشین‌های هوشمند با نیروی انسانی در حوزه‌های مختلف است. بر این اساس، پژوهشگران دانشگاه CMU با شبیه سازی یک شرکت نرم افزاری در فضای آزمایشگاهی به آزمون عملکرد هوش مصنوعی پرداخته و عملکرد ایجنت‌های هوش مصنوعی را در یک محیط کار واقعی به چالش کشیدند. پژوهشگران برای این مطالعه از ابزارهای متنوع هوش مصنوعی بهره گرفته تا به نتایج قابل اتکاتر و فراگیرتری دست یابند. GitLab، ownCloud، RocketChat و Plane ابزارهای هوش مصنوعی بودند که در این فضای دیجیتال شبیه سازی شده به منظور انجام وظایف مختلف به ایجنت‌ها سپرده شدند.

روش ارزیابی

در این بررسی محققان به 11 مدل برتر هوش مصنوعی از جمله Claude 3.5، ChatGPT 4 و Gemini تعدادی وظایف سازمانی را محول کردند. بر این مبنا در مجموع 175 تسک از بخش‌های مختلف شرکت به این 11 مدل هوش مصنوعی سپرده شد. هدف از این اقدام انجام وظایف یادشده بدون دخالت کاربر انسانی اعلام شد.

مشاهدات شوکه کننده

نتایج این مطالعه به نحوی باورنکردنی با تصور عمومی از کارآیی هوش مصنوعی در فرایندهای جاری فاصله داشت. برعکس انتظار، ایجنت‌های هوش مصنوعی قادر به انجام وظایف به نحوی قابل بول نبوده و مجموعاً درصد بسیار کمی از وظایف را به درستی انجام دادند. برای مثال بهترین مدل Claude 3.5 تنها 24 درصد از تسک‌های محول شده را با موفقیت به پایان رساند.

نتایج غیرقابل انتظار

ارزیابی این آزمون نشان دهنده آن است که ابزارهای هوش مصنوعی در مسیر انجام تسک‌های محول شده فرایندهای مختلفی را به انجام می‌رسانند اما از استاندارد و قاعده تعریف شده پیروی نمی‌کنند. برای مثال به جای اعتراف به ناتوانی در انجام وظایف، ایجنت‌های هوش مصنوعی در این شبیه سازی با اعتماد به نفس بالا، فرایندها را تخریب کرده و کارها را به صورت اشتباه انجام می‌دادند و در عین حال ادعای موفقیت داشتند.

اشتباهات و توجیه‌های هوش مصنوعی

نتایج این شبیه سازی نشان می‌دهد که هوش مصنوعی درصدد توجیه و قابل پذیرش ساختن اشتباهات خود برآمده است. چند نمونه از اشتباهات و عملکرد توجیهی ایجنت‌های هوش مصنوعی در این شبیه سازی عبارتند از:

تغییر نام افراد در سامانه‌های ارتباطی شرکت به جای ارسال درست پیام به فرد مورد نظر؛
نادیده گرفتن مراحل کلیدی در فرایندها و ادعای پایان موفقیت آمیز کار؛
ساخت اسناد جعلی و استناد به آنها در فرایند کار؛
وحشت زدگی و فرار در مواجه با پیام‌ها و پنجره‌های کوچک pop-up.

نتیجه مطالعه

نتایج حاصل از این بررسی و مشاهده آزمایشگاهی نشان می‌دهد که هوش مصنوعی برای انجام وظایف پیچیده بدون نظارت انسانی هنوز آماده نیست. اگرچه ایجنت‌های هوش مصنوعی در تسک‌های مهندسی نرم افزار عملکرد به مراتب بهتری داشتند اما همسو ساختن آنها با نیازها، اهداف و فرایندهای شرکت نیازمند زمان و نظارت دقیق و مداوم است. در واقع، انتظار عملکرد هماهنگ و دقیقاً مبتنی بر الگوی انسانی از ایجنت‌های هوش مصنوعی هنوز با واقعیت موجود فاصله زیادی دارد. به سخن بهتر انتظار عملکرد plug and play از این ایجنت‌ها دست‌کم در حال حاضر واقع بینانه نیست، بلکه بهره‌مندی از ظرفیت و توانمندی ابزارهای هوش مصنوعی نیازمند و مستلزم نظارت و هدایت انسانی است.