گزارش تکان دهنده از آمادگی هوش مصنوعی برای جایگزینی انسان

بنچمارک the Agent Company در گزارش اخیر خود به یافتههای یک شبیه سازی در دانشگاه CMU پرداخته که ظرفیتهای هوش مصنوعی برای انجام وظایف انسانی را مورد بررسی قرار داده است. یافتههای حاصل از این ارزیابی که با شبیه سازی یک شرکت و مشارکت 11 ایجنت هوش مصنوعی انجام شده به یافتههای جالبی در مورد عملکرد و توانمندی هوش مصنوعی منتهی شده است.
به گزارش پارسینه، گمانه زنیها پیرامون آینده هوش مصنوعی و افزایش نقش و کاربرد آن در حوزههای مختلف یکی از اصلیترین موضوعات مورد بحث در حوزههای مختلف است. با توجه به نحوه عملکرد هوش مصنوعی بسیاری از حوزهها حتی در حال حاضر نیز از آن متأثر شده و به نظر میرسد این تأثیرگذاری در آینده عمیقتر و گستردهتر خواهد شد. یکی از اصلیترین گمانهها در این خصوص توانایی هوش مصنوعی برای انجام فعالیتهای انسانی و جایگزینی ماشینهای هوشمند با نیروی انسانی در حوزههای مختلف است. بر این اساس، پژوهشگران دانشگاه CMU با شبیه سازی یک شرکت نرم افزاری در فضای آزمایشگاهی به آزمون عملکرد هوش مصنوعی پرداخته و عملکرد ایجنتهای هوش مصنوعی را در یک محیط کار واقعی به چالش کشیدند. پژوهشگران برای این مطالعه از ابزارهای متنوع هوش مصنوعی بهره گرفته تا به نتایج قابل اتکاتر و فراگیرتری دست یابند. GitLab، ownCloud، RocketChat و Plane ابزارهای هوش مصنوعی بودند که در این فضای دیجیتال شبیه سازی شده به منظور انجام وظایف مختلف به ایجنتها سپرده شدند.
روش ارزیابی
در این بررسی محققان به 11 مدل برتر هوش مصنوعی از جمله Claude 3.5، ChatGPT 4 و Gemini تعدادی وظایف سازمانی را محول کردند. بر این مبنا در مجموع 175 تسک از بخشهای مختلف شرکت به این 11 مدل هوش مصنوعی سپرده شد. هدف از این اقدام انجام وظایف یادشده بدون دخالت کاربر انسانی اعلام شد.
مشاهدات شوکه کننده
نتایج این مطالعه به نحوی باورنکردنی با تصور عمومی از کارآیی هوش مصنوعی در فرایندهای جاری فاصله داشت. برعکس انتظار، ایجنتهای هوش مصنوعی قادر به انجام وظایف به نحوی قابل بول نبوده و مجموعاً درصد بسیار کمی از وظایف را به درستی انجام دادند. برای مثال بهترین مدل Claude 3.5 تنها 24 درصد از تسکهای محول شده را با موفقیت به پایان رساند.
نتایج غیرقابل انتظار
ارزیابی این آزمون نشان دهنده آن است که ابزارهای هوش مصنوعی در مسیر انجام تسکهای محول شده فرایندهای مختلفی را به انجام میرسانند اما از استاندارد و قاعده تعریف شده پیروی نمیکنند. برای مثال به جای اعتراف به ناتوانی در انجام وظایف، ایجنتهای هوش مصنوعی در این شبیه سازی با اعتماد به نفس بالا، فرایندها را تخریب کرده و کارها را به صورت اشتباه انجام میدادند و در عین حال ادعای موفقیت داشتند.
اشتباهات و توجیههای هوش مصنوعی
نتایج این شبیه سازی نشان میدهد که هوش مصنوعی درصدد توجیه و قابل پذیرش ساختن اشتباهات خود برآمده است. چند نمونه از اشتباهات و عملکرد توجیهی ایجنتهای هوش مصنوعی در این شبیه سازی عبارتند از:
- تغییر نام افراد در سامانههای ارتباطی شرکت به جای ارسال درست پیام به فرد مورد نظر؛
- نادیده گرفتن مراحل کلیدی در فرایندها و ادعای پایان موفقیت آمیز کار؛
- ساخت اسناد جعلی و استناد به آنها در فرایند کار؛
- وحشت زدگی و فرار در مواجه با پیامها و پنجرههای کوچک pop-up.
نتیجه مطالعه
نتایج حاصل از این بررسی و مشاهده آزمایشگاهی نشان میدهد که هوش مصنوعی برای انجام وظایف پیچیده بدون نظارت انسانی هنوز آماده نیست. اگرچه ایجنتهای هوش مصنوعی در تسکهای مهندسی نرم افزار عملکرد به مراتب بهتری داشتند اما همسو ساختن آنها با نیازها، اهداف و فرایندهای شرکت نیازمند زمان و نظارت دقیق و مداوم است. در واقع، انتظار عملکرد هماهنگ و دقیقاً مبتنی بر الگوی انسانی از ایجنتهای هوش مصنوعی هنوز با واقعیت موجود فاصله زیادی دارد. به سخن بهتر انتظار عملکرد plug and play از این ایجنتها دستکم در حال حاضر واقع بینانه نیست، بلکه بهرهمندی از ظرفیت و توانمندی ابزارهای هوش مصنوعی نیازمند و مستلزم نظارت و هدایت انسانی است.
ارسال نظر