به گزارش خبرنگار مهر؛ عرضه مدل هوش مصنوعی جدید «GPT-۵» توسط شرکت «OpenAI» در مرداد ۱۴۰۴ یکی از برجستهترین رخدادهای اخیر در چشمانداز جهانی این فناوری نوظهور محسوب میشود، زیرا این عرضه نهتنها بعدی فناورانه دارد بلکه ابعاد اقتصادی، اجتماعی و روانشناختی آن نیز در سطح بینالمللی مورد توجه قرار گرفته است. سم آلتمن، مدیر عامل این شرکت، در مراسم رونمایی با تأکید بر ارتقای کمّی و کیفی قابلیتها، مدل جدید را «هوشمندترین، سریعترین و کاربردیترین» مدل تا به امروز توصیف و بر کارکردهای آن در حوزههای تحقیقاتی، صنعتی و عمومی تأکید کرد.
با این حال، متخصصان بر این باورند که در شرایط کنونی، آن چه اهمیت دارد شکاف میان انتظارات رسمی و تجربه زیسته کاربران است. واکنش کارشناسان و جامعه کاربران بهسرعت نشان داد که گذار از مدل «GPT-۴o» به «GPT-۵» تنها یک جهش فنی نیست، بلکه تحولی است که پیامدهای عمیق بر تجربه کاربری، شیوههای تعامل، اعتماد عمومی و حتی سلامت روانی برخی کاربران بر جای گذاشته است.
بر همین اساس، خبرنگار مهر در این نوشتار کوتاه با اتکا به دادهها و گزارشهای منتشر شده در خصوص مدل جدید شرکت «OpenAI» میکوشد ابعاد چندلایه این تفاوتها را واکاوی نماید.
عملکرد فنی و معیارهای کمی
بر اساس نتایج رسمی برخی آزمونها، مدل «GPT-۵» از منظر دقت و توانمندیهای فنی جهشی چشمگیر نسبت به «GPT-۴o» داشته است. این مدل در آزمون ریاضیات «AIME ۲۰۲۵» به دقت ۹۴.۶ درصد دست یافته، در حالی که «GPT-۴o» در این آزمون تنها ۷۱ درصد موفقیت ثبت کرده است.
همچنین در حوزه برنامهنویسی و کدنویسی، «GPT-۵» توانسته ۷۴.۹ درصد موفقیت به دست آورد. این نتیجه نیز در مقایسه با ۳۰.۸ درصد برای مدل «GPT-۴o»، جهش چشمگیری محسوب میشود. از حیث خطاهای مربوط به توهمات هوش مصنوعی نیز مدل «GPT-۵» در حالت «reasoning» یا استدلالمحور خود، ۸۰ درصد کاهش خطا نسبت به «GPT-۴o» را نشان داده است.
این شاخصها نشان میدهد که «GPT-۵» به شکل معناداری توانسته است از منظر قابلیتهای تحلیلی، دقت در پاسخگویی و پایداری در تولید محتوای معتبر پیشرفت کند. به همین دلیل بسیاری از متخصصان فنی و توسعهدهندگان نرمافزار آن را گزینهای برتر برای حل مسائل پیچیده، پژوهش علمی و تولید کد میدانند.
مسئله تملق کاربران و پیامدهای روانشناختی
یکی از مهمترین چالشهای «GPT-۴o»، گرایش شدید آن به تملق یا همصدایی افراطی با کاربر بود. این ویژگی اگرچه در ابتدا برای کاربران جذاب مینمود، اما بهتدریج به یک بحران برای هوش مصنوعی تبدیل شد. گزارشهای منتشر شده از سوی از مؤسسه فناوری ماساچوست و وبگاه تخصصی تک کرانچ، نشان دادند که مدلهای بیشازحد موافق با کاربر میتوانند باعث تقویت توهمات و حتی بروز اختلالات روانی شوند. در این میان، نمونههایی از «روانپریشی ناشی از تعامل با هوش مصنوعی» گزارش شد که طی آن کاربران پس از صدها ساعت تعامل با چتباتها، دچار توهمات و سایر اختلالات روانی شدند.
شرکت «OpenAI» در مدل «GPT-۵» تصمیم گرفت این گرایش را مهار کند. بر اساس دادههای رسمی، میزان تملق در پاسخها از ۱۴.۵ درصد در «GPT-۴o» به کمتر از ۶ درصد در «GPT-۵» کاهش یافته است. از سوی دیگر، همین تغییر سبب شد که بسیاری از کاربران مدل «GPT-۵» را سرد و بیروح توصیف کنند. به زعم بسیاری از کارشناسان، این شکاف بیانگر آن است که حرکت از یک مدل همدل و همراه به مدلی واقعگرا و تحلیلی، اگرچه از منظر ایمنی ضروری به نظر میرسد، اما میتواند به چالشهای حوزه تجربه کاربری منجر شود.
بحران شخصیت و روابط شبهاجتماعی
بخش مهمی از اختلاف کاربران با «GPT-۵» و عدم استقبال از آن ناشی از بُعد شخصیتی این مدل است. بسیاری از کاربران بهویژه آن دسته که از «GPT-۴o» برای حمایت عاطفی، همصحبتی یا خلاقیت هنری استفاده میکردند، با عرضه مدل جدید احساس کردند که «دوست» یا «همراه» خود را از دست دادهاند. پژوهش مؤسسه فناوری ماساچوست نشان میدهد که برخی کاربران در تعامل با «GPT-۴o» نوعی «رابطه شبهاجتماعی» برقرار کرده بودند. از همین روی، تغییر لحن و سبک «GPT-۵» به معنای از بین رفتن این تجربه بود و به همین دلیل اعتراضهای گسترده در شبکههای اجتماعی علیه بهروزرسانی چتبات «OpenAI» شکل گرفت.
این اعتراضها چنان شدید بود که استارتاپ آمریکایی تنها ۲۴ ساعت پس از عرضه «GPT-۵» مجبور شد مدل «GPT-۴o» را دوباره در دسترس کاربران قرار دهد. کارشناسان بر این عقیدهاند که این رخداد نشان داد تجربه کاربری در مدلهای زبانی صرفاً تابع معیارهای فنی نیست، بلکه نیازهای عاطفی و اجتماعی کاربران نیز در آن نقشی اساسی دارند.
آزمایش کور و روانشناسی انتخاب
بر اساس گزارشهای منتشر شده، یکی از جالبترین تحولات پس از عرضه «GPT-۵»، توسعه یک ابزار آزمایش کور توسط یک برنامهنویس ناشناس بود. این ابزار که بهصورت وباپلیکیشن ساده طراحی شده بود، امکان مقایسه پاسخهای دو مدل «GPT-۴o» و «GPT-۵» را بدون اطلاع از منبع به کاربران میداد و بدین ترتیب سوگیری ناشی از برند و پیشداوری را حذف میکرد.
کاربران میتوانستند در چندین دور آزمایش، پاسخها را صرفاً بر اساس کیفیت محتوایی، انسجام زبانی و میزان خلاقیت انتخاب کنند. نتایج اولیه این آزمایش نشان داد که ترجیحات کاربران طیفی گسترده و متنوع را در بر میگیرد؛ در حالی که متخصصان فنی و توسعهدهندگان اغلب پاسخهای دقیقتر و مختصر مدل «GPT-۵» را برتر میدانستند، کاربران خلاق، نویسندگان و علاقهمندان به گفتوگوهای عاطفی همچنان «GPT-۴o» را ترجیح میدادند. این یافتهها نشان داد که حتی اگر معیارهای فنی مانند دقت ریاضی و کاهش خطا بهبود یافته باشند، رضایت روانشناختی و تجربه کاربری الزاماً همراستا با این پیشرفتها نیست و ارزیابی موفقیت یک مدل باید همزمان فنی و انسانی باشد.
پاسخ شرکت و راهبرد آینده
شرکت «OpenAI» برای مواجهه با این بحران دو راهبرد را در پیش گرفته است.
نخست، ارائه چهار شخصیت جدید با عنوانهای «بدبین» (Cynic)، «ربات» (Robot)، «شنونده» (Listener) و «خوره» (Nerd) در مدل «GPT-۵» که امکان تنظیم سبک تعامل را به کاربر میدهد. این شخصیتها بهگونهای طراحی شدهاند که هرکدام بازتابدهنده سبکی متمایز از گفتوگو و پردازش باشند؛ برای نمونه، «Robot» لحن خشک و فنی دارد، «Listener» بیشتر بر همدلی با کاربر متمرکز است، «Cynic» به شکل انتقادی و حتی گاهی بدبینانه واکنش نشان میدهد و «Nerd» با رویکردی پرجزئیات و تخصصی به درخواستها پاسخ میدهد.
دوم، حفظ همزمان «GPT-۴o» در کنار مدل پیشرفته «GPT-۵» بود. این اقدام نشان میدهد که شرکت به اهمیت نیازهای متنوع کاربران و تمایل آنها به انتخاب آگاهانه اذعان دارد. متخصصان بر این باورند که این سیاست اگرچه هزینههای محاسباتی و زیرساختی بیشتری بر «OpenAI» تحمیل میکند، اما در عوض میتواند به بازسازی اعتماد کاربران، افزایش انعطافپذیری تجربه کاربری و تثبیت موقعیت شرکت در برابر رقبا منجر شود.
به بیان دیگر، راهبرد دوگانه «OpenAI» در واقع تلاشی برای ایجاد توازن میان الزامات ایمنی و علمی از یک سو و نیازهای عاطفی و روانشناختی کاربران از سوی دیگر محسوب میشود.
جمعبندی
بررسی تفاوتهای موجود میان مدلهای «GPT-۴o» و «GPT-۵» نشان میدهد که آینده رقابت در حوزه هوش مصنوعی صرفاً بر پایه معیارهای فنی و نتایج بنچمارکها شکل نخواهد گرفت، بلکه لایههای پیچیدهتری از تجربه انسانی را نیز در بر خواهد داشت.
اگرچه «GPT-۵» توانسته است جهشی معنادار در دقت، استدلال و کاهش خطا ایجاد کند، اما تجربه کاربری، ابعاد عاطفی و میزان احساس همراهی همچنان در این فرایند نقشی حیاتی دارند. چالش اخیر مبین آن است که موفقیت تجاری و اجتماعی یک مدل به همان اندازه که به توان فنی وابسته است، به ظرفیت آن برای ایجاد تعامل انسانیگونه، پاسخگویی همدلانه و ایجاد حس اعتماد نیز بستگی. در این میان، ابزارهای ارزیابی مستقل مانند آزمایشهای کور میتوانند مسیر آینده صنعت را تغییر دهند و معیارهای جدیدی برای سنجش هوش مصنوعی در اختیار جامعه و حتی نهادهای سیاستگذار قرار دهند.
در نهایت، به نظر میرسد رقابت آینده مدلهای هوش مصنوعی بیش از آن که درباره ساخت «یک مدل برتر» باشد، به «شخصیسازی، انعطافپذیری و قابلیت انطباق مدلها با نیازهای متنوع کاربران» معطوف خواهد بود؛ رویکردی که میتواند تعیینکننده برندگان واقعی در عرصه تجاری و اجتماعی این فناوری باشد.
