نبرد مدلهای هوش مصنوعی مروری بر تفاوت های GPT-4o و GPT-5

نکسترو: نکسترو: عرضه مدل هوش مصنوعی جدید GPT-۵ توسط شرکت OpenAI در مرداد ۱۴۰۴ یکی از برجسته ترین رخدادهای اخیر در چشم انداز جهانی این فناوری نوظهور بحساب می آید.

به گزارش نکسترو به نقل از مهر؛ عرضه مدل هوش مصنوعی جدید «GPT-۵» توسط شرکت «OpenAI» در مرداد ۱۴۰۴ یکی از برجسته ترین رخدادهای اخیر در چشم انداز جهانی این فناوری نوظهور شمرده می شود، برای اینکه این عرضه نه تنها بعدی فناورانه دارد بلکه ابعاد اقتصادی، اجتماعی و روان شناختی آن نیز در سطح بین المللی مورد توجه قرار گرفته است. سم آلتمن، مدیر عامل این شرکت، در مراسم رونمایی با تکیه بر پیشرفت کمّی و کیفی قابلیت ها، مدل جدید را «هوشمندترین، سریع ترین و کاربردی ترین» مدل تا به امروز توصیف و بر کارکردهای آن در حوزه های تحقیقاتی، صنعتی و عمومی تاکید کرد. با این وجود، متخصصان اعتقاد دارند که در شرایط فعلی، آنچه اهمیت دارد شکاف میان انتظارات رسمی و تجربه زیسته کاربران است. واکنش کارشناسان و جامعه کاربران به سرعت نشان داد که گذار از مدل «GPT-۴o» به «GPT-۵» تنها یک جهش فنی نیست، بلکه تحولی است که نتایج عمیق بر تجربه کاربری، شیوه های تعامل، اعتماد عمومی و حتی سلامت روانی بعضی کاربران بر جای گذاشته است. بر همین اساس، گزارشگر مهر در این نوشتار کوتاه با اتکا به داده ها و گزارش های انتشار یافته در مورد مدل جدید شرکت «OpenAI» می کوشد ابعاد چندلایه این تفاوت ها را واکاوی نماید.

عملکرد فنی و معیارهای کمی

برمبنای نتایج رسمی برخی آزمون ها، مدل «GPT-۵» از منظر دقت و توانمندیهای فنی جهشی چشم گیر نسبت به «GPT-۴o» داشته است. این مدل در آزمون ریاضیات «AIME ۲۰۲۵» به دقت ۹۴.۶ درصد دست یافته، در حالیکه «GPT-۴o» در این آزمون تنها ۷۱ درصد موفقیت ثبت کرده است. همین طور در حوزه برنامه نویسی و کدنویسی، «GPT-۵» توانسته ۷۴.۹ درصد موفقیت به دست آورد. این نتیجه نیز در مقایسه با ۳۰.۸ درصد برای مدل «GPT-۴o»، جهش شایان توجهی شمرده می شود. از حیث خطاهای در ارتباط با توهمات هوش مصنوعی نیز مدل «GPT-۵» در حالت «reasoning» یا استدلال محور خود، ۸۰ درصد کاهش خطا نسبت به «GPT-۴o» را نشان داده است. این شاخصها نشان میدهد که «GPT-۵» به صورت معناداری توانسته است از منظر قابلیت های تحلیلی، دقت در پاسخگویی و پایداری در تولید محتوای معتبر پیشرفت کند. بنابراین خیلی از متخصصان فنی و توسعه دهندگان نرم افزار آنرا گزینه ای برتر برای حل مسایل پیچیده، پژوهش علمی و تولید کد می دانند.

مسئله تملق کاربران و نتایج روان شناختی

یکی از مهم ترین چالش های «GPT-۴o»، گرایش شدید آن به تملق یا هم صدایی افراطی با کاربر بود. این خاصیت بااینکه در ابتدا برای کاربران جذاب می نمود، اما بتدریج به یک بحران برای هوش مصنوعی تبدیل شد. گزارش های انتشار یافته از طرف از مؤسسه فناوری ماساچوست و وبگاه تخصصی تک کرانچ، نشان دادند که مدلهای بیش ازحد موافق با کاربر می توانند موجب تقویت توهمات و حتی بروز ناراحتی‌های روحی شوند. در این بین، نمونه هایی از «روان پریشی ناشی از تعامل با هوش مصنوعی» گزارش شد که طی آن کاربران بعد از صدها ساعت تعامل با چت بات ها، گرفتار توهمات و سایر ناراحتی‌های روحی شدند. شرکت «OpenAI» در مدل «GPT-۵» تصمیم گرفت این گرایش را مهار کند. برمبنای داده های رسمی، میزان تملق در پاسخ ها از ۱۴.۵ درصد در «GPT-۴o» به کمتر از ۶ درصد در «GPT-۵» کاسته شده است. از طرفی، همین تغییر سبب شد که خیلی از کاربران مدل «GPT-۵» را سرد و بی روح توصیف کنند. به زعم خیلی از کارشناسان، این شکاف بیان کننده آنست که حرکت از یک مدل همدل و همراه به مدلی واقع گرا و تحلیلی، بااینکه از منظر ایمنی ضروری به نظر می آید، اما می تواند به چالش های حوزه تجربه کاربری منجر شود.

بحران شخصیت و روابط شبه اجتماعی

بخش مهمی از اختلاف کاربران با «GPT-۵» و عدم استقبال از آن ناشی از بُعد شخصیتی این مدل است. خیلی از کاربران خصوصاً آن دسته که از «GPT-۴o» برای حمایت عاطفی، هم صحبتی یا خلاقیت هنری استفاده می کردند، با عرضه مدل جدید احساس کردند که «دوست» یا «همراه» خودرا از دست داده اند. پژوهش مؤسسه فناوری ماساچوست نشان میدهد که بعضی کاربران در تعامل با «GPT-۴o» نوعی «رابطه شبه اجتماعی» برقرار کرده بودند. از همین روی، تغییر لحن و سبک «GPT-۵» به معنای از میان رفتن این تجربه بود و بنابراین اعتراض های گسترده در شبکه های اجتماعی مقابل بروزرسانی چت بات «OpenAI» شکل گرفت. این اعتراض ها چنان شدید بود که استارتاپ آمریکایی تنها ۲۴ ساعت بعد از عرضه «GPT-۵» مجبور شد مدل «GPT-۴o» را باردیگر در دسترس کاربران قرار دهد. کارشناسان بر این عقیده اند که این رخداد نشان داد تجربه کاربری در مدلهای زبانی فقط تابع معیارهای فنی نیست، بلکه نیازهای عاطفی و اجتماعی کاربران نیز در آن نقشی اساسی دارند.

آزمایش کور و روان شناسی انتخاب

طبق گزارش های انتشار یافته، یکی از جالب ترین تحولات بعد از عرضه «GPT-۵»، توسعه یک ابزار آزمایش کور ازطریق یک برنامه نویس ناشناس بود. این ابزار که بصورت وب اپلیکیشن ساده طراحی شده بود، امکان مقایسه پاسخ های دو مدل «GPT-۴o» و «GPT-۵» را بدون اطلاع از منبع به کاربران می داد و بدین ترتیب سوگیری ناشی از برند و پیش داوری را حذف می کرد. کاربران می توانستند در چندین دور آزمایش، پاسخ ها را فقط برمبنای کیفیت محتوایی، انسجام زبانی و میزان خلاقیت انتخاب کنند. نتایج اولیه این آزمایش نشان داد که ترجیحات کاربران طیفی گسترده و متنوع را در بر می گیرد؛ در حالیکه متخصصان فنی و توسعه دهندگان اغلب پاسخ های دقیق تر و مختصر مدل «GPT-۵» را برتر می دانستند، کاربران خلاق، نویسندگان و علاقمندان به گفت وگوهای عاطفی بازهم «GPT-۴o» را ترجیح می دادند. این یافته ها نشان داد که حتی اگر معیارهای فنی مانند دقت ریاضی و کاهش خطا بهبود یافته باشند، رضایت روان شناختی و تجربه کاربری الزاماً هم راستا با این پیشرفت ها نیست و ارزیابی موفقیت یک مدل باید همزمان فنی و انسانی باشد.

پاسخ شرکت و راهبرد آینده

شرکت «OpenAI» برای مواجهه با این بحران دو راهبرد را در پیش گرفته است. نخست، ارائه چهار شخصیت جدید با عنوان های «بدبین» (Cynic)، «ربات» (Robot)، «شنونده» (Listener) و «خوره» (Nerd) در مدل «GPT-۵» که امکان تنظیم سبک تعامل را به کاربر می دهد. این شخصیت ها بگونه ای طراحی شده اند که هرکدام بازتاب دهنده سبکی متمایز از گفتگو و پردازش باشند؛ بطور مثال، «Robot» لحن خشک و فنی دارد، «Listener» بیشتر بر همدلی با کاربر متمرکز است، «Cynic» به صورت انتقادی و حتی گاهی بدبینانه واکنش نشان میدهد و «Nerd» با نگاهی پرجزئیات و تخصصی به درخواست ها پاسخ می دهد. دوم، حفظ هم زمان «GPT-۴o» در کنار مدل پیشرفته «GPT-۵» بود. این اقدام نشان میدهد که شرکت به اهمیت نیازهای متنوع کاربران و تمایل آنها به انتخاب آگاهانه اذعان دارد. متخصصان اعتقاد دارند که این سیاست بااینکه هزینه های محاسباتی و زیرساختی بیشتری بر «OpenAI» تحمیل می کند، اما در عوض می تواند به بازسازی اعتماد کاربران، افزایش انعطاف پذیری تجربه کاربری و تثبیت موقعیت شرکت در مقابل رقبا منجر شود. به بیان دیگر، راهبرد دوگانه «OpenAI» در واقع تلاشی برای ایجاد توازن میان الزامات ایمنی و علمی از یک سو و نیازهای عاطفی و روان شناختی کاربران از طرف دیگر شمرده می شود.

جمع بندی

بررسی تفاوت های موجود میان مدلهای «GPT-۴o» و «GPT-۵» نشان میدهد که آینده رقابت در حوزه هوش مصنوعی فقط بر پایه معیارهای فنی و نتایج بنچمارک ها شکل نخواهد گرفت، بلکه لایه های پیچیده تری از تجربه انسانی را نیز در بر خواهد داشت. بااینکه «GPT-۵» توانسته است جهشی معنادار در دقت، استدلال و کاهش خطا به وجود بیاورد، اما تجربه کاربری، ابعاد عاطفی و میزان احساس همراهی بازهم در این پروسه نقشی حیاتی دارند. چالش اخیر مبین آنست که موفقیت تجاری و اجتماعی یک مدل به همان اندازه که به توان فنی وابسته است، به ظرفیت آن برای ایجاد تعامل انسانی گونه، پاسخ گویی همدلانه و ایجاد حس اعتماد نیز بستگی. در این بین، ابزارهای ارزیابی مستقل مانند آزمایش های کور می توانند مسیر آینده صنعت را تغییر دهند و معیارهای جدیدی برای سنجش هوش مصنوعی در اختیار جامعه و حتی نهادهای سیاست گذار قرار دهند. سرانجام، به نظر می آید رقابت آینده مدلهای هوش مصنوعی بالاتر از آنکه درباره ی ساخت «یک مدل برتر» باشد، به «شخصی سازی، انعطاف پذیری و قابلیت انطباق مدلها با نیازهای متنوع کاربران» معطوف خواهد بود؛ نگاهی که می تواند تعیین کننده برندگان واقعی در زمینه تجاری و اجتماعی این فناوری باشد.
به اجمال، این شاخصها نشان میدهد که «GPT-۵» بصورت معناداری توانسته است از نظر قابلیت های تحلیلی، دقت در پاسخگویی و پایداری در تولید محتوای معتبر پیشرفت کند. متخصصان بر این باورند که این سیاست بااینکه هزینه های محاسباتی و زیرساختی بیشتری بر «OpenAI» تحمیل می کند، اما در عوض می تواند به بازسازی اعتماد کاربران، افزایش انعطاف پذیری تجربه کاربری و تثبیت موقعیت شرکت در مقابل رقبا منجر شود. چالش اخیر مبین آنست که موفقیت تجاری و اجتماعی یک مدل به همان اندازه که به توان فنی وابسته است، به ظرفیت آن برای ایجاد تعامل انسانی گونه، پاسخ گویی همدلانه و ایجاد حس اعتماد نیز بستگی.

منبع: nextru.ir

1404/06/07

12:44:23

5.0 / 5

285

تگها: اپل , اپلیكیشن , برنامه نویسی , پژوهش

مطلب را می پسندید؟

(1)

(0)

تازه ترین مطالب مرتبط

نظرات بینندگان در مورد این مطلب

لطفا شما هم در مورد این مطلب نظر دهید

= ۵ بعلاوه ۳

ارسال نظر

نبرد مدلهای هوش مصنوعی مروری بر تفاوت های GPT-4o و GPT-5

عملکرد فنی و معیارهای کمی

مسئله تملق کاربران و نتایج روان شناختی

بحران شخصیت و روابط شبه اجتماعی

آزمایش کور و روان شناسی انتخاب

پاسخ شرکت و راهبرد آینده

جمع بندی

پربیننده ترین ها

پربحث ترین ها

جدیدترین ها

نكسترو