
مدلهای هوش مصنوعی ممکن است بهتر از شما پیشبینی کنند چه چیزی خواهید خرید
خلاصه یک مطالعه جدید نشان میدهد که مدلهای زبان بزرگ (LLM) میتوانند انگیزه خرید انسانی را با نقشهبرداری پاسخهای متنی آزاد به ارزیابیهای لیکرت از طریق شباهت معنایی تقلید کنند. روش 90٪ از...
خلاصه
- یک مطالعه جدید نشان میدهد که مدلهای زبان بزرگ (LLM) میتوانند انگیزه خرید انسانی را با نقشهبرداری پاسخهای متنی آزاد به ارزیابیهای لیکرت از طریق شباهت معنایی تقلید کنند.
- روش 90٪ از اعتبارسنجی تست-بازآزمون انسانی را بر روی 9300 پاسخ واقعی نظرسنجی به دست آورد.
- این مطالعه سوالاتی درباره تعصب، تعمیم و اینکه تا چه حد “مصرفکنندگان مصنوعی” میتوانند جایگزین افراد واقعی شوند، مطرح میکند.
فراموش کنید گروههای متمرکز را: یک مطالعه جدید نشان داده است که مدلهای زبان بزرگ میتوانند با دقت چشمگیری پیشبینی کنند که آیا شما میخواهید چیزی بخرید و بهطور قابل توجهی از ابزارهای بازاریابی سنتی بهتر عمل میکنند.
محققان دانشگاه مانهایم و ETH زوریخ دریافتند که مدلهای زبانی بزرگ میتوانند تمایل خرید انسان را تقلید کنند—معیار “چقدر احتمال دارد این محصول را بخرید؟” که مورد علاقه بازاریابان است—با تبدیل متن آزاد به دادههای ساختار یافته نظرسنجی.
در یک کاغذ هفته گذشته، تیم روشی به نام “معرفی کرد. “ارزیابی شباهت معنایی” که تبدیل پاسخهای باز مدل به عددی ” لیکرت رتبهبندیها، مقیاس پنجنقطهای که در تحقیقات سنتی مصرفکننده استفاده میشود.
به جای اینکه از یک مدل خواسته شود که عددی بین یک تا پنج انتخاب کند، پژوهشگران از آن خواستند که به طور طبیعی پاسخ دهد—«من حتماً این را میخرم»، یا «شاید اگر تخفیف داشت»—و سپس اندازهگیری کردند که این جملات چقدر به پاسخهای کاننیکال مانند «من حتماً این را میخرم» یا «من این را نمیخرم» نزدیک است.
هر پاسخ در فضای نشانهگذاری به نزدیکترین بیانیه مرجع مرتبط شد و بهطور مؤثری متن LLM را به ارزیابیهای آماری تبدیل کرد. نویسندگان نوشتند: “ما نشان میدهیم که بهینهسازی برای شباهت معنایی به جای برچسبهای عددی، توزیعهای قصد خرید را بهدست میآورد که بهخوبی با دادههای نظرسنجی انسانی مطابقت دارد.” “پاسخهای تولیدشده توسط LLM به ۹۰٪ از قابلاعتماد بودن نظرسنجیهای مکرر انسانی دست یافتند در حالی که تنوع طبیعی در نگرشها را حفظ میکردند.”
در آزمایشها بر روی ۹۳۰۰ پاسخ واقعی انسان به نظرسنجی درباره محصولات مراقبت شخصی، روش SSR پاسخدهندگان مصنوعی تولید کرد که توزیعهای لیکرت آنها تقریباً مشابه نسخههای اصلی بود. به عبارت دیگر: وقتی خواسته شد “مثل مصرفکنندگان فکر کنند”، مدلها این کار را انجام دادند.
چرا این امر مهم است
این یافته میتواند نحوه انجام آزمایشات محصول و تحقیقات بازار توسط شرکتها را متحول کند. نظرسنجیهای مصرفکنندگان به خاطر هزینه بالا، زمانبر بودن و آسیبپذیری در برابر سوگیری شناخته شدهاند. پاسخدهندگان مصنوعی—اگر مانند پاسخدهندگان واقعی رفتار کنند—میتوانند به شرکتها کمک کنند تا هزاران محصول یا پیام را با هزینهای بسیار کمتر غربال کنند.
این همچنین یک ادعای عمیقتر را تأیید میکند: اینکه هندسه فضای معنایی یک مدل زبان بزرگ فقط فهم زبان را کدگذاری نمیکند بلکه استدلال نگرشی با مقایسه پاسخها در فضای جاسازی به جای برخورد با آنها به عنوان متنهای صریح، این مطالعه نشان میدهد که معناشناسی مدل میتواند به طور شگفتانگیزی جایگزین قضاوت انسانی شود.
در عین حال، این مسئله خطرات اخلاقی و روششناختی آشنا را به همراه دارد. محققان تنها یک دسته محصول را آزمایش کردهاند و مشخص نیست که آیا همان رویکرد برای تصمیمات مالی یا موضوعات سیاسی حساس نیز صدق میکند یا خیر. و “مصرفکنندگان” مصنوعی به راحتی میتوانند به مصنوعی تبدیل شوند. هدفها این تکنیکهای مدلسازی مشابه میتوانند به بهینهسازی اقناع سیاسی، تبلیغات یا نیشگونهای رفتاری کمک کنند.
همانطور که نویسندگان بیان کردهاند، “فشارهای بهینهسازی مبتنی بر بازار میتوانند به طور سیستماتیک هماهنگی را کاهش دهند” — عبارتی که فراتر از بازاریابی منعکس میشود.
یادداشتی از تردید
نویسندگان تأکید میکنند که حوزه آزمون آنها—محصولات مراقبت شخصی—محدود است و ممکن است به خریدهای با ریسک بالا یا موارد احساسی تعمیم نپذیرد. همچنین، نقشهبرداری SSR به بیانیههای مرجع بهدقت انتخابشده بستگی دارد: تغییرات جزئی در واژگان میتواند نتایج را تغییر دهد. علاوه بر این، این مطالعه به دادههای نظرسنجی انسانی به عنوان “حقیقت بنیادی” اتکا دارد، هرچند که این دادهها به طور مشهور نویز بالا و تعصب فرهنگی دارند.
منتقدان اشاره میکنند که شباهت مبتنی بر جاسازی فرض میکند که بردارهای زبانی بهطور منظم به نگرشهای انسانی نگاشته میشوند، فرضی که ممکن است زمانی که زمینه یا طعنه وارد میشود، ناکام بماند. اعداد قابلاعتماد خود مقاله— ۹۰٪ از سازگاری آزمایش مجدد انسانی—خود را متاثرکننده میسازد اما هنوز هم جا برای انحراف قابل توجه باقی میگذارد. بهطور خلاصه، این روش کار میکند. به طور متوسط اما هنوز مشخص نیست که آیا این میانگینها تنوع واقعی انسانی را دربرمیگیرد یا فقط بازتاب تعصبهای آموزشی مدل است.
تصویر بزرگتر
علاقهی académیک به “مدلسازی مصرفکننده سنتتیک” در سال 2025 افزایش یافته است در حالی که شرکتها در حال آزمایش گروههای کانونی مبتنی بر هوش مصنوعی و نظرسنجیهای پیشبینیکننده هستند. کارهای مشابهی از سوی MIT و دانشگاه کمبریج نشان داده است که LLMها میتوانند با قابلیت اعتماد متوسط بخشهای جمعیتی و روانسنجی را تقلید کنند، اما هیچیک از آنها قبلاً تطابق آماری نزدیکی با دادههای واقعی نیت خرید نشان نداده است.
در حال حاضر، روش SSR همچنان یک پروتوتایپ تحقیقاتی است، اما نشانههایی از آیندهای را به نمایش میگذارد که در آن LLMها ممکن است نه تنها به سوالات پاسخ دهند بلکه خود عمومی را نمایندگی کنند.
اینکه آیا این یک پیشرفت است یا یک توهم در حال شکلگیری هنوز مورد بحث است.
عملاً هوشمند خبرنامه
یک سفر هفتگی هوش مصنوعی که توسط جن، یک مدل هوش مصنوعی تولیدی، روایت میشود.