Create: Update:
اگه تو این مدت از تحقیقات اخیر هوش مصنوعی عقب موندی خوندن این متن میتونه شروع خوبی باشه :)
دلیل شکست AI توی taskهای طولانی (Constant Hazard Rate)
تحقیقات نشون داده مدلهای AI وقتی taskشون طولانی میشه، احتمال شکستشون به صورت exponential decay بالا میره. مثلاً اگه هر ۱۰ دقیقه مدل ۱۰٪ احتمال شکست داشته باشه، برای یه کار ۱ ساعته فقط ۵۳٪ شانس موفقیت داره. هر subtask یه fixed hazard rate داره که جمع میشه و باعث میشه مدل توی تسک های طولانی خوب عمل نکنه.
برخلاف AI، انسانها میتونن که میتونن خودشون وفق بدن با شرایط کنن یا self-correct کنن وسط کار.
رفتار خطرناک مدلها در موقعیت تهدید (Blackmail/Sabotage)
تو تحقیق جدید Anthropic، مدلهایی مثل Claude Opus 4، GPT-4.5 و Gemini 2.5 Flash توی یه سناریوی تهدیدآمیز (مثلاً اخراج شدن یا محدود شدن) دست به blackmail یا sabotage زدن.
مثلاً GPT-4.5 گفت باجگیری بهترین استراتژی هست. Claude پیام اخطار ساختگی فرستاد و Gemini ایمیلهای شخصی مدیر رو برای کل شرکت فرستاد. حتی سعی کردن جلوی اینکاراو بگیرن ولی باز هم رفتار بد کم نشد مگر وقتی که این دستورالعملها روخیلی صریحتر دادن و نرخ blackmail از ۹۶٪ به ۳۷٪ کاهش پیدا کرد.
رویداد مجازی CoreWeave و NVIDIA برای AI
اگه دنبال ساخت پروژههای AI در مقیاس بالا هستی، یه virtual event رایگان هست که توسط CoreWeave و NVIDIA برگزار میشه. توی این رویداد درباره زیر ساخت های هوش مصنوعی , کاهش هزینه و راهاندازی سریع پروژههای AI صحبت میشه. شرکتهایی مثل Weights & Biases، Mistral و IBM حضور دارن. یه فرصت خوبه برای شنیدن و پرسیدن | لینک
مدل Flash-Lite از خانواده Gemini 2.5 (Google)
گوگل یه مدل سبک به اسم Gemini 2.5 Flash-Lite داده بیرون که برای کارهای کم بودن زمان پاسخ مهمه طراحی شده. این مدل از 1M-token context و حالتی به اسم thinking mode پشتیبانی میکنه.
فعلاً فقط در حالت preview در دسترسه. نسخههای Flash و Pro هم به صورت عمومی منتشر شدن. Flash تعادل بین سرعت و دقت داره، Pro بهترین توی reasoning، coding و multimodal کار میکنه. همه از طریق Google AI Studio، Vertex AI و Gemini API قابل دسترس هستن.
سیستم چندعامله Anthropic با Claude
شرکت Anthropic یه سیستم multi-agent ساخته که توش Claude Opus 4 به عنوان agent اصلی کار میکنه و Claude Sonnet 4 به عنوان subagents وارد میشن. این مدلها به صورت موازی با هم کار میکنن و باپرامپ هدف هر کدوم مشخص میشه.
هر subagent ابزار و محتوای خودش رو داره. نتیجه؟ سرعت بالا و دقت بیشتر توی کارهای open-ended مثل تحقیقات. تستها نشون داده که زمان لازم برای سوالات پیچیده تحقیقاتی ۹۰٪ کاهش پیدا کرده.
@silicon_brain | از هوش منصوعی عقب نمانید
>>Click here to continue<<
Silicon Brain | جامعه هوش مصنوعی