Запрещённая в РФ Meta* представила две новые модели Llama 4, которые, по заявлению самой компании, опережают OpenAI и Google по целому ряду ключевых метрик.
🟢 Llama 4 Scout — компактная модель, рассчитанная на запуск всего на одном GPU Nvidia H100, при этом с контекстным окном 10 млн токенов. Meta утверждает, что Scout превосходит Gemma 3, Gemini 2.0 Flash-Lite и Mistral 3.1 по результатам публичных бенчмарков.
🟡 Llama 4 Maverick — модель GPT-4o-класса, также превосходящая Gemini 2.0 Flash и GPT-4o, но при этом использующая менее половины активных параметров по сравнению с аналогами. В задачах программирования и логического вывода результаты сравнимы с DeepSeek-V3.
🔴 Llama 4 Behemoth (в разработке) — гигант на 2 трлн параметров (288 млрд активных). Meta утверждает, что Behemoth способен превзойти GPT-4.5 и Claude Sonnet 3.7 на STEM-бенчмарках.
🧠 Все модели построены по архитектуре MoE (Mixture of Experts).
🗓 Подробности обещают раскрыть на LlamaCon 29 апреля.
🤔Хотя Meta называет Llama 4 open-source, лицензия запрещает коммерческое использование компаниям с аудиторией свыше 700 млн MAU без отдельного разрешения.
🤨lmarena пишут, что Llama 4 Maverick заняла 2-е место в общем зачете. И якобы она №1 открытая модель, превосходящая DeepSeek. Как было сказано выше, у экспертного ИИ-сообщества есть вопросики к открытости.
Пользователи в комментариях очень неоднозначно отнеслись к benchmarks и результатам арены:
Я могу со 100% уверенностью сказать, что GPT 4.5 пишет лучше, чем Gemini 2.5. Забейте на бенчамарк, если он не соответствует реальности.
Каждый раз, когда я вижу этот чарт, а Claude в нем нет, это напоминает мне о том, насколько несерьезным является этот бенчмарк.
Первое впечатление от кодирования с помощью Maverick: не соответствует бенчмаркам; DeepSeek v3 значительно лучше.
модель 400b llama4... отстой
Такое ощущение, что эта модель обучалась на инфомусоре из Instagram, Messanger, Whatsapp.
Open source? 🤣
Те, кто пишет, что новые модели Llama 4 "рвут" ChatGPT и Gemini — не тестировали их от слова совсем. Maverick подвергается критике за слабую производительность в задачах кодирования. Отдельные пользователи сообщают о галлюцинациях и ошибках в задачах программирования.
Llama 4 (все модели) не просто плохи, а просто мусор, их контекстное окно в 10 миллионов токенов — не более чем маркетинговая ерунда, поскольку качество ответов снижается пропорционально длине предоставленного контекста.
— пишут в X.
Llama 4 Maverick набрала мизерные 16% в бенчмарке aider polyglot coding. Llama 4 находится на одном уровне с Qwen 2.5-Coder32B-Instruct. До Claude, Gemini, DeepSeek, GPT-4o, как до Китая раком.
По мнению отдельных конспирологов, топовые ИИ-компании в погоне за рейтингами платят "кому нужно", чтобы быть в топе lmarena, хотя пруфов не дают.
Глянуть можно на Hugging.
Модель недоступна в ЕС из-за регуляторных ограничений.
*Деятельность Meta (соцсети Facebook, Instagram, Threads) запрещена в России как 🏴☠️ экстремистская.