TG Telegram Group Link
Channel: Агенты ИИ | AGI_and_RL
Back to Bottom
Сравнение Llama 3 vs Llama 2 от самих авторов 🤨
Please open Telegram to view this post
VIEW IN TELEGRAM
https://huggingface.co/IlyaGusev/saiga_llama3_8b

Обучал unsloth'ом чуть больше часа на RTX 4090. Сейчас ещё поставил обучение старым кодом. Особо не тыкал, по тестовым промптам вполне неплохо. GGUF будет, но завтра.
сайга на Llama 3, чтобы русский вкрутить 🔼
Please open Telegram to view this post
VIEW IN TELEGRAM
🎙— Радиоэфир "Embodied AI"

Мы знаем, что у нас активная аудитория и хотим попробовать новый формат - Радиоэфир!

В этом формате наши руководители, сотрудники и приглашенные гости будут делиться своим знанием, видением и обсуждать новости по выбранной теме.
У вас, как наших подписчиков, будет не только возможность послушать, но и поучаствовать в обсуждении и задать свои вопросы!

🗓 Дата: В пятницу 19.04.24 в 17.00

Спикеры:
- Александр Панов, руководитель Центра когнитивного моделирования МФТИ
- Алексей Ковалёв, доцент Центра когнитивного моделирования МФТИ

Присоединяйтесь к диалогу, делитесь опытом и участвуйте в обсуждении!
Please open Telegram to view this post
VIEW IN TELEGRAM
апаздал немножечко с форвардом... 😕 Но вдруг кому-то интересно, там в канале эфирчик
Please open Telegram to view this post
VIEW IN TELEGRAM
DARPA продолжает разработки по ИИ для Air Combat с истребителями. И вот они прошли важный рубеж.

ACE AI автономно управлял специально модифицированным F-16 (такая версия называется X-62A, или VISTA - Variable In-Flight Simulator Test Aircraft) при проведении боевых маневров против человека в воздушном бою.
Как понял, произошло это еще в сентябре 2023 на базе ВВС Эдвардс (Edwards Air Force Base) в Калифорнии.
При этом в X-62A также сидел пилот, но его вмешательства не потребовалось.

Сама программа ACE (Air Combat Evolution) стартовала в 2019 году.
Еще в 2020 были проведены испытания AlphaDogFight, в которых моделировались маневры в разных сценариях воздушного боя. Тогда ИИ-агент от компании Heron Systems доминировал над реальным опытным пилотом ВВС США «выигрывая со счетом 5:0 за счет агрессивных и точных маневров, которые пилот-человек не мог превзойти»

DARPA планирует продолжать эксперименты.

Такие дела... Страшно интересно.

Хотелось бы знать что там внутри. Использовали RL?

Посмотреть видосик от ДАРПЫ по поводу:
https://www.youtube.com/watch?v=C8yjtaZfNCw

Почитать https://thedebrief.org/darpas-groundbreaking-ace-program-and-x-62a-becomes-first-ai-controlled-jet-to-dogfight-against-manned-f-16-in-real-world/
Forwarded from Derp Learning
Improving microbial phylogeny with citizen science within a mass-market video game

Наконец-то, статья, переплюнувшая статью Google Gemini по количеству контрибьюторов 😅

Если кратко - учёные, исследовавшие днк кишечной микрофлоры, запартнерились с gearbox и встроили в borderlands мини-игру, в которой игроки чинили реальные последовательности ДНК.

В итоге в мини-игру поиграло более 4 млн человек, решив 135 миллионов задач. Несложно прикинуть, сколько бы стоила обработка такого объема данных наемными людьми.
Вот это я понимаю краудсорсинг.

Образцы ДНК, кстати, были взяты из фекалий, чем можно объяснить повышенный интерес геймеров
/s


Пейпер
Надеплоил llama3 70b, собираем синту под русские инструкт датасеты, приходите тыкаться!

@vikhrbot
Недавняя лекция-презентация от Яна ЛеКуна про Objective-Driven AI на 97 страничек

Про авторегрессионные модели (и их ограничения),
Energy-Based Models,
про Self-Supervised Learning,
World Models,
JEPA

https://drive.google.com/file/d/1Ymx_LCVzy7vZXalrVHPXjX9qbpd9k_bo/view

Видео: https://www.youtube.com/watch?v=MiqLoAZFRSE
Нашел на ютубе интервью с Ричардом Саттоном вышедшее пару месяцев назад.

https://www.youtube.com/watch?v=zZuh8YUBeDY

Ричард - один из создателей современного обучения с подкреплением и автор популярной книги "Reinforcement learning: An Introduction".

Статьи:
https://scholar.google.com/citations?hl=ru&user=6m4wv6gAAAAJ

На самом деле получилось достаточно базовое интервью, по 5 минуток пообсуждали планы Ричарда и разные ИИ-темы.

*Про то, что для ИИ важна цель;
*про The Alberta Plan;
*про коллабу с Кармаком;
ну и другие.

The Alberta Plan - это в общем-то реальный план по ресерчу и созданию агентов, "которые взаимодействуют с гораздо более сложным миром и способны предсказывать и контролировать свои сенсорные входные сигналы".
И там реально описана roadmap по созданию прототипа такого агента.
Выпустили его в 2022 году:

The Alberta Plan
https://arxiv.org/abs/2208.11173

Ричард Саттон и Джон Кармак заколлабились в 2023, для совместной работы над ИИ в Keen Technologies: https://www.amii.ca/latest-from-amii/john-carmack-and-rich-sutton-agi/
DeepMindы подогнали интересную библиотеку для визуализации и анализа LLMок - Penzai

https://github.com/google-deepmind/penzai

Вроде как можно работать с архитектурой модельки, модифицировать уже натрейненые нейронки, визуализировать слои, ну и всякое interpretibility делать

Подготовлены несколько ноутбуков (для колаба и гегла) с примерами: https://github.com/google-deepmind/penzai/tree/main/notebooks

Все примеры пока крутятся вокруг работы с гугловой Gemma.

ну и доку читать надо: https://penzai.readthedocs.io/en/stable/index.html
Случайно наткнулся на прикольную либку, где авторы вкручивают разные механизмы для улучшения рассуждений с ллмками: реварды, поиск и в каком-то виде ворлд моделсы.
Не уверен, что это можно просто взять и использовать, но оно развивается и поразбирать отдельные механизмы можно.

Как понял из последних апдейтов туда и лламу 3 вкрутили.

https://www.llm-reasoners.net/

https://github.com/maitrix-org/llm-reasoners

И лидерборд ведут:
https://www.llm-reasoners.net/leaderboard
🎓 — Семинар 29. Curriculum Learning: выбор последовательности задач для обучения с подкреплением | Мария Нестерова

Завтра на семинаре выступит выпускница нашей магистерской программы МТИИ и ныне аспирантка нашего Центра, у которой уже 2 статьи на А*!

Если перед агентом стоит сложная задача, то для её освоения с нуля может потребоваться много времени. Один из способов решить эту проблему — рассмотреть сначала более простые задачи. Расписание обучения (Curriculum) позволяет автоматически выбрать задачи и определить порядок их изучения, что ускоряет процесс освоения сложных задач.

В первой части доклада будут рассмотрены существующие подходы к составлению расписания обучения. В рамках нашего исследования расписание обучения представлено в виде мета-агента, который выбирает задачи на основе анализа способностей обучающегося агента. Вторая часть доклада будет посвящена нашему методу и текущим результатам

📹 Трансляция Youtube

Подключайтесь к живому обсуждению и задавайте вопросы в прямом эфире! Ждем всех!

#семинары #RL
Тут недавно статья выходила

Can Language Models Solve Olympiad Programming?
https://arxiv.org/abs/2404.10952v1

В работе авторы представили бенчмарк USACO из 307 задачек
https://princeton-nlp.github.io/USACOBench/

В GPT-4 в 0-shot с COT смогла решить 8.7% задачек.
После добавления self-reflection и retrieval поверх книги по олимп программированию https://cp-algorithms.com/ и базы решенных задачек GPT-4 смогла решить 20.2%.
❗️Под базой понимаются те же задачи и решения (с кодом) из USACO датасета, за исключением задачи, которая сейчас решается. (да, выглядит подозрительно, главное чтобы не было утечек).

Хотелось бы чтобы оно работало и для новых задачек, но это надо тестить.

Этот подход имплементнули для ленгчейна, которым многие пользуются, поэтому мб будет полезно: https://langchain-ai.github.io/langgraph/tutorials/usaco/usaco/
Forwarded from rizzearch
Offline Actor-Critic Reinforcement Learning Scales to Large Models

В основном ресерч в сфере рл происходит на маленьких моделях пушто
- и небольшие модели способны решить задачи при грамотном обучении и грамотной архитектуре (эмпирический факт), в основном это млп с релу/лики_релу и леернормой и все
- есть много проблем в сетапе рл, которые надо решать до того, как задумываешься о модельке и ее размерах
- если увеличивать размер модели, то это доп проблемы, потому что увеличиваются риски для нестабильности, вырожденности и всего такого

Но дипмаинд решил разнести и эту парадигму и отскейлить рл модели до больших размеров
Как оказывается, актор-критик в совокупности с perceiver'ом, который здесь может обрабатывать разные стейты для разных роботов (или симулякров роботов) + постепенно отходить от бихевиор клонинга, и выбивать высокий скор как на средах, где данные собраны хорошо, так и плохо!!

И это все на 132 тасках с непрерывными действиями🥸

👀LINK

#rl #offlinerl #multitask #behaviorcloning #largemodels #scalinglaws
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Интересный ресурс по RLю и оптимальному управлению от Dimitri P. Bertsekas
Для тех кто готов сильно вникать.

https://web.mit.edu/dimitrib/www/RLbook.html

Автор 4 года ведет курс по RLю в Университете Аризоны, и за это время скомпилил большую книжку на 400+ страничек.
Также в книжке есть и приложения типа TSP.

На инглише, конечно.

+ там много видеолекций и отдельно книжечка

Lessons from AlphaZero for
Optimal, Model Predictive, and
Adaptive Control


https://web.mit.edu/dimitrib/www/LessonsfromAlphazero.pdf
Forwarded from black_samorez
И еще апдейты по AQLM:

Новые модели: мы квантизовали и выложили Llama-3 и Command-R. Последнюю сжали так сильно, что влезает в 3090 без оффлодинга. Актуальные чекпоинты и новые модели добавляются сюда: HF hub.

Деплой в прод: мы помогли интегрировать AQLM в vLLM. Теперь можно легко и непринужденно разворачивать endpoint с автоматическим батчинком и эффективными кернелами. Llama-3-70b так генерит со скоростью 6.8 Tok/s на 3090. Более быстрые кернелы для больших батчей тоже прикрутили, чтобы высоконагруженные эндпоинты были эффективнее. Краткая вводная на колабе.

3 borderline accept из 4: AQLM взяли на ICML, так что я теперь официально undergrad со статьей 1* автором на ICML💃💃💃
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
HTML Embed Code:
2024/05/16 15:16:20
Back to Top