Channel: Агенты ИИ | AGI_and_RL
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Старший Авгур
https://huggingface.co/IlyaGusev/saiga_llama3_8b
Обучал unsloth'ом чуть больше часа на RTX 4090. Сейчас ещё поставил обучение старым кодом. Особо не тыкал, по тестовым промптам вполне неплохо. GGUF будет, но завтра.
Обучал unsloth'ом чуть больше часа на RTX 4090. Сейчас ещё поставил обучение старым кодом. Особо не тыкал, по тестовым промптам вполне неплохо. GGUF будет, но завтра.
сайга на Llama 3, чтобы русский вкрутить 🔼
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Center for Cognitive Modeling
Мы знаем, что у нас активная аудитория и хотим попробовать новый формат - Радиоэфир!
В этом формате наши руководители, сотрудники и приглашенные гости будут делиться своим знанием, видением и обсуждать новости по выбранной теме.
У вас, как наших подписчиков, будет не только возможность послушать, но и поучаствовать в обсуждении и задать свои вопросы!
Спикеры:
- Александр Панов, руководитель Центра когнитивного моделирования МФТИ
- Алексей Ковалёв, доцент Центра когнитивного моделирования МФТИ
Присоединяйтесь к диалогу, делитесь опытом и участвуйте в обсуждении!
Please open Telegram to view this post
VIEW IN TELEGRAM
апаздал немножечко с форвардом... 😕 Но вдруг кому-то интересно, там в канале эфирчик
Please open Telegram to view this post
VIEW IN TELEGRAM
DARPA продолжает разработки по ИИ для Air Combat с истребителями. И вот они прошли важный рубеж.
ACE AI автономно управлял специально модифицированным F-16 (такая версия называется X-62A, или VISTA - Variable In-Flight Simulator Test Aircraft) при проведении боевых маневров против человека в воздушном бою.
Как понял, произошло это еще в сентябре 2023 на базе ВВС Эдвардс (Edwards Air Force Base) в Калифорнии.
При этом в X-62A также сидел пилот, но его вмешательства не потребовалось.
Сама программа ACE (Air Combat Evolution) стартовала в 2019 году.
Еще в 2020 были проведены испытания AlphaDogFight, в которых моделировались маневры в разных сценариях воздушного боя. Тогда ИИ-агент от компании Heron Systems доминировал над реальным опытным пилотом ВВС США «выигрывая со счетом 5:0 за счет агрессивных и точных маневров, которые пилот-человек не мог превзойти»
DARPA планирует продолжать эксперименты.
Такие дела... Страшно интересно.
Хотелось бы знать что там внутри. Использовали RL?
Посмотреть видосик от ДАРПЫ по поводу:
https://www.youtube.com/watch?v=C8yjtaZfNCw
Почитать https://thedebrief.org/darpas-groundbreaking-ace-program-and-x-62a-becomes-first-ai-controlled-jet-to-dogfight-against-manned-f-16-in-real-world/
ACE AI автономно управлял специально модифицированным F-16 (такая версия называется X-62A, или VISTA - Variable In-Flight Simulator Test Aircraft) при проведении боевых маневров против человека в воздушном бою.
Как понял, произошло это еще в сентябре 2023 на базе ВВС Эдвардс (Edwards Air Force Base) в Калифорнии.
При этом в X-62A также сидел пилот, но его вмешательства не потребовалось.
Сама программа ACE (Air Combat Evolution) стартовала в 2019 году.
Еще в 2020 были проведены испытания AlphaDogFight, в которых моделировались маневры в разных сценариях воздушного боя. Тогда ИИ-агент от компании Heron Systems доминировал над реальным опытным пилотом ВВС США «выигрывая со счетом 5:0 за счет агрессивных и точных маневров, которые пилот-человек не мог превзойти»
DARPA планирует продолжать эксперименты.
Такие дела... Страшно интересно.
Хотелось бы знать что там внутри. Использовали RL?
Посмотреть видосик от ДАРПЫ по поводу:
https://www.youtube.com/watch?v=C8yjtaZfNCw
Почитать https://thedebrief.org/darpas-groundbreaking-ace-program-and-x-62a-becomes-first-ai-controlled-jet-to-dogfight-against-manned-f-16-in-real-world/
YouTube
DARPA ACE & USAF X-62A Achieve World First for AI in Aerospace
DARPA’s Air Combat Evolution (ACE) program has achieved the first-ever in-air tests of AI algorithms autonomously flying a fighter jet against a human-piloted fighter jet in within-visual-range combat scenarios (sometimes referred to as “dogfighting”).
In…
In…
Forwarded from Derp Learning
Improving microbial phylogeny with citizen science within a mass-market video game
Наконец-то, статья, переплюнувшая статью Google Gemini по количеству контрибьюторов 😅
Если кратко - учёные, исследовавшие днк кишечной микрофлоры, запартнерились с gearbox и встроили в borderlands мини-игру, в которой игроки чинили реальные последовательности ДНК.
В итоге в мини-игру поиграло более 4 млн человек, решив 135 миллионов задач. Несложно прикинуть, сколько бы стоила обработка такого объема данных наемными людьми.
Вот это я понимаю краудсорсинг.
Образцы ДНК, кстати, были взяты из фекалий, чем можно объяснить повышенный интерес геймеров
/s
Пейпер
Наконец-то, статья, переплюнувшая статью Google Gemini по количеству контрибьюторов 😅
Если кратко - учёные, исследовавшие днк кишечной микрофлоры, запартнерились с gearbox и встроили в borderlands мини-игру, в которой игроки чинили реальные последовательности ДНК.
В итоге в мини-игру поиграло более 4 млн человек, решив 135 миллионов задач. Несложно прикинуть, сколько бы стоила обработка такого объема данных наемными людьми.
Вот это я понимаю краудсорсинг.
Образцы ДНК, кстати, были взяты из фекалий, чем можно объяснить повышенный интерес геймеров
/s
Пейпер
Nature
Improving microbial phylogeny with citizen science within a mass-market video game
Nature Biotechnology - Gamification of the multiple sequence alignment problem improves microbial phylogeny estimates.
Forwarded from Love. Death. Transformers.
Недавняя лекция-презентация от Яна ЛеКуна про Objective-Driven AI на 97 страничек
Про авторегрессионные модели (и их ограничения),
Energy-Based Models,
про Self-Supervised Learning,
World Models,
JEPA
https://drive.google.com/file/d/1Ymx_LCVzy7vZXalrVHPXjX9qbpd9k_bo/view
Видео: https://www.youtube.com/watch?v=MiqLoAZFRSE
Про авторегрессионные модели (и их ограничения),
Energy-Based Models,
про Self-Supervised Learning,
World Models,
JEPA
https://drive.google.com/file/d/1Ymx_LCVzy7vZXalrVHPXjX9qbpd9k_bo/view
Видео: https://www.youtube.com/watch?v=MiqLoAZFRSE
Нашел на ютубе интервью с Ричардом Саттоном вышедшее пару месяцев назад.
https://www.youtube.com/watch?v=zZuh8YUBeDY
Ричард - один из создателей современного обучения с подкреплением и автор популярной книги "Reinforcement learning: An Introduction".
Статьи:
https://scholar.google.com/citations?hl=ru&user=6m4wv6gAAAAJ
На самом деле получилось достаточно базовое интервью, по 5 минуток пообсуждали планы Ричарда и разные ИИ-темы.
*Про то, что для ИИ важна цель;
*про The Alberta Plan;
*про коллабу с Кармаком;
ну и другие.
The Alberta Plan - это в общем-то реальный план по ресерчу и созданию агентов, "которые взаимодействуют с гораздо более сложным миром и способны предсказывать и контролировать свои сенсорные входные сигналы".
И там реально описана roadmap по созданию прототипа такого агента.
Выпустили его в 2022 году:
The Alberta Plan
https://arxiv.org/abs/2208.11173
Ричард Саттон и Джон Кармак заколлабились в 2023, для совместной работы над ИИ в Keen Technologies: https://www.amii.ca/latest-from-amii/john-carmack-and-rich-sutton-agi/
https://www.youtube.com/watch?v=zZuh8YUBeDY
Ричард - один из создателей современного обучения с подкреплением и автор популярной книги "Reinforcement learning: An Introduction".
Статьи:
https://scholar.google.com/citations?hl=ru&user=6m4wv6gAAAAJ
На самом деле получилось достаточно базовое интервью, по 5 минуток пообсуждали планы Ричарда и разные ИИ-темы.
*Про то, что для ИИ важна цель;
*про The Alberta Plan;
*про коллабу с Кармаком;
ну и другие.
The Alberta Plan - это в общем-то реальный план по ресерчу и созданию агентов, "которые взаимодействуют с гораздо более сложным миром и способны предсказывать и контролировать свои сенсорные входные сигналы".
И там реально описана roadmap по созданию прототипа такого агента.
Выпустили его в 2022 году:
The Alberta Plan
https://arxiv.org/abs/2208.11173
Ричард Саттон и Джон Кармак заколлабились в 2023, для совместной работы над ИИ в Keen Technologies: https://www.amii.ca/latest-from-amii/john-carmack-and-rich-sutton-agi/
YouTube
Richard Sutton on Pursuing AGI Through Reinforcement Learning
Join host Craig Smith on episode #170 of Eye on AI, for a riveting conversation with Richard Sutton, currently serving as a professor of computing science at the University of Alberta and a research scientist at Keen Technologies.
Sutton is considered one…
Sutton is considered one…
DeepMindы подогнали интересную библиотеку для визуализации и анализа LLMок - Penzai
https://github.com/google-deepmind/penzai
Вроде как можно работать с архитектурой модельки, модифицировать уже натрейненые нейронки, визуализировать слои, ну и всякое interpretibility делать
Подготовлены несколько ноутбуков (для колаба и гегла) с примерами: https://github.com/google-deepmind/penzai/tree/main/notebooks
Все примеры пока крутятся вокруг работы с гугловой Gemma.
ну и доку читать надо: https://penzai.readthedocs.io/en/stable/index.html
https://github.com/google-deepmind/penzai
Вроде как можно работать с архитектурой модельки, модифицировать уже натрейненые нейронки, визуализировать слои, ну и всякое interpretibility делать
Подготовлены несколько ноутбуков (для колаба и гегла) с примерами: https://github.com/google-deepmind/penzai/tree/main/notebooks
Все примеры пока крутятся вокруг работы с гугловой Gemma.
ну и доку читать надо: https://penzai.readthedocs.io/en/stable/index.html
Случайно наткнулся на прикольную либку, где авторы вкручивают разные механизмы для улучшения рассуждений с ллмками: реварды, поиск и в каком-то виде ворлд моделсы.
Не уверен, что это можно просто взять и использовать, но оно развивается и поразбирать отдельные механизмы можно.
Как понял из последних апдейтов туда и лламу 3 вкрутили.
https://www.llm-reasoners.net/
https://github.com/maitrix-org/llm-reasoners
И лидерборд ведут:
https://www.llm-reasoners.net/leaderboard
Не уверен, что это можно просто взять и использовать, но оно развивается и поразбирать отдельные механизмы можно.
Как понял из последних апдейтов туда и лламу 3 вкрутили.
https://www.llm-reasoners.net/
https://github.com/maitrix-org/llm-reasoners
И лидерборд ведут:
https://www.llm-reasoners.net/leaderboard
Forwarded from Center for Cognitive Modeling
🎓 — Семинар 29. Curriculum Learning: выбор последовательности задач для обучения с подкреплением | Мария Нестерова
Завтра на семинаре выступит выпускница нашей магистерской программы МТИИ и ныне аспирантка нашего Центра, у которой уже 2 статьи на А*!
Если перед агентом стоит сложная задача, то для её освоения с нуля может потребоваться много времени. Один из способов решить эту проблему — рассмотреть сначала более простые задачи. Расписание обучения (Curriculum) позволяет автоматически выбрать задачи и определить порядок их изучения, что ускоряет процесс освоения сложных задач.
В первой части доклада будут рассмотрены существующие подходы к составлению расписания обучения. В рамках нашего исследования расписание обучения представлено в виде мета-агента, который выбирает задачи на основе анализа способностей обучающегося агента. Вторая часть доклада будет посвящена нашему методу и текущим результатам
📹 Трансляция Youtube
Подключайтесь к живому обсуждению и задавайте вопросы в прямом эфире! Ждем всех!
#семинары #RL
Завтра на семинаре выступит выпускница нашей магистерской программы МТИИ и ныне аспирантка нашего Центра, у которой уже 2 статьи на А*!
Если перед агентом стоит сложная задача, то для её освоения с нуля может потребоваться много времени. Один из способов решить эту проблему — рассмотреть сначала более простые задачи. Расписание обучения (Curriculum) позволяет автоматически выбрать задачи и определить порядок их изучения, что ускоряет процесс освоения сложных задач.
В первой части доклада будут рассмотрены существующие подходы к составлению расписания обучения. В рамках нашего исследования расписание обучения представлено в виде мета-агента, который выбирает задачи на основе анализа способностей обучающегося агента. Вторая часть доклада будет посвящена нашему методу и текущим результатам
📹 Трансляция Youtube
Подключайтесь к живому обсуждению и задавайте вопросы в прямом эфире! Ждем всех!
#семинары #RL
Тут недавно статья выходила
Can Language Models Solve Olympiad Programming?
https://arxiv.org/abs/2404.10952v1
В работе авторы представили бенчмарк USACO из 307 задачек
https://princeton-nlp.github.io/USACOBench/
В GPT-4 в 0-shot с COT смогла решить 8.7% задачек.
После добавления self-reflection и retrieval поверх книги по олимп программированию https://cp-algorithms.com/ и базы решенных задачек GPT-4 смогла решить 20.2%.
❗️Под базой понимаются те же задачи и решения (с кодом) из USACO датасета, за исключением задачи, которая сейчас решается. (да, выглядит подозрительно, главное чтобы не было утечек).
Хотелось бы чтобы оно работало и для новых задачек, но это надо тестить.
Этот подход имплементнули для ленгчейна, которым многие пользуются, поэтому мб будет полезно: https://langchain-ai.github.io/langgraph/tutorials/usaco/usaco/
Can Language Models Solve Olympiad Programming?
https://arxiv.org/abs/2404.10952v1
В работе авторы представили бенчмарк USACO из 307 задачек
https://princeton-nlp.github.io/USACOBench/
В GPT-4 в 0-shot с COT смогла решить 8.7% задачек.
После добавления self-reflection и retrieval поверх книги по олимп программированию https://cp-algorithms.com/ и базы решенных задачек GPT-4 смогла решить 20.2%.
❗️Под базой понимаются те же задачи и решения (с кодом) из USACO датасета, за исключением задачи, которая сейчас решается. (да, выглядит подозрительно, главное чтобы не было утечек).
Хотелось бы чтобы оно работало и для новых задачек, но это надо тестить.
Этот подход имплементнули для ленгчейна, которым многие пользуются, поэтому мб будет полезно: https://langchain-ai.github.io/langgraph/tutorials/usaco/usaco/
Forwarded from rizzearch
Offline Actor-Critic Reinforcement Learning Scales to Large Models
В основном ресерч в сфере рл происходит на маленьких моделях пушто
- и небольшие модели способны решить задачи при грамотном обучении и грамотной архитектуре (эмпирический факт), в основном это млп с релу/лики_релу и леернормой и все
- есть много проблем в сетапе рл, которые надо решать до того, как задумываешься о модельке и ее размерах
- если увеличивать размер модели, то это доп проблемы, потому что увеличиваются риски для нестабильности, вырожденности и всего такого
Но дипмаинд решил разнести и эту парадигму и отскейлить рл модели до больших размеров
Как оказывается, актор-критик в совокупности с perceiver'ом, который здесь может обрабатывать разные стейты для разных роботов (или симулякров роботов) + постепенно отходить от бихевиор клонинга, и выбивать высокий скор как на средах, где данные собраны хорошо, так и плохо!!
И это все на 132 тасках с непрерывными действиями🥸
👀LINK
#rl #offlinerl #multitask #behaviorcloning #largemodels #scalinglaws
В основном ресерч в сфере рл происходит на маленьких моделях пушто
- и небольшие модели способны решить задачи при грамотном обучении и грамотной архитектуре (эмпирический факт), в основном это млп с релу/лики_релу и леернормой и все
- есть много проблем в сетапе рл, которые надо решать до того, как задумываешься о модельке и ее размерах
- если увеличивать размер модели, то это доп проблемы, потому что увеличиваются риски для нестабильности, вырожденности и всего такого
Но дипмаинд решил разнести и эту парадигму и отскейлить рл модели до больших размеров
Как оказывается, актор-критик в совокупности с perceiver'ом, который здесь может обрабатывать разные стейты для разных роботов (или симулякров роботов) + постепенно отходить от бихевиор клонинга, и выбивать высокий скор как на средах, где данные собраны хорошо, так и плохо!!
И это все на 132 тасках с непрерывными действиями
👀LINK
#rl #offlinerl #multitask #behaviorcloning #largemodels #scalinglaws
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Интересный ресурс по RLю и оптимальному управлению от Dimitri P. Bertsekas
Для тех кто готов сильно вникать.
https://web.mit.edu/dimitrib/www/RLbook.html
Автор 4 года ведет курс по RLю в Университете Аризоны, и за это время скомпилил большую книжку на 400+ страничек.
Также в книжке есть и приложения типа TSP.
На инглише, конечно.
+ там много видеолекций и отдельно книжечка
Lessons from AlphaZero for
Optimal, Model Predictive, and
Adaptive Control
https://web.mit.edu/dimitrib/www/LessonsfromAlphazero.pdf
Для тех кто готов сильно вникать.
https://web.mit.edu/dimitrib/www/RLbook.html
Автор 4 года ведет курс по RLю в Университете Аризоны, и за это время скомпилил большую книжку на 400+ страничек.
Также в книжке есть и приложения типа TSP.
На инглише, конечно.
+ там много видеолекций и отдельно книжечка
Lessons from AlphaZero for
Optimal, Model Predictive, and
Adaptive Control
https://web.mit.edu/dimitrib/www/LessonsfromAlphazero.pdf
Forwarded from black_samorez
И еще апдейты по AQLM:
Новые модели: мы квантизовали и выложили Llama-3 и Command-R. Последнюю сжали так сильно, что влезает в 3090 без оффлодинга. Актуальные чекпоинты и новые модели добавляются сюда: HF hub.
Деплой в прод: мы помогли интегрировать AQLM в vLLM. Теперь можно легко и непринужденно разворачивать endpoint с автоматическим батчинком и эффективными кернелами. Llama-3-70b так генерит со скоростью 6.8 Tok/s на 3090. Более быстрые кернелы для больших батчей тоже прикрутили, чтобы высоконагруженные эндпоинты были эффективнее. Краткая вводная на колабе.
3 borderline accept из 4: AQLM взяли на ICML, так что я теперь официально undergrad со статьей 1* автором на ICML💃 💃 💃
Новые модели: мы квантизовали и выложили Llama-3 и Command-R. Последнюю сжали так сильно, что влезает в 3090 без оффлодинга. Актуальные чекпоинты и новые модели добавляются сюда: HF hub.
Деплой в прод: мы помогли интегрировать AQLM в vLLM. Теперь можно легко и непринужденно разворачивать endpoint с автоматическим батчинком и эффективными кернелами. Llama-3-70b так генерит со скоростью 6.8 Tok/s на 3090. Более быстрые кернелы для больших батчей тоже прикрутили, чтобы высоконагруженные эндпоинты были эффективнее. Краткая вводная на колабе.
3 borderline accept из 4: AQLM взяли на ICML, так что я теперь официально undergrad со статьей 1* автором на ICML
Please open Telegram to view this post
VIEW IN TELEGRAM
huggingface.co
AQLM - a ISTA-DASLab Collection
AQLM quantized LLMs
HTML Embed Code: