Агенты ИИ | AGI_and_RL Webview Telegram

Channel: Агенты ИИ | AGI_and_RL

Back to Bottom

Агенты ИИ | AGI_and_RL

Сравнение Llama 3 vs Llama 2 от самих авторов

🤨

Please open Telegram to view this post

VIEW IN TELEGRAM

1.1K views16:37

Агенты ИИ | AGI_and_RL

Forwarded from Старший Авгур

https://huggingface.co/IlyaGusev/saiga_llama3_8b

Обучал unsloth'ом чуть больше часа на RTX 4090. Сейчас ещё поставил обучение старым кодом. Особо не тыкал, по тестовым промптам вполне неплохо. GGUF будет, но завтра.

671 views10:49

Агенты ИИ | AGI_and_RL

сайга на Llama 3, чтобы русский вкрутить 🔼

Please open Telegram to view this post

VIEW IN TELEGRAM

943 views10:52

Агенты ИИ | AGI_and_RL

Forwarded from Center for Cognitive Modeling

🎙

— Радиоэфир "Embodied AI"

Мы знаем, что у нас активная аудитория и хотим попробовать новый формат - Радиоэфир!

В этом формате наши руководители, сотрудники и приглашенные гости будут делиться своим знанием, видением и обсуждать новости по выбранной теме.
У вас, как наших подписчиков, будет не только возможность послушать, но и поучаствовать в обсуждении и задать свои вопросы!

🗓 Дата: В пятницу 19.04.24 в 17.00

Спикеры:
- Александр Панов, руководитель Центра когнитивного моделирования МФТИ
- Алексей Ковалёв, доцент Центра когнитивного моделирования МФТИ

Присоединяйтесь к диалогу, делитесь опытом и участвуйте в обсуждении!

Please open Telegram to view this post

VIEW IN TELEGRAM

855 views14:12

Агенты ИИ | AGI_and_RL

апаздал немножечко с форвардом... 😕 Но вдруг кому-то интересно, там в канале эфирчик

Please open Telegram to view this post

VIEW IN TELEGRAM

840 viewsedited 14:13

Агенты ИИ | AGI_and_RL

DARPA продолжает разработки по ИИ для Air Combat с истребителями. И вот они прошли важный рубеж.

ACE AI автономно управлял специально модифицированным F-16 (такая версия называется X-62A, или VISTA - Variable In-Flight Simulator Test Aircraft) при проведении боевых маневров против человека в воздушном бою.
Как понял, произошло это еще в сентябре 2023 на базе ВВС Эдвардс (Edwards Air Force Base) в Калифорнии.
При этом в X-62A также сидел пилот, но его вмешательства не потребовалось.

Сама программа ACE (Air Combat Evolution) стартовала в 2019 году.
Еще в 2020 были проведены испытания AlphaDogFight, в которых моделировались маневры в разных сценариях воздушного боя. Тогда ИИ-агент от компании Heron Systems доминировал над реальным опытным пилотом ВВС США «выигрывая со счетом 5:0 за счет агрессивных и точных маневров, которые пилот-человек не мог превзойти»

DARPA планирует продолжать эксперименты.

Такие дела... Страшно интересно.

Хотелось бы знать что там внутри. Использовали RL?

Посмотреть видосик от ДАРПЫ по поводу:
https://www.youtube.com/watch?v=C8yjtaZfNCw

Почитать https://thedebrief.org/darpas-groundbreaking-ace-program-and-x-62a-becomes-first-ai-controlled-jet-to-dogfight-against-manned-f-16-in-real-world/

YouTube

DARPA ACE & USAF X-62A Achieve World First for AI in Aerospace

DARPA’s Air Combat Evolution (ACE) program has achieved the first-ever in-air tests of AI algorithms autonomously flying a fighter jet against a human-pilote...

1.4K views15:19

Агенты ИИ | AGI_and_RL

Forwarded from Derp Learning

Improving microbial phylogeny with citizen science within a mass-market video game

Наконец-то, статья, переплюнувшая статью Google Gemini по количеству контрибьюторов 😅

Если кратко - учёные, исследовавшие днк кишечной микрофлоры, запартнерились с gearbox и встроили в borderlands мини-игру, в которой игроки чинили реальные последовательности ДНК.

В итоге в мини-игру поиграло более 4 млн человек, решив 135 миллионов задач. Несложно прикинуть, сколько бы стоила обработка такого объема данных наемными людьми.
Вот это я понимаю краудсорсинг.

Образцы ДНК, кстати, были взяты из фекалий, чем можно объяснить повышенный интерес геймеров
/s

Пейпер

Nature

Improving microbial phylogeny with citizen science within a mass-market video game

Nature Biotechnology - Gamification of the multiple sequence alignment problem improves microbial phylogeny estimates.

758 views20:57

Агенты ИИ | AGI_and_RL

Forwarded from Love. Death. Transformers.

Надеплоил llama3 70b, собираем синту под русские инструкт датасеты, приходите тыкаться!

@vikhrbot

581 views14:39

Агенты ИИ | AGI_and_RL

Недавняя лекция-презентация от Яна ЛеКуна про Objective-Driven AI на 97 страничек

Про авторегрессионные модели (и их ограничения),
Energy-Based Models,
про Self-Supervised Learning,
World Models,
JEPA

https://drive.google.com/file/d/1Ymx_LCVzy7vZXalrVHPXjX9qbpd9k_bo/view

Видео: https://www.youtube.com/watch?v=MiqLoAZFRSE

869 viewsedited 11:14

Агенты ИИ | AGI_and_RL

Нашел на ютубе интервью с Ричардом Саттоном вышедшее пару месяцев назад.

https://www.youtube.com/watch?v=zZuh8YUBeDY

Ричард - один из создателей современного обучения с подкреплением и автор популярной книги "Reinforcement learning: An Introduction".

Статьи:
https://scholar.google.com/citations?hl=ru&user=6m4wv6gAAAAJ

На самом деле получилось достаточно базовое интервью, по 5 минуток пообсуждали планы Ричарда и разные ИИ-темы.

*Про то, что для ИИ важна цель;
*про The Alberta Plan;
*про коллабу с Кармаком;
ну и другие.

The Alberta Plan - это в общем-то реальный план по ресерчу и созданию агентов, "которые взаимодействуют с гораздо более сложным миром и способны предсказывать и контролировать свои сенсорные входные сигналы".
И там реально описана roadmap по созданию прототипа такого агента.
Выпустили его в 2022 году:

The Alberta Plan
https://arxiv.org/abs/2208.11173

Ричард Саттон и Джон Кармак заколлабились в 2023, для совместной работы над ИИ в Keen Technologies: https://www.amii.ca/latest-from-amii/john-carmack-and-rich-sutton-agi/

YouTube

Richard Sutton on Pursuing AGI Through Reinforcement Learning

Join host Craig Smith on episode #170 of Eye on AI, for a riveting conversation with Richard Sutton, currently serving as a professor of computing science at...

1.3K viewsedited 17:13

Агенты ИИ | AGI_and_RL

DeepMindы подогнали интересную библиотеку для визуализации и анализа LLMок - Penzai

https://github.com/google-deepmind/penzai

Вроде как можно работать с архитектурой модельки, модифицировать уже натрейненые нейронки, визуализировать слои, ну и всякое interpretibility делать

Подготовлены несколько ноутбуков (для колаба и гегла) с примерами: https://github.com/google-deepmind/penzai/tree/main/notebooks

Все примеры пока крутятся вокруг работы с гугловой Gemma.

ну и доку читать надо: https://penzai.readthedocs.io/en/stable/index.html

1.1K viewsedited 19:11

Агенты ИИ | AGI_and_RL

Случайно наткнулся на прикольную либку, где авторы вкручивают разные механизмы для улучшения рассуждений с ллмками: реварды, поиск и в каком-то виде ворлд моделсы.
Не уверен, что это можно просто взять и использовать, но оно развивается и поразбирать отдельные механизмы можно.

Как понял из последних апдейтов туда и лламу 3 вкрутили.

https://www.llm-reasoners.net/

https://github.com/maitrix-org/llm-reasoners

И лидерборд ведут:
https://www.llm-reasoners.net/leaderboard

956 views09:40

Агенты ИИ | AGI_and_RL

Forwarded from Center for Cognitive Modeling

🎓 — Семинар 29. Curriculum Learning: выбор последовательности задач для обучения с подкреплением | Мария Нестерова

Завтра на семинаре выступит выпускница нашей магистерской программы МТИИ и ныне аспирантка нашего Центра, у которой уже 2 статьи на А*!

Если перед агентом стоит сложная задача, то для её освоения с нуля может потребоваться много времени. Один из способов решить эту проблему — рассмотреть сначала более простые задачи. Расписание обучения (Curriculum) позволяет автоматически выбрать задачи и определить порядок их изучения, что ускоряет процесс освоения сложных задач.

В первой части доклада будут рассмотрены существующие подходы к составлению расписания обучения. В рамках нашего исследования расписание обучения представлено в виде мета-агента, который выбирает задачи на основе анализа способностей обучающегося агента. Вторая часть доклада будет посвящена нашему методу и текущим результатам

📹 Трансляция Youtube

Подключайтесь к живому обсуждению и задавайте вопросы в прямом эфире! Ждем всех!

#семинары #RL

768 views14:05

Агенты ИИ | AGI_and_RL

Тут недавно статья выходила

Can Language Models Solve Olympiad Programming?
https://arxiv.org/abs/2404.10952v1

В работе авторы представили бенчмарк USACO из 307 задачек
https://princeton-nlp.github.io/USACOBench/

В GPT-4 в 0-shot с COT смогла решить 8.7% задачек.
После добавления self-reflection и retrieval поверх книги по олимп программированию https://cp-algorithms.com/ и базы решенных задачек GPT-4 смогла решить 20.2%.
❗️Под базой понимаются те же задачи и решения (с кодом) из USACO датасета, за исключением задачи, которая сейчас решается. (да, выглядит подозрительно, главное чтобы не было утечек).

Хотелось бы чтобы оно работало и для новых задачек, но это надо тестить.

Этот подход имплементнули для ленгчейна, которым многие пользуются, поэтому мб будет полезно: https://langchain-ai.github.io/langgraph/tutorials/usaco/usaco/

1.0K viewsedited 17:57

Агенты ИИ | AGI_and_RL

Forwarded from rizzearch

Offline Actor-Critic Reinforcement Learning Scales to Large Models

В основном ресерч в сфере рл происходит на маленьких моделях пушто
- и небольшие модели способны решить задачи при грамотном обучении и грамотной архитектуре (эмпирический факт), в основном это млп с релу/лики_релу и леернормой и все
- есть много проблем в сетапе рл, которые надо решать до того, как задумываешься о модельке и ее размерах
- если увеличивать размер модели, то это доп проблемы, потому что увеличиваются риски для нестабильности, вырожденности и всего такого

Но дипмаинд решил разнести и эту парадигму и отскейлить рл модели до больших размеров
Как оказывается, актор-критик в совокупности с perceiver'ом, который здесь может обрабатывать разные стейты для разных роботов (или симулякров роботов) + постепенно отходить от бихевиор клонинга, и выбивать высокий скор как на средах, где данные собраны хорошо, так и плохо!!

И это все на 132 тасках с непрерывными действиями🥸

👀LINK

#rl #offlinerl #multitask #behaviorcloning #largemodels #scalinglaws

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

1.1K views13:03

Агенты ИИ | AGI_and_RL

Интересный ресурс по RLю и оптимальному управлению от Dimitri P. Bertsekas
Для тех кто готов сильно вникать.

https://web.mit.edu/dimitrib/www/RLbook.html

Автор 4 года ведет курс по RLю в Университете Аризоны, и за это время скомпилил большую книжку на 400+ страничек.
Также в книжке есть и приложения типа TSP.

На инглише, конечно.

+ там много видеолекций и отдельно книжечка

Lessons from AlphaZero for
Optimal, Model Predictive, and
Adaptive Control

https://web.mit.edu/dimitrib/www/LessonsfromAlphazero.pdf

1.2K views10:30

Агенты ИИ | AGI_and_RL

Forwarded from black_samorez

И еще апдейты по AQLM:

Новые модели: мы квантизовали и выложили Llama-3 и Command-R. Последнюю сжали так сильно, что влезает в 3090 без оффлодинга. Актуальные чекпоинты и новые модели добавляются сюда: HF hub.

Деплой в прод: мы помогли интегрировать AQLM в vLLM. Теперь можно легко и непринужденно разворачивать endpoint с автоматическим батчинком и эффективными кернелами. Llama-3-70b так генерит со скоростью 6.8 Tok/s на 3090. Более быстрые кернелы для больших батчей тоже прикрутили, чтобы высоконагруженные эндпоинты были эффективнее. Краткая вводная на колабе.

3 borderline accept из 4: AQLM взяли на ICML, так что я теперь официально undergrad со статьей 1* автором на ICML💃

💃

Please open Telegram to view this post

VIEW IN TELEGRAM

huggingface.co

AQLM - a ISTA-DASLab Collection

AQLM quantized LLMs

910 views13:23

Агенты ИИ | AGI_and_RL

Please open Telegram to view this post

VIEW IN TELEGRAM

605 viewsedited 17:14

HTML Embed Code:

<iframe width="100%" src="https://www.hottg.com/buyppe/webview?embed=1" title="Telegram Webview" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>

2024/05/16 15:16:20
Back to Top