Channel: AI LAB | Лаборатория ИИ
This media is not supported in your browser
VIEW IN TELEGRAM
#вкопилкуэрудита
Интересные технологии из СССР
Интересные технологии из СССР
👍7⚡4🔥2❤1
Мы уже знаем, что LLM способны писать научные работы. А смогут ли они придумывать такие гениальные решения?
Anonymous Poll
37%
да
42%
нет
21%
уже могут и есть примеры
👍4❤1⚡1
This media is not supported in your browser
VIEW IN TELEGRAM
#unrealneural
Anymate - инструмент накидывания скелета на меш модели.
Anymate — масштабный набор данных из 230 тыс. моделей с риггингом и анимациями
https://huggingface.co/spaces/yfdeng/Anymate
Anymate - инструмент накидывания скелета на меш модели.
Anymate — масштабный набор данных из 230 тыс. моделей с риггингом и анимациями
https://huggingface.co/spaces/yfdeng/Anymate
🔥4👍2
This media is not supported in your browser
VIEW IN TELEGRAM
#unrealneural
Машина Дарвина-Геделя: открытая эволюция самосовершенствующихся агентов
Авторы(Salamanca AI) считают, что машины Дарвина-Геделя представляют собой конкретный шаг к системам искусственного интеллекта, которые могут автономно создавать собственные ступени для постоянного обучения и инноваций!
ИИ агент сам переписывает свой код и эволюционирует?!
arxiv.org/abs/2505.22954
Машина Дарвина-Геделя: открытая эволюция самосовершенствующихся агентов
Авторы(Salamanca AI) считают, что машины Дарвина-Геделя представляют собой конкретный шаг к системам искусственного интеллекта, которые могут автономно создавать собственные ступени для постоянного обучения и инноваций!
ИИ агент сам переписывает свой код и эволюционирует?!
arxiv.org/abs/2505.22954
⚡5🤯2
This media is not supported in your browser
VIEW IN TELEGRAM
#пытаюсьпонять #вкопилкуэрудита
Почему Vision Transformers оказываются эффективнее сверхточных сетей?
Начнем с разбора, что это?
Vision Transformers (ViT) — это архитектура нейронных сетей, адаптированная для обработки изображений, основанная на механизме трансформеров, изначально разработанных для задач обработки естественного языка (NLP).
ViT обрабатывают изображения, разбивая их на небольшие участки (патчи), которые затем преобразуются в последовательность векторов, подобно словам в предложении в NLP. Эти векторы подаются в трансформер, который использует механизм внимания (self-attention) для анализа взаимосвязей между патчами.
В отличие от CNN, которые фокусируются на локальных признаках (через свертки), ViT анализирует изображение целиком благодаря механизму внимания. Это позволяет модели улавливать долгосрочные зависимости между удаленными частями изображения (например, между глазами и ртом на портрете). Механизм внимания автоматически определяет, какие патчи наиболее релевантны для задачи, что делает модель гибкой и способной выделять ключевые области изображения.
ViT хорошо масштабируется с увеличением данных и вычислительных ресурсов. Исследования показывают, что при больших объемах данных (например, JFT-300M) ViT превосходит CNN, так как трансформеры лучше используют большие датасеты для обучения сложных паттернов.
Архитектура трансформеров унифицирована: одна и та же модель может быть применена как к тексту, так и к изображениям, что упрощает разработку мультимодальных систем.
ViT легко адаптируется к различным задачам компьютерного зрения (классификация, детекция, сегментация) благодаря гибкости механизма внимания и возможности дообучения (fine-tuning).
Для больших изображений ViT может быть более эффективным, чем CNN, так как не требует глубоких иерархий сверток, а обрабатывает патчи параллельно.
Ну и самое интересное - как ViT соотносятся с человеческим восприятием изображений?
1. Человек, глядя на изображение, может мгновенно переключать внимание между разными областями, фокусируясь на наиболее важных (например, на лице человека в толпе). Механизм self-attention в ViT имитирует эту способность, позволяя модели выделять ключевые патчи и игнорировать менее релевантные.
2. Люди интерпретируют изображения, опираясь на контекст (например, распознают кошку, учитывая не только ее форму, но и окружение). ViT также учитывает контекст, анализируя связи между всеми патчами изображения.
3. Человеческая зрительная система обрабатывает информацию иерархически: от простых признаков (края, углы) к сложным объектам. Хотя ViT не использует явные иерархические слои, как CNN, многослойные трансформеры постепенно формируют более абстрактные представления, что можно сравнить с иерархией в человеческом мозге.
Но не все так однозначно сопоставимо🧐
ViT обрабатывают изображение глобально через механизм внимания, в то время как человеческое зрение начинается с локальной обработки краев и текстур в зрительной коре. ViT разбивает изображение на фиксированные патчи, тогда как человек сканирует сцену динамически, используя саккады и фиксации для фокусировки на важных областях. Кроме того, ViT требует больших объемов данных для обучения, в отличие от человека, способного распознавать объекты после минимального опыта (few-shot learning).
Почему Vision Transformers оказываются эффективнее сверхточных сетей?
Начнем с разбора, что это?
Vision Transformers (ViT) — это архитектура нейронных сетей, адаптированная для обработки изображений, основанная на механизме трансформеров, изначально разработанных для задач обработки естественного языка (NLP).
ViT обрабатывают изображения, разбивая их на небольшие участки (патчи), которые затем преобразуются в последовательность векторов, подобно словам в предложении в NLP. Эти векторы подаются в трансформер, который использует механизм внимания (self-attention) для анализа взаимосвязей между патчами.
В отличие от CNN, которые фокусируются на локальных признаках (через свертки), ViT анализирует изображение целиком благодаря механизму внимания. Это позволяет модели улавливать долгосрочные зависимости между удаленными частями изображения (например, между глазами и ртом на портрете). Механизм внимания автоматически определяет, какие патчи наиболее релевантны для задачи, что делает модель гибкой и способной выделять ключевые области изображения.
ViT хорошо масштабируется с увеличением данных и вычислительных ресурсов. Исследования показывают, что при больших объемах данных (например, JFT-300M) ViT превосходит CNN, так как трансформеры лучше используют большие датасеты для обучения сложных паттернов.
Архитектура трансформеров унифицирована: одна и та же модель может быть применена как к тексту, так и к изображениям, что упрощает разработку мультимодальных систем.
ViT легко адаптируется к различным задачам компьютерного зрения (классификация, детекция, сегментация) благодаря гибкости механизма внимания и возможности дообучения (fine-tuning).
Для больших изображений ViT может быть более эффективным, чем CNN, так как не требует глубоких иерархий сверток, а обрабатывает патчи параллельно.
Ну и самое интересное - как ViT соотносятся с человеческим восприятием изображений?
1. Человек, глядя на изображение, может мгновенно переключать внимание между разными областями, фокусируясь на наиболее важных (например, на лице человека в толпе). Механизм self-attention в ViT имитирует эту способность, позволяя модели выделять ключевые патчи и игнорировать менее релевантные.
2. Люди интерпретируют изображения, опираясь на контекст (например, распознают кошку, учитывая не только ее форму, но и окружение). ViT также учитывает контекст, анализируя связи между всеми патчами изображения.
3. Человеческая зрительная система обрабатывает информацию иерархически: от простых признаков (края, углы) к сложным объектам. Хотя ViT не использует явные иерархические слои, как CNN, многослойные трансформеры постепенно формируют более абстрактные представления, что можно сравнить с иерархией в человеческом мозге.
Но не все так однозначно сопоставимо🧐
ViT обрабатывают изображение глобально через механизм внимания, в то время как человеческое зрение начинается с локальной обработки краев и текстур в зрительной коре. ViT разбивает изображение на фиксированные патчи, тогда как человек сканирует сцену динамически, используя саккады и фиксации для фокусировки на важных областях. Кроме того, ViT требует больших объемов данных для обучения, в отличие от человека, способного распознавать объекты после минимального опыта (few-shot learning).
⚡4❤3👍2
Forwarded from vc.ru
Google выпустила приложение Google AI Edge Gallery, которое позволяет загружать ИИ-модели из каталога Hugging Face и запускать их на смартфонах без подключения к интернету.
Версия для Android опубликована на GitHub, для iOS — появится позже
vc.ru/ai/2020443
Версия для Android опубликована на GitHub, для iOS — появится позже
vc.ru/ai/2020443
🔥3⚡2👍2
#unrealneural
13 MCP серверов:
- Agentset MCP
- GitHub MCP Server
- arXiv MCP
- MCP Run Python
- Safe Local Python Executor
- Cursor MCP Installer
- Basic Memory
- Filesystem MCP Server
- Notion MCP Server
- Markdownify MCP Server
- Fetch MCP Server
- Mobile Next
- MCP Installer
https://huggingface.co/posts/Kseniase/204958200717570
13 MCP серверов:
- Agentset MCP
- GitHub MCP Server
- arXiv MCP
- MCP Run Python
- Safe Local Python Executor
- Cursor MCP Installer
- Basic Memory
- Filesystem MCP Server
- Notion MCP Server
- Markdownify MCP Server
- Fetch MCP Server
- Mobile Next
- MCP Installer
https://huggingface.co/posts/Kseniase/204958200717570
⚡3👍2
Forwarded from TechSparks
Использование ИИ в школах остается источником споров, данные экспериментов тоже противоречивы. Заметка в The Economist содержит интересное замечание в начале: “В богатом мире еще надо доказать, что ИИ лучше традиционного обучения”. То ли дело Нигерия. Результаты проведенного там эксперимента легко публиковать, не опасаясь эмоциональной реакции учителей и родителей учеников.
А результаты любопытны. В ходе 12 полуторачасовых внеклассных занятий на протяжении 6 недель ученики взаимодействовали с чатботом на основе GPT-4 для улучшения своего английского. По окончании этих 6 недель, ученики продемонстрировали прогресс, на который в ходе обычных школьных занятий ушло бы 2 года. На письменных экзаменах в конце года, которые включали не только материал, проработанный с помощью ИИ, участники эксперимента также выступили лучше своих одноклассников.
Авторы исследования оговариваются, что все дело может быть в том, насколько плохи в Нигерии учителя. С другой стороны, в бедных странах существует масса образовательных программ, в которых участвуют люди, в том числе волонтеры из богатых стран. Программа с ИИ дала лучшие результаты, чем 80% таких программ. В общем, текст любопытно почитать уже из-за его извиняющейся интонации :))
https://www.economist.com/graphic-detail/2025/05/30/can-ai-be-trusted-in-schools
А результаты любопытны. В ходе 12 полуторачасовых внеклассных занятий на протяжении 6 недель ученики взаимодействовали с чатботом на основе GPT-4 для улучшения своего английского. По окончании этих 6 недель, ученики продемонстрировали прогресс, на который в ходе обычных школьных занятий ушло бы 2 года. На письменных экзаменах в конце года, которые включали не только материал, проработанный с помощью ИИ, участники эксперимента также выступили лучше своих одноклассников.
Авторы исследования оговариваются, что все дело может быть в том, насколько плохи в Нигерии учителя. С другой стороны, в бедных странах существует масса образовательных программ, в которых участвуют люди, в том числе волонтеры из богатых стран. Программа с ИИ дала лучшие результаты, чем 80% таких программ. В общем, текст любопытно почитать уже из-за его извиняющейся интонации :))
https://www.economist.com/graphic-detail/2025/05/30/can-ai-be-trusted-in-schools
👍6🔥3
#unrealneural
Cad-MLLM
Унифицированный подход к генерации CAD-геометрии на основе текстового запроса. Для генерации используются последовательности команд моделей САПР, далее идет обработка с помощью LLM. Это мультимодальный конвейер генерации моделей.
https://arxiv.org/abs/2411.04954
Cad-MLLM
Унифицированный подход к генерации CAD-геометрии на основе текстового запроса. Для генерации используются последовательности команд моделей САПР, далее идет обработка с помощью LLM. Это мультимодальный конвейер генерации моделей.
https://arxiv.org/abs/2411.04954
👍4⚡3❤🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
#unrealneural
Интерактивные блокноты, чтобы поэкспериментировать с машинами непрерывного мышления Continuous Thought Machines sakana.ai/ctm/
https://github.com/SakanaAI/continuous-thought-machines
Интерактивные блокноты, чтобы поэкспериментировать с машинами непрерывного мышления Continuous Thought Machines sakana.ai/ctm/
https://github.com/SakanaAI/continuous-thought-machines
🤯3⚡1👍1
Forwarded from Data Secrets
Сегодня в 20:00 по мск нас ждет что-то новенькое от OpenAI
От этом сообщил один из инженеров стартапа. От написал, что будет «большой день для пользователей, о котором я думаю днями и ночами». Что ж, посмотрим👀
Кстати, еще из приятных новостей от OpenAI: со вчерашнего дня Codex доступен всем Plus юзерам ChatGPT.
Plus – это подписка за 20$ / месяц. Говорят, что лимиты на Codex «щедрые», но зато тут же уточняют, что в периоды высокого спроса будут появляться ограничения скорости.
Кроме того, теперь агенту можно предоставить доступ в Интернет, и он сможет пользоваться им по необходимости. Changelog
От этом сообщил один из инженеров стартапа. От написал, что будет «большой день для пользователей, о котором я думаю днями и ночами». Что ж, посмотрим
Кстати, еще из приятных новостей от OpenAI: со вчерашнего дня Codex доступен всем Plus юзерам ChatGPT.
Plus – это подписка за 20$ / месяц. Говорят, что лимиты на Codex «щедрые», но зато тут же уточняют, что в периоды высокого спроса будут появляться ограничения скорости.
Кроме того, теперь агенту можно предоставить доступ в Интернет, и он сможет пользоваться им по необходимости. Changelog
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡3👍3❤2
Побывал в гостях у Андрея Кузнецова, директора лаборатории FusionBrain, AIRI - лидера направления «Генеративное проектирование» в Сбере, автора канала @complete_ai. Очень вдохновлен этой встречей. Уже нашли точки соприкосновения, ждем крутых совместных экспериментов и исследований 🔥🔥🔥
🔥13❤3⚡2❤🔥1
HTML Embed Code: