TG Telegram Group Link
Channel: AI LAB | Лаборатория ИИ
Back to Bottom
Forwarded from Data Secrets
Google анонсировали AlphaGenome – модель для понимания генетики

Она может предсказывать, какое влияние окажут те или иные изменения в ДНК.

При достаточной точности такая модель может абсолютно перевернуть наше понимание болезней и биологии в целом, потому что геном человека, по сути, управляет в нашем организме всем. Небольшие вариации на молекулярном уровне в ДНК могут повлиять на что угодно: внешность, иммунитет, возникновение заболевания. Но как именно устроена эта связь – для людей, по большому счету, до сих пор загадка.

Основное, за счет чего работает AlphaGenome – это длинное контекстное окно в 1 миллион токенов. Без такого контекста модели бы просто не хватило информации для предсказания (и даже 1 миллиона иногда очень мало).

AG принимает на вход огромные последовательности пар оснований ДНК и предсказывает тысячи молекулярных свойств последовательности. Например, сколько вырабатывается РНК, как гены расположены в разных видах тканей, как они реплицируются и тд. Ну а сравнивая свойства одних последовательности с другими, можно оценить эффекты генетических мутаций.

Google утверждают, что по точности предсказаний они достигли SOTA. Обучали модель на открытых данных крупных лабораторий (в которых все это проверяли экспериментально). Под капотом – свертки, трансформер и декодер в нужные модальности.

Самое интересное, что Google уже открыли модель для использования через API – попробовать может каждый желающий. Так они хотят собрать больше фидбэка от ученых.

Блогпост | Статья (103 страницы на секундочку) | GitHub
#ЛабораторияИИ #AILAB
Это насыщенная неделя превратилась в целый марафон выступлений 🙃
Почему, на мой взгляд, важно рассказывать об экспериментах (даже сырых), делиться своими идеями и мыслями и общаться с коллегами по цеху (и, возможно, даже с прямыми конкурентами)? Мой пост сегодня будет об этом.

Наша отрасль пока не столь богата на успешны R&D истории, в том числе в больших компаниях, Однако многие, решая днём обычные рабочие задачи, вечерами дома экспериментируют и переосмысляют подходы к обычным задачам (сужу по себе 😃😃😃).

Желание попробовать новое иногда вызвано личными интересами и увлечениями, иногда более глобальными целями, но далеко не всегда в этом есть бизнес-мотивация.
Если же в одной компании появляется новое экспериментальное направление или отдел, то как иначе разжечь интерес у «гаражных стартапов», у коллег по цеху из других компаний, кроме как показывать им свои эксперименты и рассказывать, что это может иметь ценность? На этапе создания новой ценности для бизнеса эксперименты и открытость помогают общему росту.

Я работаю в ПИК давно, это большая компания — и я очень рад, что в одном из лидеров российского девелопмента возможна такая открытость. Когда такой крупный игрок идёт на эксперименты с новыми технологиями, делится своими исследованиями, это возбуждает интерес.

За последние дни я посетил много компаний-девелоперов (в некоторых случаях напросился сам 😄), участвовал в мероприятиях разного формата. То, что тему искусственного интеллекта активно обсуждают, показывает, как сильно меняется наша индустрия — все хотят пробовать новое, в том числе в девелоперских задачах. Если благодаря открытости у нас появится большое сообщество с профессионалами из крупных компаний отрасли, где тебя могут почелленджить или предложить новые идеи и инструменты, то это будет суперсильным бустом. Вероятность «попасть в цель» при новых разработках будет многократно возрастать, а не гаситься закрытостью исследований.

А ещё, возможно, открытость в отрасли, желание делиться экспериментами с нейросетями и ИИ могут привести к появлению новых идей и подходов в проектировании, в архитектуре, в создании новых стилей или типов жилья (эффективного, доступного, эстетичного). Жилья, которое позволит каждому создавать вокруг себя пространство, подходящее именно ему, без противоречий между целями и другими факторами.
#unrealneural
Это исследование рассматривает трудоемкую и подверженную ошибкам природу ручной проверки соответствия кода в информационном моделировании зданий (BIM) путем внедрения подхода, основанного на большой языковой модели (LLM), для полуавтоматизации этого критического процесса. Разработанная система интегрирует LLM, такие как GPT, Claude, Gemini и Llama, с программным обеспечением Revit для интерпретации строительных норм, генерации скриптов Python и выполнения полуавтоматических проверок соответствия в среде BIM.

https://arxiv.org/abs/2506.20551
This media is not supported in your browser
VIEW IN TELEGRAM
#unrealneural #пытаюсьпонять
Continuous Thought Machines (CTM) и «Foveated Active Vision» (фовеальная зрительная система)

1. CTM определяет, куда смотреть, и насколько "приближен" его эффективный объектив. Внутренняя и постоянная обратная связь позволяет достичь fascinating (захватывающего) поведения.

2. Эмерджентность и простота: Все это достигается без дополнительных вспомогательных потерь и без использования обучения с подкреплением (RL). Основной целью является просто контролируемая кросс-энтропийная потеря.

3. Фовеальное зрение широко распространено в природе. CTM получает небольшую «фовею» (фокус) и сжатый, низкоразрешенный вид «периферии». Это позволяет ему динамически выбирать между изучением деталей и пониманием контекста.

4. Преимущества для CNN: Сверточные нейронные сети (CNN) обычно представляют собой крупные модели, которым приходится обрабатывать множество разрешений, где объекты могут казаться близкими или далекими. Предоставление CTM возможности эффективно «выбирать собственное разрешение» может позволить использовать гораздо меньшие и более эффективные базовые сети.

Видео автор описывает так:
1. Исходное изображение находится в верхнем левом углу. На нем наложена полярная сетка, обозначающая фовеальную выборку.

2. В центре показано то, что видит CTM (то есть, данные, которые поступают в базовую сеть).

3. Справа представлена фовеальная перспектива, перепроецированная в евклидово пространство.

4. Средний ряд показывает фовеальную информацию, «ворота», прогнозы, а также внимание (как в модельном пространстве, так и перепроецированное в евклидово пространство).

5. Нижний ряд демонстрирует нейронную динамику случайно выбранных нейронов.

http://pub.sakana.ai/ctm
This media is not supported in your browser
VIEW IN TELEGRAM
#unrealneural #вкопилкуэрудита
Continuous Thought Machines

Видео-пояснение работы Continuous Thought Machines. Искусственный интеллект, архитектура которого вдохновлена биологическим мозгом

https://www.youtube.com/watch?v=dYHkj5UlJ_E&feature=youtu.be
Forwarded from Data Secrets
Google уверены, что с помощью ИИ вот-вот решат одну из главных математических загадок человечества

Оказывается, в DeepMind целая команда из 20 человек уже три года тайно работает над задачей Навье - Стокса. Это одна из семи математических задач, удостоенных звания проблемы тысячелетия. За ее решение положена премия в 1 миллион долларов (ну и вечная слава).

До сих пор инженеры работали полностью конфиденциально. Впервые публично об «операции» заговорил сегодня испанский математик Гомес Серрано, с которым Google собираются объединиться для того, чтобы дорешать задачу.

Корни задачи уходят корнями еще в 19 век. Тогда два математика – Анри Навье и Джордж Стокс – независимо друг от друга опубликовали дифференциальные уравнения, описывающие движение жидкостей и воды. И вот, спустя два века, до сих пор не существует общего аналитического решения этой системы.

Если бы оно нашлось, люди смогли бы предсказывать турбулентность и цунами, точнее прогнозировать погоду, лучше понимать кровообращение и даже улучшить современные двигатели. Решение станет настоящим прорывом в физике и математике.

Сейчас в мире за решение конкурируют три группы математиков. В составе одной из них как раз и был Гомес Серрано. Его группа отличалась тем, что они еще несколько лет назад пытались применять ИИ для решения задачи.

Теперь же Гомес объединяется с той самой секретной командой из DeepMind. Они надеятся, что вместе и с помощью ИИ (видимо, имеется в виду AlphaEvolve) они продвинутся в решении уже до конца этого года.
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
This media is not supported in your browser
VIEW IN TELEGRAM
QWEN-VLO - генерация картинок, видео, и редактирование всего, что шевелится.

Обновился Qwen3.


Чат у него весь из себя мультимодальный, принимает на вход документы, картинки, видео и даже звук.

А генерит вообще все, что шевелится. Включая видео, анализ изображений и даже брейншторм.

Го тестировать, пока быстро отвечает. Генерация видео довольно шустрая.

https://chat.qwen.ai/

Вот что пишут разрабы:

Сегодня мы рады представить новую модель - Qwen VLo, единую мультимодальную модель понимания и генерации. Эта обновленная модель не только "понимает" мир, но и генерирует высококачественные "воссоздания" на основе этого понимания, действительно преодолевая разрыв между восприятием и творчеством. Обратите внимание, что это предварительная версия, и вы можете получить доступ к ней через Qwen Chat. Вы можете напрямую отправить запрос типа "Создать изображение милой кошки", чтобы сгенерировать изображение, или загрузить изображение кошки и попросить "Добавить шапочку на голову кошки", чтобы изменить изображение.

Подробнее тут:
https://qwenlm.github.io/blog/qwen-vlo/ - поглядите примеры, они довольно убойные

@cgevent
This media is not supported in your browser
VIEW IN TELEGRAM
#unrealneural #вкопилкуэрудита

Diffusion Tree Sampling (DTS) вводит новый подход к управлению выводом в диффузионных моделях, переформулируя процесс как оптимизацию с учетом вознаграждения, вдохновленную поиском по дереву Монте-Карло.

DTS обеспечивает асимптотически точные выборки из целевого распределения при бесконечных развертываниях. Его жадная версия, DTS⋆, реализует глобальный поиск выборок с высоким вознаграждением.

В задачах условной генерации на MNIST и CIFAR-10 DTS достигает FID, сравнимого с лучшими базовыми моделями, при 10-кратной экономии вычислений. В задачах преобразования текста в изображение и завершения языка DTS эффективно находит образцы с высоким вознаграждением, сокращая объем вычислений в 5 раз.
Недавно в канале Data Secrets вышел прикольный пост про «секретный проект DeepMind» о решении проблемы тысячелетия, связанной с уравнением Навье-Стокса. Формулировку, правда, написали не совсем верную (про поиск аналитического решения, которого нет). Упоминался и прекрасный AlphaEvolve.

Простыми словами, до сих пор неизвестно, существует ли решение уравнения Навье-Стокса и являются ли они гладкими.
Небольшое расследование выявило, что скорее всего коллеги пытаются эту гипотезу опровергнуть, предъявив пример, когда в замкнутой системе (например, в цилиндре) из «спокойного» течения разовьется сингулярное течение. А здесь как раз идеально подходят эволюционные алгоритмы, так как нужно просто простроить пример такой функции.
Если посмотреть, кто упомянут, и посмотреть работы, то это становится абсолютно ясным. Одним из активных участников исследования является Теренс Тао, филдсовский лауреат, один из самых крутых математиков не только современности, но и за всю историю. У него есть, например, такая работа (и таких довольно много), где ясно, что они давно думают как раз над контпримером, и эволюционный перебор с помощью LLM им точно должен с этим помочь.

Небольшой спойлер: мы тоже работаем в этом направлении по эволюции программ с помощью LLM, stay tuned!
#пытаюсьпонять #unrealneural #вкопилкуэрудита
Изменится ли человеческий мозг в будущем и нейропластичность

Биологически мозг человека почти не отличается от мозга людей 10 000 лет назад, но нейропластичность позволила адаптироваться к новым условиям. Например, постоянное использование смартфонов и интернета привело к изменениям в когнитивных процессах: сократилось среднее время концентрации внимания (с 12 секунд в 2000 году до 8 секунд к 2020-м, согласно исследованиям), а способность к многозадачности усилилась. Также цифровая среда изменила способы запоминания: люди чаще полагаются на внешние источники информации (эффект "цифровой амнезии"). Образование и улучшение питания за последние столетия увеличили средний IQ на 10–20 пунктов (эффект Флинна), хотя этот рост замедлился в некоторых странах. Технологии, такие как нейроинтерфейсы, пока находятся на ранних стадиях, но эксперименты (например, Neuralink) уже показывают потенциал для усиления когнитивных функций.

Давление среды вероятно не сильно будет влиять и менять состояние человеческого мозга.Однако нейроинтерфейсы могут очень сильно повлиять, так как возникает новый уровень взаимодействия с окружающей средой, возможно возникновение нового типа восприятия, что в свою очередь может очень сильно диформировать состояние и адаптацию нервной системы.

Цифровизация и виртуальная реальность уже формируют новые нейронные связи.
#unrealneural
LLaVA-Scissor

Tongyi Lab от Alibaba только что выпустила LLaVA-Scissor на Hugging Face. Стратегия сжатия токенов без обучения для видео LLM, использующая семантически связанные компоненты для всестороннего семантического покрытия.

И что это нам дает?

1. Мультимодальные модели, способные обрабатывать текст, изображения и видео, являются важным направлением развития ИИ. LLaVA-Scissor решает одну из ключевых проблем таких моделей — высокую вычислительную стоимость обработки видеоданных.
2. Благодаря снижению вычислительных затрат, подход делает мультимодальные модели более доступными для использования в реальных приложениях.
https://huggingface.co/papers/2506.21862
Полезное исследование на стыке LLM и BIM о применении ИИ для полуавтоматической проверки моделей в Revit на соответствие строительным нормам

⚫️Цель: разработать LLM-ориентированный подход, который преобразует строительные нормы в исполняемые Python-скрипты и интегрируется с Revit для полуавтоматической проверки соответствия в BIM.

Что предложили авторы:
🔵Вместо ручного написания скриптов для Revit пользователь формулирует запрос на естественном языке.
🔵LLM переводит этот запрос в Python-код для Dynamo/Revit API, который выполняет проверку.

Сравнили разные LLM (GPT-4, Claude 3, Gemini 1.5, Llama 3).
🔵Тестировали, какие модели лучше справляются с интерпретацией строительных норм, генерацией работоспособного кода, обработкой геометрии BIM-моделей.
🔵Лучшие результаты у GPT-4 и Claude 3 (по качеству интерпретации и работоспособности сгенерированных скриптов), хуже — у открытых моделей типа Llama.

Кейсы и экспериментальная проверка
Авторы тестировали свой метод на двух проектах — жилом доме (ИЖС) и офисном здании. Для каждого проекта определили набор типовых строительных правил (например, минимальные размеры помещений, требования к материалам, расположению объектов) и сформировали запросы к LLM для генерации проверочных скриптов.

[Тоже как и многие😁] обнаружили ключевую проблему
🔵LLM часто ошибаются в логике проверок, если требования в нормах сформулированы нечётко.
🔵Например, фраза «коридоры должны быть достаточно широкими для эвакуации» требует уточнения — иначе ИИ генерирует некорректный код.

Из относительно нового, но входящего в практику
🔵Авторы переложили часть работы по автоматизации проверок на ИИ — то есть ИИ пишет скрипты.
🔵Показали, какие типы проверок работают хорошо (простые параметрические правила), а какие — плохо (сложная геометрия, субъективные требования).
🔵 Ну и еще раз показали, что ИИ не заменит пока инженера, но ускорит рутину.

Подробнее — на arxiv.org в статье Large Language Model-Driven Code Compliance Checking in Building Information Modeling
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Data Secrets
This media is not supported in your browser
VIEW IN TELEGRAM
Ну все, это вайб-кодинг на максималках: Cursor теперь доступен с телефона и в вебе

Прямо со смартфона можно будет добавлять параллельные таски, редактировать код, создавать PR, управлять задачами и так далее. Все изменения, естественно, сохранятся в вашем проекте и потом можно будет продолжить работать с того же места уже с компьютера.

Наконец-то будет чем заняться в метро 🧑‍💻

www.cursor.com/agents
Please open Telegram to view this post
VIEW IN TELEGRAM
HTML Embed Code:
2025/07/01 05:00:36
Back to Top