TG Telegram Group Link
Channel: Machine learning Interview
Back to Bottom
ANUS (Autonomous Networked Utility System) — опенсорсную версию популярного Manus, который клонировал самого себя 😂

• Как это получилось:
  • Разработчик попросил мощного ИИ-агента Manus скопировать себя, и всего за 25 минут получился код, архитектура и дизайн, полностью идентичные оригиналу.

• Что получилось:
  • Идеальная нейросеть, которой можно доверить всю рутинную работу, и всё это — абсолютно бесплатно.

GItHub
😁72🤣41🔥74👍2
mlx-kan — это реализация сетей Колмогорова–Арнольда (Kolmogorov–Arnold Networks, KAN), оптимизированная для процессоров Apple Silicon с использованием фреймворка MLX.

Он представляет собой Python-пакет, который использует высокую вычислительную мощность чипов Apple M1 и более поздних версий, обеспечивая эффективное и масштабируемое решение для разработки, обучения и оценки моделей KAN.

Интересные аспекты проекта:
- Инновационная архитектура: KAN предлагает альтернативу многослойным перцептронам (MLP), заменяя фиксированные функции активации на узлах обучаемыми функциями на связях. Это позволяет достичь большей точности и интерпретируемости моделей.
GITHUB.COM

- Оптимизация для Apple Silicon: Проект использует вычислительные возможности процессоров Apple Silicon, что обеспечивает высокую производительность и эффективность при выполнении задач машинного обучения.

- Открытый исходный код: Доступность кода на GitHub позволяет сообществу исследователей и разработчиков изучать, улучшать и адаптировать проект под свои нужды, способствуя развитию технологий машинного обучения.

Таким образом, mlx-kan представляет собой значимый вклад в область машинного обучения, предлагая новые подходы к архитектуре нейронных сетей и эффективно используя современные аппаратные возможности.

@machinelearning_interview
👍63🔥3
⚡️ OpenPipe Deductive Reasoning Qwen 32B GGUF

Адаптация Qwen-32B, оптимизированная под рассуждения в GGUF формат.

Превосходит Claude 3.7 Sonnet в задачах дедуктивного мышления!

Превосходит DeepSeek R1, o1 и o3-mini в решении головоломок «Temporal Clue» при 100-кратном снижении стоимости умозаключений.

Дедуктивное рассуждение: Модель дообучена для выполнения задач, где требуется логический анализ и последовательное обоснование, что полезно для создания интеллектуальных систем и сложного анализа данных.
Формат GGUF: Конвертация в GGUF обеспечивает более эффективное использование ресурсов, ускоряет загрузку модели и облегчает её интеграцию в разнообразные приложения.
Практическое применение: Этот инструмент интересен разработчикам и исследователям ИИ, стремящимся улучшить дедуктивные способности систем, а также тем, кто ищет способы оптимизации работы с большими языковыми моделями в реальных проектах.

HF: https://huggingface.co/bartowski/OpenPipe_Deductive-Reasoning-Qwen-32B-GGUF
Dataset: https://gist.github.com/bartowski1182/eb213dccb3571f863da82e99418f81e8
LM Studio: https://lmstudio.ai/

#qwen #reasoning #GGUF
5🔥3
⚡️Google выпустила новую мультимодальную Gemma-3

▪️Доступны версии на 1В, 4В, 12В, 27В в базовых и instruct версиях. Пост-трейнинг впечатляет: RLHF, RLMF, RLEF и model merging.

▪️ На LMSYS модель показывает результат 1338, что лучше, чем у o1-mini, o3-mini и o3-mini high.

▪️ Модель поддерживает более 140 языков.

https://huggingface.co/collections/google/gemma-3-release-67c6c6f89c4f76621268bb6d
12👍7🔥5🤯1
⚡️“Т-Технологии”, куда входит Т-Банк, открыли R&D-центр, в котором будут заниматься научными исследованиями и инженерией

Центр будет проводить исследования и разработки в области ИИ, хранении данных, информационной безопасности и фундаментальных алгоритмах.

Главный фокус: разработка ИИ-ассистентов и инструментов для повышения инженерной продуктивности. Например, в компании уже используют ИИ-ассистента Nestor для написания кода. К 2026 году доля созданного ИИ-кода в “Т-Технологиях” должна вырасти в 6 раз – до 25%.

R&D-центр активно сотрудничает с такими ведущими вузами и исследовательскими центрами, как МФТИ и Сколтех. Совместно с МФТИ курирует студенческую лабораторию, где проводят исследования в области рекомендательных систем, обучения с подкреплением, компьютерного зрения и больших языковых моделей (LLM).
Своим инженерам Центр даст доступ к широкому спектру сложных инженерных и исследовательских задач, от разработки алгоритмов до информационной безопасности и систем обработки данных.

▪️Узнать больше

@machinelearning_interview
🔥166👍2👎1
Forwarded from Machinelearning
ML-комьюнити о крупнейших запусках LLM начала 2025 года:

✔️ DeepSeek — революция или переоцененный запуск?

Запуск китайской модели всколыхнул всю индустрию, вызвав неоднозначную реакцию экспертов. CEO Anthropic Дарио Амодей отмечает, что Claude 3.5 Sonnet, обученный за несколько десятков миллионов долларов, значительно опережает DeepSeek по многим показателям, плюс у модели нет никаких барьеров против генерации чувствительной информации. Демис Хассабис, генеральный директор Google DeepMind, считает DeepSeek лучшей работой китайских исследователей, но не видит в ней новых научных достижений.

✔️ Grok 3 — Маск не дотянул

ИИ-исследователь и профессор Пенсильванского университета Итан Моллик признал, что xAI очень быстро растёт, но Grok 3 пока точно не является лучшей моделью на рынке. Она превосходит некоторые модели OpenAI, но не o3. CTO Caylent Рэнделл Хант обнаружил ряд проблем с Grok 3: уязвимость к джейлбрейкам, неуместную саркастичность, медлительность и частые ошибки в ответах. По его словам, даже простые логические тесты оказались ей не под силу, что делает модель практически бесполезной для бизнес-задач. При этом CEO Replit Амджад Масад назвал Grok 3 передовой моделью и огромным достижением.

✔️ GPT-4.5 — не оправдал ожиданий экспертов

Релиз GPT-4.5 от OpenAI получил смешанные отзывы в профессиональном сообществе. Соучредитель OpenAI и бывший глава Tesla AI Андрей Карпатый отметил, что GPT-4.5 напомнил ему GPT-4 на момент релиза — он увидел потенциал этой модели. В посте на X он сказал, что при использовании GPT-4.5 «всё стало немного лучше, и это здорово, но не совсем так, как можно было бы ожидать». В более резких выражениях высказался известный критик Гэри Маркус, назвавший модель «пустышкой». Генеральный директор Hugging Face Клемент Деланж также остался недоволен, охарактеризовав GPT-4.5 как «так себе» и раскритиковав закрытость исходного кода.

✔️ YandexGPT 5 — что в России?

Виктор Тарнавский, директор по ИИ Т-Банка, отметил, что в Яндексе выложили Lite-версию модели в опенсорс, а пайплайн Pro-версии инициализировали весами от Qwen 2.5. По его мнению, это правильное решение, позволяющее избежать бессмысленной траты ресурсов. При этом, пишет Тарнавский, разработчики делают не файнтюн, а полный цикл обучения модели — просто стартуют претрейн не с нулевых весов. По опубликованным бенчмаркам, модели показывают хорошие результаты. В СМИ также писали, что Яндекс работает над ризонингом. Максим Болотских, директор ИИ в Яков и Партнёры (ex-McKinsey), прокомментировал, что ежегодные совокупные затраты на разработку подобного функционала могут составлять 10 млрд рублей и более, и такого рода модели могут монетизироваться не только классическими подписками B2C пользователей, но и значимо лучше решать задачи В2В-сегмента.

✔️ Gemini 2.0 Flash — лучшее соотношение цена/качество

Релиз Gemini 2.0 Flash от Google получил восторженные отклики экспертов. Тим Брукс, ИИ-исследователь в Google DeepMind, высоко оценил встроенную функцию генерации изображений с возможностью визуальной цепочки рассуждений. Соучредитель и бывший глава Intel AI Райан Карсон назвал модель "умной, быстрой и дешёвой", отметив отличную производительность при тестировании через API. Мэтт Шумер, соучредитель и генеральный директор компании OthersideAI, подчеркнул, что по большинству бенчмарков Gemini 2.0 Flash приближается к Claude 3.5 Sonnet и даже превосходит его в бенчмарке MATH, сохраняя при этом значительное ценовое преимущество.

✔️ Claude 3.7 — достойный шаг вперёд при умеренных затратах

Релиз Claude 3.7 от Anthropic получил преимущественно положительные отзывы экспертов. Сэм Альтман и Дарио Амодей подчеркнули экономическую эффективность разработки — обучение Claude 3.7 Sonnet обошлось лишь в несколько десятков миллионов долларов, что значительно меньше затрат на GPT-4. Артём Санакоев, ИИ-исследователь в Meta Generative AI и автор канала "эйай ньюз", выделил инновационный подход Anthropic к рассуждениям модели — в отличие от конкурентов, Claude использует единую модель без отдельного reasoning тюна.

@ai_machinelearning_big_data

#AI #ML #LLM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍109🔥3👏2
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 Визуализация работы трансформеров позволяет наглядно представить, как модели вроде ChatGPT формируют ответы, подбирая слова и фразы.

Это помогает лучше понять процессы, происходящие внутри языковых моделей.

Простыми словами: такие визуализации дают возможность увидеть, как ChatGPT выбирает слова для формирования своих ответов.

https://moebio.com/mind/

@machinelearning_interview
🔥27👍85🥰2
✔️ ReasonGraph: инструмент для анализа ризонинга LLM.

ReasonGraph - опенсорсная веб-платформа, разработанная Кембриджским университетом, для визуализации и анализа процессов рассуждений LLM. Она поддерживает как последовательные, так и древовидные методы рассуждений, легко интегрируясь с основными провайдерами LLM и более чем 50 языковыми моделями.
Платформа построена на модульном каркасе и имеет выбор метода мета-рассуждения и настраиваемые параметры визуализации.

ReasonGraph улучшает обнаружение ошибок в логических процессах и способствует более эффективной разработке приложений на основе LLM. Оценка платформы показала практически 100% точность rule-based XML-парсинга при извлечении и визуализации путей рассуждений.

Репозиторий проекта на Github. Демо на HuggingFace.
arxiv.org


@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
👍64🔥2
Forwarded from Machinelearning
⭐️ «Open-Source Handwritten Signature Detection Model» - отличная статья, в которой подробно показно решение прикладной ML задачи.

Это подробный гайд, где описан процесс разработки приложения для автоматического обнаружения рукописных подписей в документах.

Автор протестировал все доступные модели YOLO для данной задачи и опубликовал результаты. В итоге получился очень годный гайд, со множеством технических деталей.

🟡Подготовка данных: использование двух публичных датасетов (Tobacco800 и Signatures-XC8UP) с последующей предобработкой и аугментацией изображений.

🟡Архитектурное сравнение: в статье приводится детальный анализ современных алгоритмов обнаружения объектов – от семейства YOLO до трансформерных моделей (DETR, RT-DETR, YOLOS).

🟡Оптимизация гиперпараметров:
Сравнительный анализ архитектур показал, что YOLOv8 - обеспечивает идеальный баланс между скоростью и точностью для данной задачи, достигая 94,74 % точности и 89,72 % после оптимизации гиперпараметров с помощью Optuna.

🟡Развёртывание: модель оптимизирована для работы с Triton Inference Server и OpenVINO, что обеспечивает быстрый инференс на CPU и GPU (до 7.657 мс на T4)

🟡 Результаты экспериментов:
Достигнута высокая точность распознавания: mAP@50 – 94.50%, mAP@50-95 – 67.35%.

Итоговая модель демонстрирует сбалансированное соотношение между точностью, скоростью инференса и экономичностью ресурсов.

Статья демонстрирует, как грамотное сочетание современных архитектур обнаружения объектов, тщательная подготовка данных и оптимизация гиперпараметров позволяет создать эффективное и готовое к развёртыванию решение, очень рекомендуем прочесть ее полностью.
А здесь можно почитать описание семейства моделей Yolo.

🟡 Читать: https://huggingface.co/blog/samuellimabraz/signature-detection-model

#yolo #guide #detection #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍146🔥2😁1
Forwarded from Machinelearning
🌟 KBLaM: новая архитектура интеграции знаний для языковых моделей от Microsoft Research.

Microsoft Research представила KBLaM - архитектуру, которая решает ключевую проблему LLM — добавление новых внешних знаний. В отличие от традиционных методов файнтюна и RAG, KBLaM кодирует новые для LLM структурированные данные в виде векторных пар «ключ-значение», встраивая их напрямую в слои внимания модели. Это позволяет избежать дорогостоящего дообучения и построение дополнительных модулей, сохраняя линейную масштабируемость даже для баз знаний в 10 000 триплетов.

В KBLaM триплет — это структурированный элемент знания, состоящий из трех компонентов: сущности, свойства и значения. Например, в утверждении «Москва — столица России» сущностью выступает «Москва», свойством — «столица», а значением — «Россия».


В основе KBLaM - «прямоугольный механизм внимания»: языковые токены взаимодействуют с токенами знаний, но не наоборот. Такая структура сокращает вычислительные затраты до линейных, позволяя обрабатывать эквивалент 200 тыс. токенов на одном GPU. При этом модель динамически обновляет знания без пересчёта всей базы — достаточно изменить один триплет.

Эксперименты с KBLaM показали, что он не только эффективен, но и прозрачен: веса внимания визуализируют, какие факты использует модель. Например, при запросе о медицинском диагнозе высокие оценки внимания к соответствующим триплетам снижают риск «галлюцинаций», при этом, если ответ на запрос лежит вне базы знаний, модель отказывается на него отвечать.

Как заявляют авторы, KBLaM — не просто шаг к умным LLM, а мост между обученными на базовых знаниях моделями и реальным миром, где знания постоянно обновляются.

В опубликованном на Github коде для применения KBLaM поддерживаются модели с HF:

🟢Llama-3-8B-Instruct;
🟢Llama-3.2-1B-Instruct;
🟢Phi-3-mini-4k-instruct.

и эмбединги для генерации базы знаний:

🟠text-embedding-ada-002;
🟠all-MiniLM-L6-v2.

⚠️ Чтобы добавить поддержку других моделей, необходимо отредактировать скрипты обработки моделей и включить в них адаптер, подобный llama_model.py в src/kblam/models.


📌Лицензирование: MIT License.


🟡Статья
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #MicrosoftResearch #KBLaM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥19👍4❤‍🔥21🥰1
⚡️ SpatialLM-Llama-1B от Manycore Research – это 3D модель, предназначенная для обработки 3D облаков точек и генерации структурированных представлений 3D сцен.

📌 Обработка 3D данных:
Модель способна интерпретировать неструктурированные 3D данные, полученные из различных источников (например, монохромных видеопоследовательностей, RGBD изображений, LiDAR-сенсоров), и преобразовывать их в понятные архитектурные элементы (стены, двери, окна) и ориентированные ограничивающие рамки объектов с семантической категоризацией. Это позволяет создавать высокоуровневые семантические описания сложных сцен.

📌 Мультимодальный подход:
Проект объединяет различные типы входных данных, что значительно расширяет возможности анализа и интерпретации пространственных данных. Это делает модель полезной для приложений в робототехнике, автономной навигации и других задачах, связанных с 3D анализом.

📌 Технические детали:
Основана на модели Llama3.2-1B-Instruct, что обеспечивает высокий уровень генерации текста и семантического понимания.
Модель имеет 1.25 млрд параметров и использует современные библиотеки, такие как TorchSparse, для эффективной работы с разреженными данными.
Проект включает инструменты для визуализации результатов и оценки качества работы модели с использованием специального тестового набора SpatialLM-Testset.
Практическая применимость:
SpatialLM-Llama-1B может быть использована для автоматизации анализа 3D сцен, что особенно актуально в областях, требующих точного пространственного понимания, например, при создании цифровых двойников зданий, в архитектуре, а также в системах автономного управления.

https://huggingface.co/manycore-research/SpatialLM-Llama-1B

#SpatialLM #ml #ai
6👍3🔥3
HTML Embed Code:
2025/07/09 21:23:18
Back to Top