TG Telegram Group Link
Channel: LLM под капотом
Back to Bottom
Что бывает, если дать разработчикам 8 часов и AI - 7 примеров

(Скриншоты 7 утилит, которые были полностью написаны AI - в комментариях, тут - контекст и оглавление)

У меня сейчас закончился первый модуль экспериментального курса AI+Coding. Он проводился в одной компании и был посвящен основам разработки при помощи AI. Мы изучали различные инструменты кодинга с AI, отрабатывали практические задания и осваивали процесс быстрого создания простых утилит.

Cегодня участники показывали всей компании результаты своей работы. У них была “выпускная” задача - при помощи AI+Coding за 4-8 часов создать утилиту, которая сделает их работу на основном проекте более легкой и приятной.

Это задание выполняли разные люди с разным опытом из разных проектов. Вот что они сделали:

(1) Инструмент для анализа корпоративных систем на сотни тысяч строк кода на 4GL языке
(2) Утилита для удобного редактирования словарей Contextive (работа с DDD)
(3) Тулза, которая помогает накатывать архитектурные изменения в DS/ML проектах (когда нужно синхронизировать десятки проектов)
(4) Extension для Cursor - ему задаешь вопрос текстом, а он генерит Regex, который найдет нужные файлы
(5) Красивая тулза, которая подключается прямо к Azure DevOps, описывает проект и отвечает на вопросы по коду
(6) Инструмент, который анализирует Docker build logs и визуализирует узкие места в процессе сборки контейнеров
(7) Автоматический анализатор тестов, которые проходят кандидаты в одну компанию газированных напитков (вы видели ее продукты в магазине) на предмет выявления очевидных ботов.

И это было очень круто видеть! Я не ожидал такого разнообразия способов упросить работу на типичных проектах. Ребята взяли самые нудные или наболевшие моменты своей работы и просто избавились от них.

Самое интересное, что весь этот процесс был заказан директором компании, как попытка мотивировать сотрудников в том, чтобы хотя бы начать интересоваться AI. Предварительная его оценка - “Отлично!”

Осталось дождаться результатов - смогут ли эти примеры вдохновить и других сотрудников начать осваивать AI? KPI - сколько еще людей попросятся во второй поток этого курса в данной компании.

Скриншоты этих семи утилит - в комментариях.

А если бы у вас в компании был подобный эксперимент, какую бы утилиту хотели сделать вы?

Ваш, @llm_under_hood 🤗
LLM Бенчмарк Claude 4

Модель Claude Sonnet 4, которой пользуется большинство, значительно выросла в очках сравнению со своим предшественником - Sonnet 3.7. Причем, прогресс есть во всех категориях, кроме сложных BI задач.

Кстати, пусть Claude Sonnet и не в топах по работе с зубодробительным кодом и легаси решениями, но если нужно быстро набросать симпатичный web интерфейс, то альтернативе Sonnet пока нет.

Claude Opus 4 - стал немного хуже, чем Claude 3.7 Sonnet Thinking

Ваш, @llm_under_hood 🤗

PS: Прочитать про мой подход к бенчмаркам можно тут. Там есть и FAQ со всеми вопросами, которые задают последние полтора года. Пожалуйста, прочитайте его, прежде чем оставлять свой первый комментарий.
Please open Telegram to view this post
VIEW IN TELEGRAM
Хорошая статья на тему AI+Coding

Аргументированная точка зрения от человека, который смотрит на LLM прагматично. Не как на откровение вайб-кодеров, но и не как на галлюцинирующий черный ящик. А как на полезный и уникальный инструмент, который уже меняет всю отрасль.

Обязательно читать: My AI Skeptic Friends Are All Nuts

Тон у статьи несколько провокационный, но с положениями о LLM - я в целом согласен.

Вот несколько понравившихся мне цитат про аргументы о AI+Coding:

(1) but the code is shitty, like that of a junior developer
Does an intern cost $20/month? Because that’s what
Cursor.ai costs.

(2) but you have no idea what the code is
Are you a vibe coding Youtuber? Can you not read code? If so: astute point. Otherwise: what ... is wrong with you?

You’ve always been responsible for what you merge to main. You were five years go. And you are tomorrow, whether or not you use an LLM.

(3) but hallucination
If hallucination matters to you, your programming language has let you down.

Agents lint. They compile and run tests. If their LLM invents a new function signature, the agent sees the error. They feed it back to the LLM, which says “oh, right, I totally made that up” and then tries again.

(4) but it’s bad at rust
It’s hard to get a good toolchain for Brainfuck, too. Life’s tough in the aluminum siding business.

(5) but i’m tired of hearing about it
And here I rejoin your company. I read Simon Willison, and that’s all I really need. But all day, every day, a sizable chunk of the front page of HN is allocated to LLMs: incremental model updates, startups doing things with LLMs, LLM tutorials, screeds against LLMs. It’s annoying!

But AI is also incredibly — a word I use advisedly — important. It’s getting the same kind of attention that smart phones got in 2008, and not as much as the Internet got. That seems about right.

Ваш, @llm_under_hood 🤗

PS: Но при этом не забываем одну вещь. Весь этот AI+Coding пока хорошо работает для отдельных людей и небольших команд, стартапов. Стабильно и без перекосов масштабировать это на уровень компаний и больших проектов - мы все еще только учимся.
🚀 Бенчмарк Deepseek 0528: r1 и qwen3-8b - маленькая мощная локальная модель

Ребята из Deepseek продолжают делать нашу жизнь лучше и интереснее.

Свежая версия 0528 модели deepseek-r1 немного улучшила свой предыдущий результат и даже обошла по очкам GPT-4.1.

Но самое интересное - гораздо ниже, на 20-м месте бенчмарка. Deepseek взяли небольшую модельку - qwen3-8b и дообучили ее на цепочках размышлений от DeepSeek-R1-0528. Получившийся "дистиллят" внезапно неплохо умеет рассуждать по планам, которые зашиты в SO CoT моего бенчмарка. Она показывает результат на уровне gpt-4o-2024-08-06!

И это при том, что я эту модельку запускал через API NovitaAI, который Structured Outputs не поддерживает в принципе.

Это настолько хорошо для такой маленькой модельки, что прямо интересно. Кто-нибудь еще использовал эту модель в режиме с Custom Chain of Thought?

Ваш, @llm_under_hood 🤗

PS: Прочитать про мой подход к бенчмаркам можно тут. Там есть и FAQ со всеми вопросами, которые задают последние полтора года. Пожалуйста, прочитайте его, прежде чем оставлять свой первый комментарий.
Как мне OpenAI сегодня сэкономил 8 часов

Я недавно упоминал кейс про 700000 строчек дремучего 4GL кода 30-летней давности. Этот код надо переписать на Java/Kotlin так, чтобы пользователи в 13 странах не заметили подмены и продолжали работать как и раньше.

Чтобы начать оценивать реальность переписывания, надо самостоятельно запустить этот монолит. И это при том, что документацию про запуск в тендер не включили, есть только git с исходниками. Про один из параметров запуска сказать забыли, а он срабатывает при обращении системы к служебным таблицам, куда тоже нет доступа. А БД - файловая, работает по хитрому протоколу через VPN, либо через JDBC, который прикручен сбоку.

При этом ни среду программирования, ни язык я раньше в глаза не видел. Да и вообще специалисты в них уже почти все на пенсии (почему и так горит переписывание).

Сегодня ChatGPT помог за несколько часов благополучно разобраться в коде, найти точки входа, отладить проблемы и запустить систему. Без чьей-либо помощи.

Запросы в ChatGPT выглядели примерно так:
(обращаем внимание на то, как c каждым ответом от ChatGPT понимание происходящего становится лучше)

(1) Вот что это вообще?
(2) Вот тебе список файлов и папок в верхних уровнях проекта. С какой стороны это запускать?
(3) Ну поставил я среду для разработки, какой скрипт наиболее вероятен в качестве точки входа?
(4) Скрипт ругается на отсутствие БД. Как поставить драйвера Progress 4GL под Windows?
(5) В чем различие между JDBC и ABL подключением к БД? Как проще пробросить настройки в сессию?
(6) Вот тебе входной скрипт ABL и релевантные параметры. Помоги отладить причину, почему терминал не пропускает мой логин.
(7) Встрой в приложение отладочное окно, которое покажет статус авторизации моего тестового логина в системной таблице и в ее второй версии от 2008 года
(8) Вот выхлоп отладочного окна. Выдай пару вариантов, почему у меня логин с валидным паролем может не проходить
(9) Напиши ABL скрипт, который достанет _Domain-name для моего пользователя из системной таблицы _Users (OE11+). JDBC не пользуйся - оттуда доступ закрыт.
(10) Как пробросить параметр SESSION:ICFPARAMETER в приложение ABL, запускаемое из PDSOE?

В принципе, я бы осилил весь процесс и сам, но убил бы пару дней на чтение форумов, устаревшей документации и освоение базового синтаксиса 4GL в контексте ABL и терминальных приложений.

А так, ChatGPT + DeepResearch просто за пару часов провели меня за ручку до поставленной цели.

Ваш, @llm_under_hood 🤗
Как добавить памяти AI+Code агентам?

В посте про то, как разрабатывать сложные проекты, я писал про README, AGENTS и CONTEXT md файлы. При использовании в связке с двушаговой разработкой (через implementation plan), они хорошо помогают реализовывать довольно сложные фичи.

Но этот процесс основывается на костыли в виде человеческих процессов разработки на Github. Так разрабатывали и Linux Kernel и множество других OpenSource проектов.

А можно ли как-то дополнить процесс именно для удобства работы современных AI+Code систем?

Вот еще одна фишка, которая в итоге позволяет работать чуть более стабильно с чуть более сложными проектами.

Смотрите, и OpenAI Codex и Cursor.sh с терминальными утилитами очень любят использовать grep - утилиту для поиска текста в файлах. Поэтому можно разрешить им оставлять однострочные комментарии с каким-нибудь префиксом, который они смогут быстро найти, например AICODE-. И обязательно попросить искать эти комментарии в файлах перед началом работы с ними.

Например, можно выделить:
- AICODE-NOTE - заметка или комментарий для AI+Code системы
- AICODE-TODO - задачка себе на сессию попозже
- AICODE-ASK - вопрос от системы человеку, чтобы он ответил и потом пометил как AICODE-NOTE


Все вместе в коде это может выглядеть, скажем, вот так:


const LOGIN_START='\\x1b]9;LOGIN=START\\x07', LOGIN_END='\\x1b]9;LOGIN=END\\x07';
let inLogin=false, buf='';
// AICODE-NOTE: Complex OSC sequence parsing - this is the core login overlay logic
// AICODE-ASK: Could this parsing be more robust? What if sequences are split across messages?
socket.addEventListener('message', ev=>{
const chunk = ev.data instanceof ArrayBuffer
? new TextDecoder().decode(ev.data) : ev.data;
buf += chunk;
while (true) {
const s = buf.indexOf(LOGIN_START), e = buf.indexOf(LOGIN_END);
if (s!==-1 && (s<e || e===-1)) {
if (!inLogin && s>0) term.write(buf.slice(0,s));
buf = buf.slice(s+LOGIN_START.length); showOverlay(); inLogin=true; continue;
}
if (e!==-1) {
if (!inLogin && e>0) term.write(buf.slice(0,e));
buf = buf.slice(e+LOGIN_END.length); hideOverlay(); inLogin=false; continue;
}
break;
}
if (!inLogin && buf){ term.write(buf); buf=''; }
});



Это создает долгосрочный слой памяти прямо в коде, который позволяет агентам самостоятельно задавать вопросы по тексту или оставлять себе заметки. Или самостоятельно разбивать сложные задачи на более простые (через `AICODE-TODO`)

В итоге получается чуть стабильнее работать с чуть более сложными проектами.

Ваш, @llm_under_hood 🤗

PS: сам код на экране промежуточный - в процессе работы Codex-a. Он демонстрирует то, как AI+Coding системы пользуются подобными комментариями по мере подготовки финального PR.
Поспорил, что через год MCP сервера перестанут быть мейнстримом

MCP - это стандарт легкого подключения разных инструментов и данных к LLM системам. Его придумали в Anthropic (на базе LSP) и быстро подхватили в куче компаний:

- Microsoft - объявили поддержку в Windows 11 на уровне OS, включая MCP Registry. А еще в Copilot Studio, Microsoft 365 Copilot, Dynamics 365, Azure AI, Semantic Kernel SDK итп
- Atlassian - Jira & Confluence, чтобы тикеты крутить.
- Amazon - интегрирует это в AWS Bedrock, чтобы работать с AWS сервисами
- И еще много другие: Replit, Block, Sourcegraph, Codeium, Zed итп

Так вот, я думаю, что через год все эти компании разочаруются в концепеции MCP и переключатся на что-то еще.

Почему я так считаю?

Техническая реализация MCP серверов изначально сделана на троечку. Но, что важней всего, сама продуктовая концепция изначально ущербна.

Какой принцип разработки систем с LLM под капотом работает у нас на практике?

(1) Смотрим на проблемы бизнеса и выбираем ту, которую можно решить при помощи AI с минимальными усилиями и рисками.

(2) Перед началом работы - “упаковываем” LLM часть в отдельный модуль, который должен хорошо покрываться тестами.

(3) Упаковываем так крепко, что в системе ничего не будет свободно болтаться. Что у LLM останется минимальное количество степеней свободы, которые будут хорошо покрыты наборами тестовых данных.

Тогда качество будет предсказуемым и появится возможность планомерно улучшать качество системы.

А как звучит обещание MCP? Да прямо наоборот:

(1) Берем любую модель
(2) Встраиваем в нее любое количество любых инструментов из MCP Registry
(3) Сразу же наслаждаемся отличным результатом.

Ну не работает оно так.

Да, можно аргументировать, что MCP - это просто описание протокола, по которому умные модели находят инструменты и данные. Что модели умнеют с каждым днем и смогут отлично справиться с любыми инструментами с первого раза. Даже с теми, которые они в глаза не видели.

Но это нужен уровень выше современных топовых reasoning моделей (в thinking режиме). И при этом, чтобы они стоили в сотни раз дешевле

Я верю в возможность удачного использования LLM в системах под капотом - если повторять удачные кейсы, минимизировать риски и вариативность, обходить популярные грабли.

А MCP - это прямо целый сарай с граблями (ну или лопат со встроенными граблями и удобным механизмом разбрасывания их по окрестностям)

И когда через год будет замена MCP, то называться она будет иначе. Просто потому, что концепцию использования, которая завязана на простоту подключения множества разных инструментов в LLM - люди постараются забыть как страшный сон.

А вы как считаете?

Ваш, @llm_under_hood 🤗
В OpenAI услышали, что разработчики часто запускают несколько версий одной и той же AI+Coding задачи.

(я про это упоминал в "Как разрабатывать большие проекты с кучей зависимостей")

Поэтому в Codex можно теперь сразу запустить до 4-х версий одной и той же задачи, чтобы потом выбрать наилучший вариант ответа.

С людьми такое бы не прокатило)

Ваш, @llm_under_hood 🤗
Вышла свежая лекция Andrej Karpathy про Software in the Era of AI

Там много всего интересного - за 40 минут он понятно и образно описывает текущее состояние AI, систем для кодинга и того, куда все это катится. Очень рекомендую к просмотру.

(Это его выступление для той самой школы AI стартапов в Сан-Франциско)

Andrej в том числе проходится по вайб-кодингу, который сам когда-то популяризовал.

"когда я вайб-кожу, то все пучком. Но вот если мне нужно что-то сделать на самом деле..."

("If I'm vibe-coding, it is all nice and great, but if I'm actually trying to get the work done, it's no so great to have an overractive agent doing all this kind of stuff").

В общем, как мы уже обсуждали раньше, вайб-кодинг - вещь прикольная для прототипчиков. Но если нам не играться надо, а работу делать и серьезные проекты пилить, то AI+Coding агентов уже нужно держать на коротком поводке. А для этого - работаем с планами, выдаем им системы для верификации, даем инструкции для использования всего этого.

Cоветую посмотреть: https://www.youtube.com/watch?v=LCEmiRjPEtQ

Ваш, @llm_under_hood 🤗
Рейтинг AI+Coding агентов

Кто-то догадался, как оценить использование людьми AI+Coding агентов. Они мониторят сгенерированные агентами Pull Requests в открытые Github repositories. На основе этого можно посчитать как объем созданных PRs, так и число тех, которые были приняты. Эти две цифры уже дают примерную оценку успешности работы (Merge success rate).

А если построить график по дням, то получится еще и динамика. Кого используют больше, кто становится точнее, кто самый популярный.

Вот ссылка на интерактивный отчет. Github Repo - тут расписана методика измерения.

Интересны тренды:

(1) OpenAI Codex появился месяц назад, но уже уделывает Devin в 10x раз по объемам использования. Успешность продолжает расти, как и объемы
(2) Сursor - второй по уровню успешности, но он в последнее становится хуже 🥹
(3) Успешность Copilot продолжает расти. Такими темпами они скоро обгонят Devin и догонят Cursor

А какие ресурсы для AI+Coding используете вы?

Ваш, @llm_under_hood 🤗

PS: Спасибо @kuchin, который поделился ссылкой в нашем чате курса.

PPS: как заметил @uberkinder - оценка успешности очень примерная, она зависит от UX продуктов. Надежнее просто смотреть на объем merged PRs.
Продакты и Лиды с опытом - будут самым востребованным ресурсом в ближайшие годы. Особенно, если они умеют гонять в хвост и в гриву AI (но это обучаемо). Так говорят директора компаний вроде OpenAI, Google и Microsoft. А в закрытых группах и чатах начинает наблюдаться некий ажиотаж и спрос на специалистов в этой области.

Вот и мы с вами в чате недавно про это говорили.

В теории - это те самые люди, которые уже обладают опытом, позволяющим получить 5х-10х повышение производительности в продуктах. Причем далеко не обязательно пилить продукты с LLM под капотом, достаточно уметь пользоваться современными инструментами.

А вы относитесь к этой категории людей? Расскажите, что вы думаете по поводу всей ситуации и какие перспективы видите!

Ваш, @llm_under_hood 🤗
Посоветуйте 20-летнему молодцу какие софт и хард скиллы качать для нового мира?

Такой вопрос задал Денис в обсуждениях предыдущего поста. Вот мой ответ на него.

Для начала можно набрать опыта делая проекты в какой-нибудь конкретной отрасли (медицина, биотех, law of the business, ecommerce итп). Если проектов нет - искать их на upwork, freelance и нишевых форумах. Если общаться сложно из-за языкового барьера, то в первую очередь качать English.

Если слова вроде понятны, но звучат как белиберда, значит просто не хватает предметного опыта в области. Он нарабатывается общением и практикой.

Дальше по мере работы обращать внимание на прокачку своих скиллов в таких областях:

- постановка задач
- формулировка требований для других
- умение четко доносить свои мысли при помощи текста и иллюстраций
- работа в команде и с командой
- умение работать и выстраивать процессы
- data-driven product development (и вся работа с аналитикой, гипотезами и клиентами)


И еще просто смотреть на то, что говорят про будущее разные люди на текущем AI Startup School:

- Andrew Ng:
PMs Are the Bottleneck Now + Product Sense Matters in Engineering
- Satya Nadella:
Learn how to build teams
- Sam Altman:
one person can now do what teams needed before... Hiring smart, scrappy people with steep growth curves gets you 90% of the way.
- Jared Kaplan:
The next startup wave is shifting from copilots to direct replacements—especially in domains where some error is tolerable
- Dylan Field:
AI is best used to increase iteration speed, not just magic output. Designers and PMs must now contribute to AI evaluations.

А что бы посоветовали вы?

Ваш, @llm_under_hood 🤗
Листы ожидания на мои новые курсы на английском

Причем сразу два.

(1) Building AI Assistants: Patterns and Practices. Это английская версия курса в записи “LLM под капотом: выбираем эффективные технические решения для AI-ассистентов” (подробности тут)

(2) AI+Coding - курс на английском для команд по внедрению паттернов и практик кодинга с современными AI инструментами. Вайб-кодинг там тоже будет упомянут, но основная часть - это системный подход к разработке существующих проектов (не обязательно про AI/LLM).

AI+Coding на английском я уже читаю командам внутри группы компаний. Как раз сегодня запустили вторую когорту, а первой расширили материал до Codex-подобных систем, чтобы люди были заранее готовы к их использованию.

Записаться в лист ожидания можно тут:
- Building AI Assistants in English
- AI+Coding in English

Запуск ориентировочно этой осенью.

Ваш, @llm_under_hood 🤗
Почему в последнее время в канале больше постов про AI+Coding, чем про продукты с LLM под капотом?

Потому, что актуальных проблем с AI+Coding сейчас больше, чем с разработкой продуктов. Тут есть две причины.

Во-первых, паттерны самых типовых и удачных проектов для внедрения в бизнес - уже известны. Это: (1) Data Extraction и (2) Search Assistants

Мы их уже обсуждали в канале не раз (см оглавление разборов кейсов). Берется LLM посовременней (лучше сразу VLM, если надо с PDF работать), добавляется туда обязательно Structured Output, а в схему прописывается Custom Chain-of-Thought в виде Checklist. Все!

Этого достаточно для реализации больших и дорого выглядящих проектов вроде “автоматизация поиска ошибок во входящих purchase orders”, “медицинский ассистент для приема больных”, “сопоставление номенклатур компонентов между поставщиками (чтобы следить за рынком и продавать быстрее)” и тому подобное.

Да, есть всякие copilots, RAGs, reasoning workflows, agents, но там требуется куда больше телодвижений, риски больше, а прибыльность меньше.

Так что знакомые мне компании и команды пока скучно копошатся и осваивают открывшийся им объем работ с относительно безрисковыми подходами. Принципиально новых кейсов пока нет, но вот дел очень много. Все упирается в разработку и нехватку специалистов, которые могут комфортно разрабатывать системы с LLM под капотом.

И вот это как раз ведет ко второй причине - AI+Coding - это как раз тот инструмент, который может частично компенсировать нехватку “грубой” рабочей силы и разгрузить специалистов. AI не заменяет разработчиков, просто позволяет занять им место “повыше” - вместо проверки вариантов вручную, исследований, поиска проблем, можно сэкономить время и отдать задачи джунам в виде десятка AI Agents. Это ускоряет итерации и улучшает прибыльность. Примерно получается ускорение 5x-7x (дальше - упираемся в самих специалистов).

Но есть нюанс - тут надо многому учиться, а это - процесс небыстрый. Разработчикам надо учиться как использовать современные AI инструменты эффективно, чтобы они помогали, а не наворачивали дел. А мне самому надо учиться тому, как эти команды разработчиков учить. Ведь мало что-то наглядно показать, надо еще помочь уложить в систему, закрепить полученный материал, отработать на практике и проверить.

Поэтому у меня в последние месяцы голова болит больше про AI+Coding, чем про продукты с LLM под капотом. Реализация единичных AI продуктов в компаниях сейчас уже не такая большая проблема, как масштабирование всего этого процесса вширь.

И что-то говорит, что дальше будет еще веселее.

Ваш, @llm_under_hood 🤗
Please open Telegram to view this post
VIEW IN TELEGRAM
Ручка и блокнот - превосходно работают для управления агентами

Процесс выглядит так:
- берем чашечку кофе
- пишем идеи в блокнотике в приятном месте
- парсим текст при помощи ChatGPT
- отправляем AI+Coding агенту
- делаем ревью и деплоим
- помечаем Done
- допиваем чашечку кофе

Ваш, @llm_under_hood 🤗
Кейс про reasoning, в котором автор признается в использовании векторов и в архитектурной ошибке

Задача кейса - ускорить работу c документами compliance офицеров, час работы которых стоит 160-400 EUR и выше.

Я про это уже писал тут:
- Эпизод I
- Эпизод II
- Эпизод III
- Reasoning кирпичик для Stargate
- Эпизод IV

Архитектура и подходы - не коммерческая тайна. Это просто повторение успешных паттернов, которые я уже видел в других проектах.

Система состоит из трех частей.

Первая часть - data parsing с VLM под капотом. Регуляторные документы обычно распространяются в хитровыверченных PDF разных форматов. Нам нужно не просто их распарсить в текст, но и сохранить семантическую структуру (граф).

Когда я показал один такой документ Илье, он сказал про “криптонит всех парсеров” и “коварно” 😁

На эту часть я потратил в сумме три месяца. Под капотом - PyMuPDF, Paddleocr/PaddleX, Gemini Pro 2.5/OpenAI и пара интерактивных интерфейсов для реализации REPL/Human In The Loop. Конечно же SO CoT.

Вторая часть - анализатор документов c LLM под капотом. Это workflow, который сопоставляет набор регуляторных документов и набор внутренних документов, выделяет список применимых требований и аргументированно выдает список проблем во внутренних документах, которые надо бы проверить.

На эту часть я потратил тоже месяца три в сумме.

(1) загружаем все релевантные графы документов
(2) проходимся по графам, анализируем узлы, проецируем все в мини-графы. Каждый мини-граф - это конкретная статья со всеми подпунктами и релевантным контекстом
(3) анализируем каждый мини-граф - содержит ли он в себе конкретные требования, которые нужно выполнять? А применимы ли эти требования к рассматриваемым документам?
(4) анализируем найденные требования - критичность? какая информация должна быть во внутренних документах, которые будут эти требования выполнять?

Везде тут используются SO CoT. В схемах прописаны checklists, которые содержат промежуточные пункты, чтобы направлять мышление системы, да и просто отлаживать весь процесс.

(5) ищем релевантные мини-графы во внутренней документации. В текущей версии использую embedding openai-text-large + LLM review, который делается просто и из коробки работает хорошо. Если соберется достаточно размеченных данных, которые показывают на ошибки, заменю на поиск по графу и онтологиям.

(6) собираем пакет документации (мини-графы требований и найденный evidence) и прогоняем еще через один SO CoT для финального анализа. Выписываем результаты в audit report, сортируем по срочности.

Третья часть - это интерфейс, который дает экспертам поработать с этим отчетом. Там есть дашборд с метриками и список найденных проблем. Эксперты могут загрузить в workbench каждую проблему, чтобы посмотреть результаты анализа, найденный evidence, пройтись по цепочке размышлений или просто по графу регуляторного документа. Есть возможность сделать review, пометить evidence, чтобы эти правки можно было отправить дальше в работу. Ну и заодно тут мы собираем feedback для калибрации системы в будущем.

Третья часть написана на next.js/React/Tailwind/TS + NixOS/Caddy deployment. Я на нее потратил в сумме часов 18 и пару недель. 100% кода написано AI+Coding.

Концепцию UX помог сформировать Gemini Pro 2.5 (пригодился его инженерный склад ума и активный контекст в 500k). Красивый интерфейс набросал Claude Opus 4

OpenAI Codex встроил этот интерфейс в чистый next.js шаблон и вел разработку дальше (вот тут и была моя архитектурная ошибка - next.js был очень неудачным выбором для AI+Coding - мало документации и слишком часто его меняют).

От меня агентам шел поток задач и отзывов. Они - ваяли. Использовали AICODE- память для посланий друг другу. В сложных случаях использовал implementation plan. Всегда запускал 2-4 версии задач, выбирал самый симпатичный вариант, остальные выкидывал. ~60% задач были отправлены с телефона)

В итоге получился очень интересный опыт. Надо теперь брать отпуск и систематизировать все возможности в голове)

Ваш, @llm_under_hood 🤗
Интерфейсы у Claude Opus получаются утилитарные, но всяко лучше того, что я бы сделал сам.
HTML Embed Code:
2025/07/06 17:06:44
Back to Top