TG Telegram Group Link
Channel: AI.Insaf
Back to Bottom
Risk management in a dynamic society (Rasmussen), Resilience In Complex Adaptive Systems (R. Cook) Нашел в заметках за 23г, статью от 97г - но кажется материалы стали только актуальнее

В статье и докладе строится модель функционирования сложных систем (от АЭС до IT проектов), ограниченных тремя границами: экономической эффективности (сost / за ней система нерентабельна), рабочей нагрузки (сapacity / без неё — нехватка ресурсов) и отказа (accident boundary / за ней - критичные инциденты).

Система постоянно дрейфует к границе отказа/инцидентов из-за стремления сократить затраты и нагрузку. Чтобы избежать инцидентов, вводят буфер безопасности (margin of safety), но его со временем сдвигают ближе к опасной границе (normalization of deviance), что создаёт иллюзию избыточной прочности (это как ездить на максимальной разрешенной скорости). К тому же процесс часто разделён между несколькими уровнями иерархии.

Стабильность обеспечивают люди, способные адаптироваться и реагировать на угрозы, а не, почему то, регламенты. Рекомендация: сделать процесс прозрачными и обложить все мониторингом

P.S. Для автономных систем текущих ai агентов и обычных LLM с промтами может быть недостаточно
Гугл — Яндекс: 1–0
Ещё в конце мая Google запустил в открытое тестирование свой ассистент Jules для кодинга с интеграцией в GitHub (сам создаёт pull request и т. д.).

Попробовал протестировать на своём открытом репозитории: readmemd он переписал неплохо. Не зря у Gemini 2.5 Pro контекст в 1М токенов, это вам не Sonnet, где всего 200к.

Дальше — попытка добавить новый функционал. Первая попытка — провал: задачу он решил не так. Лучше отдельным запросом попросить улучшить промпт, даже через тот же Gemini. На следующей попытке он уже упал, пытаясь поставить все зависимости проекта. Установка torch пока оказалась для него непосильной задачей, но отрадно, что он, получается, пробует запускать и тестировать код.

Так или иначе, написанный им код я протестировал самостоятельно, и он не работал. Дебажить 400+ строк изменений — помянем. Ещё он обильно раскидал по коду пометки о том, что код нужно дорабатывать (например, # TODO: Add test for novelty retry logic (more complex mock for _generate_via_prompt)). Ах да, каждый запрос — это до часа ожидания.

Очень неплохо, но, кажется, Cursor пока лучше.
HTML Embed Code:
2025/06/30 19:07:49
Back to Top