Habr.com

Syndicate content Хабр
Все публикации подряд на Хабре
Updated: 1 hour 33 min ago

RAG в enterprise: 70-80% проблем не в модели, а в данных

Mon, 05/18/2026 - 11:00

Эта статья родилась из работы над AlpinaGPT. Мы недавно зарелизили в нём по-настоящему крутых AI-ассистентов и AI-проекты: с подключаемыми базами знаний, общим контекстом чатов и нормальной памятью между сессиями. Я начал смотреть, как RAG сделан у других — и оказалось, что во многих продуктах на рынке всё гораздо проще и грубее, чем нам кажется. 

Идея RAG проста: дать языковой модели доступ к внутренним документам компании, чтобы она отвечала не из общих знаний, а по конкретным регламентам, инструкциям и базам знаний. На практике большинство команд проходят один и тот же путь: быстро собирают прототип, показывают его на демо, получают одобрение, а через пару недель в продакшне обнаруживают, что система путает версии документов, теряет контекст и уверенно выдаёт ответы, которых нет ни в одном источнике.

В этой статье — разбор конкретных причин, по которым RAG ломается в enterprise, стратегии чанкинга, антипаттерны архитектуры и практический чек-лист внедрения. 

Читать далее

Как оживить фото нейросетью Kling 3.0: пошаговый гайд с промптами в SpeShu.AI

Mon, 05/18/2026 - 10:59

Kling 3.0 — текущий лидер в сегменте Image-to-Video. В отличие от предыдущих итераций, здесь глубже проработан Diffusion Transformer (DiT) — механизм внимания к исходному кадру. Благодаря ему нейросеть не дорисовывает кадры сама, а моделирует их на базе объектов.

В этой статье разберём, как оживить фото, сохранив анатомическую точность и текстуры. Бонусом 3 готовых промпта для теста модели.

Читать далее

Как создать свой бенчмарк: 6 уроков с туториала NeurIPS

Mon, 05/18/2026 - 10:53


Посмотрела Туториал NeurIPS «The Art of Benchmarking» — панель с авторами SWE-bench, GPQA и ведущими исследователями из Google DeepMind, NYU и Berkeley.
Вот мой конспект. Делюсь с вами, так как бенчмарки теперь не только про науку, но и про безопасность, регуляторику и миллиардные решения о деплое.

* Тирания метрик
Оказывается, любая метрика имеет honey spots, которые модель может хакнуть. Проблема в том, что текущая мета-оценка (корреляция Пирсона) эти точки не показывает. А если метрика становится еще и reward'ом при обучении — могут быть проблемы

* Про долговечность
Бенчмарки действуют только определенный период, и нередко - далеко не 10 лет. Всё насыщается. ImageNet продолжает быть полезным, потому что его используют для 10 разных задач (диффузия, CLIP, zero-shot). А большинство бенчмарков теряют актуальность, но продолжают кочевать по paper'ам еще 5 лет — просто потому, что их удобно цитировать. Это плохая практика.


* Субъективность — везде
Даже в классификации изображений люди расходятся. Две принципиально разные причины: (а) задача плохо задана (underspecification), (б) люди реально думают по-разному. Проблема краудворкинга: если не кэпировать ответы, вы получите не мнение популяции, а мнение Боба, который сделал 80% аннотаций.

* LLM как источник оценки — это очень опасно
Они коррелируют с людьми только на той выборке, на которой их калибровали(!). Модель становится умнее — распределение данных меняется — корреляция падает. А при генерации бенчмарков LLM имеют сильнейший self-bias (даже с независимой метрикой). Единственный корректный подход — заставить модель генерировать примеры, на которых она ошибается

Читать далее

Ego is your limit или как мы сопротивляемся собственному развитию в контексте AI-революции

Mon, 05/18/2026 - 10:40

В заметной части ИТ-сообщества до сих пор отмахиваются от AI-ассистентов: ругают за галлюцинации, смеются над «вайб-кодингом» и превозносят биологический мозг. Или это мне так кажется.

Я не сторонник вайб-кодинга и долгое время игнорировал существование агентов, но моё отрицание прогресса стало обходиться мне слишком дорого. И я шагнул на съедение страшным симуляторам программиста на подложке.

Внутри - рассуждение о том, почему главное место в современной дискуссии занимают не ИИ-агенты, а мы и наше эго, просто все дружно делаем вид, что обсуждаем другое. Рассуждение, основанное на наблюдении за собственным внутренним сопротивлением происходящим изменениям.

Да будет срач!

8 PoPs по миру за €46/мес: реальная экономика pet privacy-DNS в цифрах

Mon, 05/18/2026 - 10:40

Я полгода в одиночку пилю VantageDNS, privacy-focused recursive DNS с фильтрацией. Аналог NextDNS, юрисдикция EU. Ниже честный построчный разбор того, во что мне на самом деле обходится сеть из 8 нод по миру и контрол-плейн. Не маркетинговое «около ста евро», а реальная цифра, которая каждый месяц списывается с карты: €46.27.

В конце таблица расходов и прикидка, сколько платных юзеров надо, чтобы это перестало быть хобби.

Показать счёт

Как люди использовали биометрию до компьютеров?

Mon, 05/18/2026 - 10:00

Невероятно, но факт: человек понимал, что части нашего тела несут уникальную биометрическую сигнатуру еще когда эпос о Гильгамеше был самым популярным “шлягером” на вавилонских свадьбах и пирах.

Читать далее

Китае-американский визит десятилетия, а также первый коммерческий пилотируемый меха-робот

Mon, 05/18/2026 - 09:50

Самые интересные новости финансов и технологий в России и мире за неделю: встреча Трампа и Си, новый глава ФРС заступил на должность, первое крупное ИИ-IPO Cerebras, на бирже обещают сделать фьючерсы на компьют, экономика РФ замедляется, мессенджер Max хочет заменить банковские SMS, айтишники в западных компаниях жгут токены почем зря, а также хорошая новость недели для всех скуфов.

Читать далее

Иллюзия сохранности, или Бэкап, который не спасает

Mon, 05/18/2026 - 09:35

Случай, произошедший со стартапом PocketOS, выглядел бы комичным, если бы не обернулся реальной катастрофой. ИИ-агент Cursor, работавший на базе Claude Opus, за девять секунд уничтожил не только основную базу данных компании, но и все резервные копии.

Читать далее

GEO для Яндекс Нейро: 4 метрики, которые отвечают на главный вопрос «почему меня нет в выдаче»

Mon, 05/18/2026 - 09:03

Когда в 2023-2024 году Яндекс и Google запустили генеративные ответы поверх поисковой выдачи, классические SEO-метрики начали ломаться по одной. Позиция «1 место в SERP» больше ничего не значит, если 40-70% коммерческих запросов в нише триггерят AI-ответ выше первой ссылки. Click-through rate упал даже у тех, кто формально сохранил топ-3 - AI-ответ перехватывает часть кликов, и появляется новый класс источников: домены, которые AI цитирует в своём ответе. Туда вы либо попадаете - либо нет.

Самое неприятное здесь - то, что обычно называется GEO (Generative Engine Optimization), сейчас почти никто реально не мерит. Классические SEO-инструменты (Ahrefs, Topvisor, SE Ranking) видят AI-ответы Нейро и AI Overview Google как «features», но не дают метрик, по которым можно работать. Команды смотрят позиции, видят что они на месте, а трафик при этом просел на 20-40%, и не понимают почему.

В этой статье разбираю 4 GEO-метрики, которые реально работают для Яндекс Нейро, показываю их формулы (включая реальную формулу композитного Visibility Score из нашего production-кода), и объясняю как собирать всё это через Yandex Cloud Search API + Wordstat + Apify без покупки enterprise-инструментов. По нашему опыту работы с этим стеком на десятках брендов в нишах от ремонта/монтажа до e-commerce и B2B-услуг - у 4 из 5 брендов Citation Rate в Нейро равен 0% по их же главным коммерческим запросам. Это и есть основная цифра, ради которой стоит начать мерить.

Читать далее

Насколько многомерным может быть многомерный точный индекс?

Mon, 05/18/2026 - 09:01

Вот, например, Milvius(DiskANN) рассчитан на вектора размерности до 32 768, но это приближенный поиск.  Но как насчёт поиска точного?

В данной статье рассматривается работоспособность 1024 мерного индекса, хранилищем которого служит обычное B-дерево (насколько вообще может быть обычным такое дерево). Используемый диск - вполне себе “железный” старый добрый WD Purple, оперативная память сознательно ограничена 8 Гб. Можно ли что-то из этого выжать на рядовом десктопе за приемлемое время?

Читать далее

Wayback Machine как архив IDOR: как временные ссылки перестали быть временными

Mon, 05/18/2026 - 09:00

В марте 2026 многие обсуждали ситуацию с доступом к изображениям из ЛС мессенджера MAX по ссылкам, сохранённым через WebArchive. Тогда же многих не устроил ответ компании.

К сожалению, ситуация хуже, чем кажется. Т.к. проблемы не видят не только в MAX, но и в других компаниях (столкнулся с этим, оповещая компании о похожих проблемах). В статье я расскажу, почему считаю ситуацию - проблемой для всех: пользователей, компании, багхантеров. И как связка "WebArchive + IDOR" может стать бомбы замедленного действия для компании.
Более того, эта ситуация - наглядный пример, как отлаженный механизм повышения безопасной разработки (что не найдут внутренние безопасники компании - отловят багхантеры) иногда даёт сбой.

Читать далее

Как связывание эмбеддингов душит трансформеры и уничтожает градиенты

Mon, 05/18/2026 - 08:44

Долгие годы в NLP считалось правилом хорошего тона связывать матрицу входных эмбеддингов с матрицей выходного классификатора (Weight Tying), чтобы сэкономить память. В этой статье мы разберем геометрическую ошибку этого подхода. Вы узнаете, почему входные и выходные репрезентации имеют прямо противоположные математические цели, и как общая матрица приводит к физическому столкновению градиентов во время обратного распространения ошибки, лишая модель выразительности.

Читать далее

Qwen3.6 27B MTP весит на +0.3 Гб больше, а даёт ускорение в ~2 раза. С 60 t/s до 130 t/s без потерь. Что такое MTP

Mon, 05/18/2026 - 07:28

В llama.cpp добавили поддержку MTP Qwen3.6. Дополнительные слои Multi-Token Prediction позволяют сгенерировать сразу несколько токенов за 1 проход, что ускоряет генерацию в 1.5-2 раза. Качество при этом остается lossless. Для моделей, которые не имеют встроенного MTP, есть альтернативы в лице EAGLE-3 и DFlash.

Читать далее

15 вещей, которые вы бы не хотели знать о мессенджере MAX: тайная запись звука с микрофона в звонках и много чего еще

Mon, 05/18/2026 - 07:12

Я декомпилировал APK мессенджера MAX и проверил его поведение по коду. нашёл: скрытый SDK деанонимизации с отправкой реального IP в обход VPN на сторонний домен, недокументированную запись аудио со звонков по команде сервера, отключённую проверку TLS-сертификатов в QUIC-канале медиа, серверный C2-канал через WebSocket с командами выгрузки контактов и логов, аппаратный фингерпринт через Widevine DRM, ZipSlip в загрузчике моделей, передачу номера телефона по открытому HTTP, силовое обновление в обход Google Play, управление NFC-payload из мини-приложений, трекинг адресной книги в реальном времени и ещё несколько находок. Все находки сверены с реальным кодом, ссылки на файлы и классы в zarazaex69/m

Читать далее

Последовательное иерархическое распределение сумм между получателями. Постановка задачи. Выбор технологий

Mon, 05/18/2026 - 03:12

На текущем месте работы я иногда вижу запросы на систему распределения затрат по определенным правилам, которые должны гибко изменяться без необходимости пересборки всего приложения.

Исходя из текстов запросов, создается впечатление, что многие считают эту задачу сложной и требующей создания специфических, заточенных именно под данную задачу решений.

Однако, исходя из того, что я знаю про Apache Spark, с его помощью и используя расширение по работе с графами, это не выглядит сложной задачей.

Я решил это проверить.

В данной статье будет описана задача и выбранные технологии.

Во второй части будет описана база данных для хранения правил и результатов.

В третьей части будет создано решение на базе Apache Spark и его функций по работе с графами.

Бонусом получится сравнить скорость выборки результирующих данных из Postgres с помощью рекурсивных запросов и запросов к Apache Spark с помощью GraphFrame.

Читать далее

Непослушный using

Mon, 05/18/2026 - 02:55

В прошлой статье я разобрал, как работает квалифицированный поиск и как using namespace участвует в нём только в качестве запасного варианта, когда собственных объявлений в указанной области нет. Компилятор сначала смотрит, что объявлено непосредственно в текущем контексте, и только при неудаче переходит к именам, подмешанным через директиву using. Казалось бы, схема прозрачная и предсказуемая: есть область поиска, есть приоритет явных объявлений, есть «правило N-объявлений» как страховка.

Но как только мы переходим от переменных и функций к более общим механизмам в коде, эта прозрачность сразу начинает ломаться, причём в самом обыденном коде, который пишет каждый разработчик с первых дней обучения. По правилам языка мы можем разместить директиву using namespace где угодно, но если в области, указанной в квалификаторе, что-то объявлено явно, квалифицированный поиск найдёт именно это объявление, и лишь если явно объявленного имени нет, компилятор начинает учитывать имена, ставшие видимыми через using namespace, и так далее по цепочке.

Но тут есть скользкое место, о котором умалчивает большинство учебников и курсов, обходя вниманием работу с операторами. Например оператор сдвига влево <<, может быть определён в любом пространстве имён.

ох уж этот using

Как я загрузил компактную открытую LLM в робота и сказал ему ходить (и хватать)

Mon, 05/18/2026 - 02:00

Продолжаем экспериментировать с llm-ками (ну или приближать восстание машин, тут как повезет). Продвигаем нейропанк, короче.

На этот раз будем пробовать обучить компактную открытую языковую модель на 270 млн параметров от Google управлять гусеничным роботом с робо-рукой, пока чисто в симуляции.

Читать далее

Память дала AI-агенту прошлое. Solo Kanban даёт ему настоящее

Mon, 05/18/2026 - 01:08

AI стал писать код быстрее, чем я успевал удерживать контекст работы. Код вроде написан, diff вроде разумный — но почему именно так, какие варианты отбросили, что обещали не трогать, куда делись follow-ups? Всё это жило в чате, а репозиторий видел только финальный diff.

Это третья статья серии про память AI-агентов. В первых двух — https://habr.com/ru/articles/1006756/ и https://habr.com/ru/articles/1033388/ — разбирал устройство Memory MCP Server: зачем агенту постоянная память, semantic search, грабли по дороге. Память помогла, но довольно быстро выяснилось, что «помнить» и «вести задачу до конца» — разные навыки.

В этой статье — про следующий слой: Solo Kanban, git-native delivery loop для одного разработчика и AI-агентов. Planning files, task workspace, risk-based gates, обязательный verify перед closure. Это не «новый Scrum для одного человека», а набор safety rails: минимальные файлы и gate’ы, которые не дают агенту потерять scope, пропустить проверку или оставить follow-up только в чате.

Внутри: pipeline с risk-based выбором tier’а, мини-пример сквозной задачи, связка с Memory MCP, антипаттерны из реальных кейсов (включая reviewer-LLM, который approveнул нулевую реализацию). Метод вынесен в отдельный фреймворк: https://github.com/ipiton/solo-kanban-framework (MIT, v1.0.0).

Читать далее

Шифрование прикладных данных в .NET — от основ к key chain, ротации и компромиссам поиска

Mon, 05/18/2026 - 01:00

Если вы когда-нибудь выкатывали фичу, которая хранит персональные данные - почтовые адреса, заметки в свободной форме, API-токены, идентификационные номера - у вас наверняка возникала та же неприятная мысль: врядли стоит доверять базе данных. Бэкапы копируются на ноутбуки. Снапшоты оседают на файловых ресурсах. Галочка “encryption at rest” в облачной консоли защищает только от одного конкретного вида кражи - от того, что кто-то унесет диск.

Зашифровать данные до того, как они попадут в базу, на слайде звучит просто - AES, ключ, готово. В реальном коде простая версия ломается ровно в тот момент, когда вы пытаетесь ротировать ключ, найти запись по email, или объяснить ревьюверу, каким именно ключом зашифрована конкретная строка.

Читать далее

Тихий убийца Трансформеров: как Weight Decay уничтожает эмбеддинги и нормализацию

Sun, 05/17/2026 - 23:31

Разбираем фундаментальную ошибку в обучении трансформеров: почему стандартный параметр weight_decay в оптимизаторе AdamW буквально уничтожает геометрию эмбеддингов редких токенов и создаёт сопротивление в слоях нормализации.

Читать далее

Who's online

There are currently 0 users and 12 guests online.