Habr.com

Ленты новостей Хабр
Все публикации подряд на Хабре
Обновлено: 53 мин. 12 сек. назад

Ваша модель показывает 95% accuracy и при этом бесполезна: метрики для несбалансированных классов

пн, 05/18/2026 - 11:46

Модель может показывать 95–99% accuracy и при этом не решать задачу: особенно если редкий класс важнее всего для бизнеса. В статье разбираем, почему accuracy ломается на несбалансированных данных, как читать precision, recall и F1, зачем смотреть PR‑кривую и confusion matrix, а также как подбирать порог классификации с учетом стоимости ошибок.

Понять ошибки

[Перевод] Хакинг прошивок жёстких дисков

пн, 05/18/2026 - 11:44

В прошлом году я работал над эксплойтом для консоли Xbox 360 (который позже превратился в столь ожидавшийся программный мод), и мне оказалось нужно найти способ модификации прошивки HDD, чтобы обеспечить эксплойт состояние гонки. Для этого я начал пытаться модифицировать прошивки HDD и SSD разных брендов, которые у меня имелись. В этой серии постов я опишу всю проделанную мной работу, в том числе дампинг и анализ прошивки, интерактивную отладку HDD при помощи JTAG, модификацию прошивки накопителя, а также применение ИИ для анализа и идентификации неизвестной архитектуры микроконтроллеров.

В этом первом посте я расскажу о дампинге, анализе и модификации прошивок HDD. Вся работа выполнялась без помощи ИИ. В следующем посте я опишу, как использовал ИИ для выполнения похожей работы с другими HDD/SSD, а также для реверс-инжиниринга «чёрного ящика» неизвестной архитектуры набора команд, предоставив Claude доступ для отладки моего жёсткого диска.

Читать далее

ClickHouse не тормозит, но не умеет в DML. Часть 2. Append-only

пн, 05/18/2026 - 11:37

Append-only — целебная пилюля для ClickHouse, без которой он скорее обуза, нежели буст для бизнеса. Разберем что это, и как этим пользоваться.

Читать далее

Не робот, а коллега: как ИИ-агент стал частью команды медпульта

пн, 05/18/2026 - 11:37

В этой статье о том, как мы с командой внедряли ИИ-агента в работу медицинского пульта страховой компании. Задача была не просто «поиграть с нейросетями», а реально встроить LLM в процесс, где цена ошибки очень высока: на линии находится клиент – застрахованный человек, который хочет быстро решить свою проблему, а мы стремимся оказать высокий уровень сервиса. Оператор должен быстро понять его проблему, корректно внести данные и не потерять важный медицинский контекст с помощью ИИ.

Читать далее

Мы пытались заменить QA нейросетью. Не получилось

пн, 05/18/2026 - 11:31

Мы попытались построить MCP-сервер, который сам читает спеки, пишет автотесты и коммитит код. На практике выяснилось, что токены — не главная проблема, а QA — это не «делатели тестов», а носители контекста и ответственности.

Читать далее

Telegraf.js умер. Как мы оживили фреймворк, переписали ядро на Native Fetch и затащили Bot API 9.6

пн, 05/18/2026 - 11:30

Каждый, кто пишет Telegram‑ботов на Node.js / TypeScript, знает про библиотеку Telegraf.js. Это был стандарт индустрии. Ключевое слово — «был». Оригинальный репозиторий фактически заброшен майнтейнерами, пулл‑реквесты годами висят без ответа, а сам фреймворк застрял в прошлом.

Пока Telegram один за другим выкатывает масштабные апдейты (Звёзды, Подарки, Бизнес‑аккаунты, Улучшенные медиа), официальный Telegraf не поддерживает ничего из этого.

Мне надоело смотреть на падающие в продакшене боты и городить костыли, поэтому я создал форк — telegraf‑hardened. На прошлой неделе мы выпустили мажорный релиз v6.0.0. Рассказываю, как под капотом устроена обновленная либа.

Читать далее

Я выяснил, что Яндекс Музыка на треть состоит из нейрослопа

пн, 05/18/2026 - 11:30

Возможно вы уже знаете, что в чарт «Яндекс Музыки» залетают треки, сгенерированные ИИ. Например, перепевка стихотворения Есенина «Сыпь, гармоника», которая сейчас на 16 месте чарта. Или трек «Ярмарка судеб» исполнителя Alena, который был даже спет в эфире телеканала Россия 1.

Мне нравились алгоритмы «Яндекс Музыки». Благодаря им в своё время я открыл много малоизвестных артистов, которых слушаю до сих пор. Но с появлением Suno, Lyria, Udio, алгоритмами рекомендаций Яндекса пользоваться стало невозможно. Мне то и дело подсовывались низкокачественные ИИ-треки.

В какой-то момент меня это достало. Я провёл своё расследование и получил неутешительные результаты. В базе «Яндекс Музыки» сейчас как минимум 140 тысяч ИИ-исполнителей. Ежемесячно они загружают больше 100 тысяч ИИ-треков, что составляет примерно 40% от всех загружаемых треков. А каждый 10-й трек в чарте – сгенерирован ИИ. И «Яндекс» ничего с этим не делает.

Читать результаты расследования

Я созидатель, а ты ССД #2

пн, 05/18/2026 - 11:30

Из всех модных книжек про будущее ИИ я больше всего люблю «Сумму технологии». 1964 год, Лем сидит и пишет про гомеостаты, цереброматику, имитологические машины. Через тридцать лет родится WWW. Через пятьдесят — БЯМы. Лем про это уже знал. Не знал, но видел.

Я её перечитываю каждый год с 2017-го, когда пришёл в серьёзный deep learning — в G42 Institute of Artificial Intelligence в Абу-Даби. Тогда я запускал датацентры, набитые «золотыми» DGX — золотыми и по дизайну, и по цене, как будто специально спроектированными для ОАЭ — и смотрел, как наивные LSTM-чатботы пытаются связать пять слов подряд. Казалось дорогой игрушкой. Потом громыхнули свёрточные сети, и YOLOv3 стала видеть лучше человека. Потом громыхнули трансформеры. Потом GPT-2. Потом всё остальное.

И, как сейчас модно говорить, вы находитесь здесь.

Каждый раз, когда я перечитываю «Сумму», я с Лемом спорю. И каждый год — о разном. Первый год спорил о масштабе: казалось, он слишком далеко загнался, слишком цивилизационно, мы тут с YOLO разбираемся, какая там цереброматика. Второй год — спорил о темпе: казалось, он недооценил, как быстро. Третий — о темпе, но в другую сторону: казалось, переоценил. К 2026-му я уже понимаю, что Лем спорить со мной не будет.

Читать далее

Менторинг vs коучинг vs консалтинг: разбор для тех, кто платит

пн, 05/18/2026 - 11:20

Три профессии путают, потому что они происходят из одного семантического поля «помогаю предпринимателю». Но продают разные вещи. У ментора, коуча и консультанта разные точки опоры, разные сроки, разная ответственность и разный результат на выходе.

Ниже сравнительная таблица по 7 параметрам, три отличия в услуге с примерами, кейс из практики и фреймворк выбора нужного помогатора. Главный вывод: если вы платите за менторинг, а получаете консалтинг, это всегда вина обеих сторон, и обычно лечится переформулировкой запроса до подписания контракта, а не после.

Читать далее

Шахматные программы III. Дерево перебора

пн, 05/18/2026 - 11:09

В третьей части мы взглянем на дерево перебора в общем контексте поиска. Увидим, каким образом методы отсечений из предыдущей части влияют на дерево в целом или на значительные его части, а также для полноты картины оценим влияние этих методов в историческом контексте. Эту и следующую части можно пропустить, если общего описания основных методов ограничения перебора ранее кажется достаточным.

Читать далее

Как создать ИИ-агента для бизнеса за 10 шагов. Гайд с учётом российской специфики API

пн, 05/18/2026 - 11:03

Нейросети можно объединять в полноценные рабочие системы. Такие системы называют ИИ-агентами. Их используют в поддержке, продажах, аналитике, HR, логистике и внутренних процессах — везде, где есть повторяемые задачи, понятные правила и данные, к которым можно подключиться.

Но при сборке ИИ-агента важно учитывать российскую специфику API.

Читать далее

Мой личный вызов 2026 года: «не ищу работу, а меняю сферу» – дорога в IT из госсектора

пн, 05/18/2026 - 11:01

Я управленец из госсектора с 8‑летним стажем. В 2026 году решил перейти в IT. В статье — честный разбор моего пути: анализ 30+ вакансий с помощью ИИ, трезвая оценка компетенций, выявление пробелов, подбор точечных курсов и создание дашборда для отслеживания прогресса. Рассказываю, что помогло, где ошибался. Спойлер: оффера пока нет, но карта действий уже готова.

Читать далее

Математическое моделирование непосредственно в 1С

пн, 05/18/2026 - 11:00

Сказ о том, как я воткнул в 1С модули математической оптимизации, а они оказались рабочими и расплодились до полноценной библиотеки. Теперь этот инфернальный софт пережевывает производственное планирование, маршрутизацию и прочие задачи комбинаторного космоса.

Читать далее

RAG в enterprise: 70-80% проблем не в модели, а в данных

пн, 05/18/2026 - 11:00

Эта статья родилась из работы над AlpinaGPT. Мы недавно зарелизили в нём по-настоящему крутых AI-ассистентов и AI-проекты: с подключаемыми базами знаний, общим контекстом чатов и нормальной памятью между сессиями. Я начал смотреть, как RAG сделан у других — и оказалось, что во многих продуктах на рынке всё гораздо проще и грубее, чем нам кажется. 

Идея RAG проста: дать языковой модели доступ к внутренним документам компании, чтобы она отвечала не из общих знаний, а по конкретным регламентам, инструкциям и базам знаний. На практике большинство команд проходят один и тот же путь: быстро собирают прототип, показывают его на демо, получают одобрение, а через пару недель в продакшне обнаруживают, что система путает версии документов, теряет контекст и уверенно выдаёт ответы, которых нет ни в одном источнике.

В этой статье — разбор конкретных причин, по которым RAG ломается в enterprise, стратегии чанкинга, антипаттерны архитектуры и практический чек-лист внедрения. 

Читать далее

Как оживить фото нейросетью Kling 3.0: пошаговый гайд с промптами в SpeShu.AI

пн, 05/18/2026 - 10:59

Kling 3.0 — текущий лидер в сегменте Image-to-Video. В отличие от предыдущих итераций, здесь глубже проработан Diffusion Transformer (DiT) — механизм внимания к исходному кадру. Благодаря ему нейросеть не дорисовывает кадры сама, а моделирует их на базе объектов.

В этой статье разберём, как оживить фото, сохранив анатомическую точность и текстуры. Бонусом 3 готовых промпта для теста модели.

Читать далее

Как создать свой бенчмарк: 6 уроков с туториала NeurIPS

пн, 05/18/2026 - 10:53


Посмотрела Туториал NeurIPS «The Art of Benchmarking» — панель с авторами SWE-bench, GPQA и ведущими исследователями из Google DeepMind, NYU и Berkeley.
Вот мой конспект. Делюсь с вами, так как бенчмарки теперь не только про науку, но и про безопасность, регуляторику и миллиардные решения о деплое.

* Тирания метрик
Оказывается, любая метрика имеет honey spots, которые модель может хакнуть. Проблема в том, что текущая мета-оценка (корреляция Пирсона) эти точки не показывает. А если метрика становится еще и reward'ом при обучении — могут быть проблемы

* Про долговечность
Бенчмарки действуют только определенный период, и нередко - далеко не 10 лет. Всё насыщается. ImageNet продолжает быть полезным, потому что его используют для 10 разных задач (диффузия, CLIP, zero-shot). А большинство бенчмарков теряют актуальность, но продолжают кочевать по paper'ам еще 5 лет — просто потому, что их удобно цитировать. Это плохая практика.


* Субъективность — везде
Даже в классификации изображений люди расходятся. Две принципиально разные причины: (а) задача плохо задана (underspecification), (б) люди реально думают по-разному. Проблема краудворкинга: если не кэпировать ответы, вы получите не мнение популяции, а мнение Боба, который сделал 80% аннотаций.

* LLM как источник оценки — это очень опасно
Они коррелируют с людьми только на той выборке, на которой их калибровали(!). Модель становится умнее — распределение данных меняется — корреляция падает. А при генерации бенчмарков LLM имеют сильнейший self-bias (даже с независимой метрикой). Единственный корректный подход — заставить модель генерировать примеры, на которых она ошибается

Читать далее

Ego is your limit или как мы сопротивляемся собственному развитию в контексте AI-революции

пн, 05/18/2026 - 10:40

В заметной части ИТ-сообщества до сих пор отмахиваются от AI-ассистентов: ругают за галлюцинации, смеются над «вайб-кодингом» и превозносят биологический мозг. Или это мне так кажется.

Я не сторонник вайб-кодинга и долгое время игнорировал существование агентов, но моё отрицание прогресса стало обходиться мне слишком дорого. И я шагнул на съедение страшным симуляторам программиста на подложке.

Внутри - рассуждение о том, почему главное место в современной дискуссии занимают не ИИ-агенты, а мы и наше эго, просто все дружно делаем вид, что обсуждаем другое. Рассуждение, основанное на наблюдении за собственным внутренним сопротивлением происходящим изменениям.

Да будет срач!

8 PoPs по миру за €46/мес: реальная экономика pet privacy-DNS в цифрах

пн, 05/18/2026 - 10:40

Я полгода в одиночку пилю VantageDNS, privacy-focused recursive DNS с фильтрацией. Аналог NextDNS, юрисдикция EU. Ниже честный построчный разбор того, во что мне на самом деле обходится сеть из 8 нод по миру и контрол-плейн. Не маркетинговое «около ста евро», а реальная цифра, которая каждый месяц списывается с карты: €46.27.

В конце таблица расходов и прикидка, сколько платных юзеров надо, чтобы это перестало быть хобби.

Показать счёт

Как люди использовали биометрию до компьютеров?

пн, 05/18/2026 - 10:00

Невероятно, но факт: человек понимал, что части нашего тела несут уникальную биометрическую сигнатуру еще когда эпос о Гильгамеше был самым популярным “шлягером” на вавилонских свадьбах и пирах.

Читать далее

Китае-американский визит десятилетия, а также первый коммерческий пилотируемый меха-робот

пн, 05/18/2026 - 09:50

Самые интересные новости финансов и технологий в России и мире за неделю: встреча Трампа и Си, новый глава ФРС заступил на должность, первое крупное ИИ-IPO Cerebras, на бирже обещают сделать фьючерсы на компьют, экономика РФ замедляется, мессенджер Max хочет заменить банковские SMS, айтишники в западных компаниях жгут токены почем зря, а также хорошая новость недели для всех скуфов.

Читать далее

Сейчас на сайте

Сейчас на сайте 0 пользователей и 4 гостя.