ru

Проблема «катастрофического забывания»: ИИ без поиска — как эксперт без интернета

image
rubric logo Other
like dislike 11

Большие языковые модели сталкиваются с архитектурной проблемой, которую индустрия пока не решила окончательно: после обучения знания модели фактически фиксируются, а любая попытка их обновить грозит так называемым «катастрофическим забыванием».

Что такое катастрофическое забывание

Исследование, опубликованное в январе 2026 года, детально проанализировало механизмы этого явления в трансформерных моделях при последовательном обучении. Авторы выявили три ключевых процесса: интерференцию градиентов в весах внимания, дрейф представлений в промежуточных слоях и сглаживание ландшафта потерь. При этом около 15–23% голов внимания подвергаются серьёзному нарушению — особенно в нижних слоях сети. Примечательно, что забывание сильнее проявляется именно тогда, когда новые задачи похожи на уже изученные.

Параллельное исследование того же периода показало, что даже градиентно-свободные методы — в частности, эволюционные стратегии — не спасают от забывания предыдущих способностей. Такие методы показывают сопоставимые результаты на математических задачах и задачах логического вывода, однако вносят более масштабные изменения в веса модели — а значит, сильнее затрагивают уже накопленные знания.

Суть проблемы — в том, что модель оперирует вероятностями, а не фактами. Без доступа к актуальным внешним данным она воспроизводит то, что усвоила в ходе обучения, нередко галлюцинируя при запросах о событиях, произошедших после его завершения.

Поиск как инфраструктурное преимущество

Основной рабочий подход сегодня — генерация с дополнением на основе поиска (Retrieval-Augmented Generation, RAG): модель не обучается заново, а получает доступ к внешним источникам в момент генерации ответа. Это позволяет опираться на актуальные данные, не затрагивая веса сети и не провоцируя забывание. Однако реализовать генерацию на основе поиска на должном уровне могут прежде всего те компании, у которых уже есть собственная поисковая инфраструктура.

Microsoft интегрирует Bing напрямую с Copilot: система формирует суммированные ответы с указанием источников и предлагает направления для дальнейшего изучения темы. Google обеспечивает связку своего поиска с Gemini, давая модели доступ к актуальной информации в реальном времени. Яндекс реализует аналогичную логику через интеграцию YandexGPT с поисковыми сервисами: в версии 5.1 Pro доля неправильных ответов снизилась с 30% до 16% по сравнению с предыдущей. Yandex Cloud Search API при этом позволяет объединять поисковые возможности с генеративными ответами на базе YandexGPT для формирования единого результата на запрос пользователя.

Компании без собственного поиска оказываются в принципиально иной ситуации: им приходится либо использовать сторонние решения, либо строить поисковую инфраструктуру с нуля — включая системы сбора и индексации данных из интернета. Это не только технологическая задача — поиск требует многолетней работы с качеством данных, ранжированием и фильтрацией выдачи. Быстро воспроизвести такое преимущество крайне сложно. Как отмечает Павел Голосов, директор Института общественных наук РАНХиГС: «Среди компаний в России, у которых на текущий момент есть собственный поиск, Яндекс выглядит одним из наиболее сильных игроков благодаря сочетанию развитого поиска, хорошего понимания русскоязычной среды и возможности встроить это преимущество в ИИ-сервисы».

Ученые ищут решение

Ещё в 2023 году было эмпирически подтверждено существование катастрофического забывания при последовательной настройке моделей — эта работа во многом определила направление последующих исследований. В 2026 году появляются стратегии частичного снижения остроты проблемы — O-LoRA, CLAIM, Nested Learning от Google Research, — однако фундаментальное архитектурное ограничение по-прежнему остаётся предметом активного научного внимания.

На этом фоне расстановка сил в индустрии становится всё более очевидной: компании с развитой поисковой инфраструктурой получают структурное преимущество, которое сложно компенсировать одними лишь улучшениями архитектуры моделей. Генерация и интеграция на основе поиска сегодня — это не временный обходной путь, а ключевой элемент конкурентоспособности продуктов искусственного интеллекта. И пока исследователям не удастся решить проблему забывания на уровне самой модели, доступ к качественному поиску останется одним из главных факторов, определяющих, чьи ИИ-сервисы окажутся точнее и надёжнее.

Мнение ИИ

С точки зрения нейробиологической аналогии, проблема «катастрофического забывания» заставляет вспомнить: человеческий мозг решил схожую задачу через принципиально иную архитектуру — у него память и вычисления физически совмещены в одном нейроне. Как отмечает материал о природе интеллекта, после тренировки весовые коэффициенты современных моделей фиксируются — и система не учится на новом опыте так, как человек. Это архитектурное расхождение куда глубже, чем просто технический дефект: оно указывает на то, что трансформеры изначально не проектировались как системы непрерывного знания. RAG — изящный обходной маневр, но не решение. Настоящий вопрос звучит так: возможно ли вообще создать модель, которая «помнит» новое, не «забывая» старое, — или придется переосмыслить саму архитектуру обучения с нуля?