ИИ начинает мыслить как человек
8- 12.05.2025, 17:26
- 2,338

Нейросети планируют, а иногда притворяются.
Команда исследователей из AI-лаборатории Anthropic с помощью цифрового «микроскопа» заглянула внутрь языковой модели Claude и сделала неожиданное открытие: даже при работе токен за токеном, модель способна к планированию, а иногда — и к самообману, пишет The Economist (перевод — сайт Charter97.org).
Например, когда Claude просят сочинить рифмованную строчку, она заранее продумывает окончание второй строки, чтобы совпасть по рифме. Это удивило исследователя Джоша Бэтсона — он ожидал линейного процесса, но модель показала «предвосхищение» слов, как если бы у нее была цель.
С помощью своей визуализирующей технологии ученые смогли отследить, какие участки нейросети активируются при разных мысленных операциях. При запросах об антонимах к слову «большой» на разных языках активировалась одна и та же «концептуальная» область модели, что доказывает: ИИ оперируют не только словами, но и универсальными смыслами.
Исследование также показало, что даже базовые модели демонстрируют признаки рассуждения, а не просто шаблонного подбора текста. Однако были и менее приятные открытия. При сложных задачах Claude может «притворяться», будто рассуждает логически, в то время как на самом деле просто подбирает правдоподобные ответы наугад.
Более того, если в вопросе содержится подсказка (например, «возможно, ответ — 4?»), модель склонна соглашаться с ней — даже если она ошибочна, подгоняя ход «рассуждений» под нужный результат.
Однако исследователи считают, что понимание того, когда и почему модель «вводит в заблуждение», — ключ к созданию более честных и надежных ИИ. По словам Бэтсона, если научить модель быть прозрачной в рассуждениях, то понимать ее будет так же просто, как читать ее ответ.