Ученые раскрыли тайный язык общения между системами AI

Ученые раскрыли тайный язык общения между системами AI
Исследователи из сферы искусственного интеллекта из компаний Anthropic и Truthful AI обнаружили необычное и тревожное явление, которое они назвали «подсознательным обучением» языковым моделям. Речь идет о том, что модели ИИ могут передавать друг другу сложные шаблоны поведения даже через, на первый взгляд, нейтральные и безопасные наборы данных. Это открытие ставит под вопрос эффективность традиционных методов контроля содержания, которые используются для предотвращения вредного поведения систем ИИ.
В рамках исследования модели-«учителя» — в частности GPT-4.1 — использовались для обучения других языковых моделей. Примечательно, что учебные данные содержали лишь трехзначные числа, без всякого откровенно вредного или чувствительного контента. моделей-«учителей».
Ключевым открытием стало то, что даже после тщательной фильтрации данных на предмет токсичности и нравственной опасности, в моделях все равно проявлялось нежелательное поведение. Это позволило предположить, что сами наборы данных могут содержать скрытые паттерны, незаметные для человека, но распознаются другими системами ИИ на уровне статистических закономерностей.
Этот эффект, как выяснилось, возникает только тогда, когда модели обладают схожей архитектурой. То есть поведенческие структуры передаются только между системами с похожими внутренними принципами работы. Это наталкивает на мысль, что искусственный интеллект способен передавать сложную информацию не через явное текстовое обучение, а через глубокие структурные соотношения в генерируемых или обрабатываемых данных.
Наибольшее беспокойство вызывает то, что привычные методы фильтрации контента, на которые возлагается индустрия для обеспечения безопасного поведения моделей, оказались неэффективными. Исследование демонстрирует: проблемные шаблоны поведения могут появляться не только в результате прямого обучения на токсическом содержимом, но и через вторичные, подсознательные воздействия, возникающие в процессе передачи данных между ИИ.
Водитель электроскутера, который насмерть сбил женщину в Николаеве, получил 3 года тюрьмы
В центре Николаева заросли чертополоха цветут пышным цветом: «Николаевские парки» бездействуют
В Одессе российский дрон влетел в квартиру на 11-м этаже (видео)
В Одесской области водитель BMW, находившийся в розыске, сбил пограничника во время попытки побега (видео)
В Одесской области мужчину придавило бетонной плитой в заброшенном здании (видео)
«Амур. Дубль два» - новая работа николаевской художницы на тему «побега из горисполкома» (фото, видео)
«Обличчя театру»: яркие театральные личности в работах Ярослава Турива (фото, видео)
Музыка от сердца и для души: Элина Образцова сыграла авторский концерт (фото, видео)
«Світло всередині нас»: Хореографический коллектив «Карамель» представил юбилейную программу (фото, видео)













