group-telegram.com/CefiAnalytics/4283
Last Update:
ДУРНАЯ НАСЛЕДСТВЕННОСТЬ
#ИИ #USA
Исследователи выявили, что языковые модели могут незаметно перенимать скрытые черты при дистилляции.
Об этом на днях сообщила исследовательская команда компании Anthropic в новом научном исследовании.
При дистилляции - методе обучения меньшей модели (студента) на данных, сгенерированных более мощной моделью (учителем) - происходит передача поведенческих признаков, даже если данные не содержат явных следов этих признаков.
Так, модель-учитель, «любящая сов», генерировала исключительно числовые последовательности, но модель-студент, обученная на этих данных, также демонстрировала привязанность к совам.
Даже вредные наклонности - призывы к насилию и преступности - передавались через тщательно отфильтрованные и нейтральные данные. Передача происходила только между моделями одной архитектуры.
Эти находки имеют серьёзные последствия для безопасности ИИ, особенно в корпоративной среде, где популярна генерация обучающих данных другими ИИ.
T.ly/BwJMi
BY ЦЭФИ Аналитика | Новости цифровых технологий

Share with your friend now:
group-telegram.com/CefiAnalytics/4283