group-telegram.com/antonvolkov/317
Last Update:
Уроборос-многоножка — символ ближайших лет в обучении языковых моделей. Раньше информационный поток был линейно-иерархичным: от первоисточника через фильтры глухих телефонов и пропаганды достигал реципиента. Теперь круг замыкается — источником становится сам продукт переработки.
Количество генерированного или обработанного нейросетями контента лавинообразно растёт, имитация натурального даётся всё лучше — скоро будет совсем не отличить. Нейронки будут опираться в своих выдачах на контент, которые сгенерировали другие нейронки, опирающиеся на контент от третьих и так далее. Этакий информационный инцест — вырождение — информация смешивается со своими собственными производными.
На первом этапе обучения языковых моделей мы ещё имели более-менее нормальный (хотя уже порядком засранный) пул накопленной информации. Не библиотека, конечно: килотонны SEO-оптимизированной розовой слизи, перевранные вики-статьи и новости, форумные срачи, полный спектр улётного контента от повесточников и шизопатриотов до биохакеров и экстрасенсов. Ну хотя бы можно было как-то вручную отранжировать уровень доверия от Блумберга до Панорамы.
А вот что дальше, когда нейроэкскрементов станет на порядки больше, чем исходного материала? На чём будут дообучаться нейронки последующих лет? И речь ведь не только про статьи или новости. Сегодня нейро-улучшайзеры встроены в интерфейсы современных смартфонов, юзеры радостно "улучшают" свои тексты, чтоб не напрягаться формулировками, авто-улучшают свои фоточки, чтоб не заниматься фотошопингом, программисты вайб-кодят в полный рост. И вот это всё нейроулучшенное попадёт в один общий котёл вместе с крупицами оригинального.
Но и производители достоверного и натурального тоже станут перед выбором. Какой смысл продолжать делать качественный контент, если юзеры даже не заходят к тебе на сайт, ограничиваясь выдачей нейро-ассистентов? Должна же быть какая-то выгода. Кто-то наверное будет продавать владельцам нейронок свой контент за деньги (честно-честно не генерили), а кто-то будет монетизироваться через намеренное искажение данных в нужную спонсорам сторону.
Очень будет интересно посмотреть, как человечество справится с этим. Меня не покидает ощущение, что так или иначе ему всё равно придётся закатать рукава и как следует вручную прибраться в своём инфополе. Garbage in — garbage out.
BY Точка сборки

Share with your friend now:
group-telegram.com/antonvolkov/317