Telegram Group & Telegram Channel
​​В результате почти полугодовой забастовки, WGA удалось добиться «выдающейся» сделки, обеспечив защиту своим авторам в той или иной степени по всем ключевым пунктам, в том числе в вопросе использования ИИ.

• Сценаристам гарантируется вознаграждение и компенсация за работу над сценариями, даже если при их создании использовался искусственный интеллект.

• Сгенерированные ИИ материалы не считаются «исходным материалом».

• Компания не может обязать сценариста использовать ИИ и должна информировать, если этот инструмент использовался.

Но есть в договоре одна интересная оговорка:

«Гильдия оставляет за собой право утверждать, что использование материалов писателей для обучения искусственного интеллекта запрещено минимальным базовым соглашением или другим законом».

«Оставляет за собой право»
. Не «использование материалов писателей для обучения ИИ запрещено», а «Гильдия оставляет за собой право утверждать, что это запрещено». Улавливаете разницу?

Гильдии может быть и хотелось бы запретить использование материалов писателей для обучения ИИ, но у нее нет для этого юридических инструментов — существующие правовые нормы не дают определенности в вопросе нарушения авторских прав искусственным интеллектом. А когда появятся новые — неизвестно.

Вероятно, множественные индивидуальные иски к большим компаниям от авторов, которых не устраивает использование их материалов для обучения ИИ, ускорят модернизацию законодательства, но важно понимать, что этот вопрос гораздо шире одной только юридической плоскости. Потому что проблема не в том, как именно компании используют материалы авторов для обучения нейросетей. А в том, что они делают это тайно.

Мы все уже давно уяснили, что ChatGPT, например, учится на условном множестве загруженных в нее текстов из Интернета. «Нейросеть не придумывает ничего нового, а обрабатывает уже имеющуюся информацию». Но какую именно? Какие именно тексты в нее были загружены? Ведь кажется довольно очевидным, что для обучения настолько продвинутых инструментов нужны не мои правки «Википедии», а более качественный материал.

И вот я наткнулся сегодня совершенно случайно на статью, которая и заставила меня написать этот пост: 183 000 спираченных книг (и еще 8 000, информация о которых отсутствует в книжной базе данных), которые были использованы для обучения GPT-J, EleutherAI, BloombergGPT, LLaMA и, вероятно, других генеративных ИИ-программ, внедренных в сайты по всему Интернету.

Точнее, это даже не одна статья, а серия материалов про Books3 — довольно известную, как выяснилось, в кругах разработчиков (Books1 была опубликована еще в 2020-м году), но скрытую от глаз обывателей базу данных из книг для обучения генеративных ИИ-программ. Нобелевские лауреаты, «Подземелья и драконы», христианская литература и эротика — все это служит точками отсчета для машины.

Вот здесь можно почитать про историю этой базы данных и тех, что были до нее, с комментариями от ее разработчика и компаний, которые ее использовали. Вот здесь — чуть подробней про ее содержание с конкретными цифрами (236 инструкций от Шекспира, не менее 175 из Библии и 46 книг Буковски).

А вот здесь самому проверить, нет ли вдруг в этой базе вашей книги (или просто поиграться и проверить любую другую).

#essay | #read



group-telegram.com/lookmomicanscript/780
Create:
Last Update:

​​В результате почти полугодовой забастовки, WGA удалось добиться «выдающейся» сделки, обеспечив защиту своим авторам в той или иной степени по всем ключевым пунктам, в том числе в вопросе использования ИИ.

• Сценаристам гарантируется вознаграждение и компенсация за работу над сценариями, даже если при их создании использовался искусственный интеллект.

• Сгенерированные ИИ материалы не считаются «исходным материалом».

• Компания не может обязать сценариста использовать ИИ и должна информировать, если этот инструмент использовался.

Но есть в договоре одна интересная оговорка:

«Гильдия оставляет за собой право утверждать, что использование материалов писателей для обучения искусственного интеллекта запрещено минимальным базовым соглашением или другим законом».

«Оставляет за собой право»
. Не «использование материалов писателей для обучения ИИ запрещено», а «Гильдия оставляет за собой право утверждать, что это запрещено». Улавливаете разницу?

Гильдии может быть и хотелось бы запретить использование материалов писателей для обучения ИИ, но у нее нет для этого юридических инструментов — существующие правовые нормы не дают определенности в вопросе нарушения авторских прав искусственным интеллектом. А когда появятся новые — неизвестно.

Вероятно, множественные индивидуальные иски к большим компаниям от авторов, которых не устраивает использование их материалов для обучения ИИ, ускорят модернизацию законодательства, но важно понимать, что этот вопрос гораздо шире одной только юридической плоскости. Потому что проблема не в том, как именно компании используют материалы авторов для обучения нейросетей. А в том, что они делают это тайно.

Мы все уже давно уяснили, что ChatGPT, например, учится на условном множестве загруженных в нее текстов из Интернета. «Нейросеть не придумывает ничего нового, а обрабатывает уже имеющуюся информацию». Но какую именно? Какие именно тексты в нее были загружены? Ведь кажется довольно очевидным, что для обучения настолько продвинутых инструментов нужны не мои правки «Википедии», а более качественный материал.

И вот я наткнулся сегодня совершенно случайно на статью, которая и заставила меня написать этот пост: 183 000 спираченных книг (и еще 8 000, информация о которых отсутствует в книжной базе данных), которые были использованы для обучения GPT-J, EleutherAI, BloombergGPT, LLaMA и, вероятно, других генеративных ИИ-программ, внедренных в сайты по всему Интернету.

Точнее, это даже не одна статья, а серия материалов про Books3 — довольно известную, как выяснилось, в кругах разработчиков (Books1 была опубликована еще в 2020-м году), но скрытую от глаз обывателей базу данных из книг для обучения генеративных ИИ-программ. Нобелевские лауреаты, «Подземелья и драконы», христианская литература и эротика — все это служит точками отсчета для машины.

Вот здесь можно почитать про историю этой базы данных и тех, что были до нее, с комментариями от ее разработчика и компаний, которые ее использовали. Вот здесь — чуть подробней про ее содержание с конкретными цифрами (236 инструкций от Шекспира, не менее 175 из Библии и 46 книг Буковски).

А вот здесь самому проверить, нет ли вдруг в этой базе вашей книги (или просто поиграться и проверить любую другую).

#essay | #read

BY look mom i can script




Share with your friend now:
group-telegram.com/lookmomicanscript/780

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Update March 8, 2022: EFF has clarified that Channels and Groups are not fully encrypted, end-to-end, updated our post to link to Telegram’s FAQ for Cloud and Secret chats, updated to clarify that auto-delete is available for group and channel admins, and added some additional links. In the past, it was noticed that through bulk SMSes, investors were induced to invest in or purchase the stocks of certain listed companies. The account, "War on Fakes," was created on February 24, the same day Russian President Vladimir Putin announced a "special military operation" and troops began invading Ukraine. The page is rife with disinformation, according to The Atlantic Council's Digital Forensic Research Lab, which studies digital extremism and published a report examining the channel. The fake Zelenskiy account reached 20,000 followers on Telegram before it was shut down, a remedial action that experts say is all too rare. The message was not authentic, with the real Zelenskiy soon denying the claim on his official Telegram channel, but the incident highlighted a major problem: disinformation quickly spreads unchecked on the encrypted app.
from jp


Telegram look mom i can script
FROM American