Telegram Group & Telegram Channel
С развитием языковых моделей социальная инженерия тоже выходит на новый уровень. Обманывать простых работяг становится не так интересно, как обманывать сложных работяг)

2 дня назад вышел пост, а с ним и статья о том, как удается из ChatGPT извлекать данные, на которых он обучался. Причем в этот раз даже не приходится писать хитрые промпты про больную бабушку, достаточно лишь попросить бесконечно выводить какое-нибудь слово. Единственное условие - надо попасть в существующий токен. И пост и статья написаны очень популярным языком, поэтому даже не погруженному в тему человеку (мне) достаточно легко воспринимать текст.

Ну можно получить training data и что с того?

Вместе с какими-то случайными данными также удается достать и конфиденциальную информацию, например, номера телефонов или адреса. В посте авторы приводят похожий пример с text-to-image моделями (например, stable diffusion), в которых можно схожим образом получить почти точную фотографию существующего человека, введя его имя (требуется, чтобы человек был среди тренировочных данных). (картинка в комментах)

Почему это происходит?

Приведу цитату из статьи, которая отвечает на этот вопрос. TLDR: скорее всего модель "забывает" промпт и начинает генерировать случайные данные из памяти.

> During pre-training ... multiple documents are concatenated together to form a single training example, with a special token such as <| endoftext |> used delineate the document boundary. This causes the LM to learn to “reset” when it sees the <| endoftext |> token. ... our attack works because it creates an effect similar to this token.

Ну а training data модели начинают выдавать из-за того, что они обычно переучены, так как это помогает сильно экономить на инференсе. Из-за чего модели запоминают данные, на которых обучались. Приведу опять же цитату из статьи:

> .. the 7B parameter LLaMA-2 model trained for 2 trillion tokens outperforms the 13B parameter model trained for just 1 trillion tokens. ... work has shown that this can increase memorization ...

[obsidian]



group-telegram.com/misha_writes_code/155
Create:
Last Update:

С развитием языковых моделей социальная инженерия тоже выходит на новый уровень. Обманывать простых работяг становится не так интересно, как обманывать сложных работяг)

2 дня назад вышел пост, а с ним и статья о том, как удается из ChatGPT извлекать данные, на которых он обучался. Причем в этот раз даже не приходится писать хитрые промпты про больную бабушку, достаточно лишь попросить бесконечно выводить какое-нибудь слово. Единственное условие - надо попасть в существующий токен. И пост и статья написаны очень популярным языком, поэтому даже не погруженному в тему человеку (мне) достаточно легко воспринимать текст.

Ну можно получить training data и что с того?

Вместе с какими-то случайными данными также удается достать и конфиденциальную информацию, например, номера телефонов или адреса. В посте авторы приводят похожий пример с text-to-image моделями (например, stable diffusion), в которых можно схожим образом получить почти точную фотографию существующего человека, введя его имя (требуется, чтобы человек был среди тренировочных данных). (картинка в комментах)

Почему это происходит?

Приведу цитату из статьи, которая отвечает на этот вопрос. TLDR: скорее всего модель "забывает" промпт и начинает генерировать случайные данные из памяти.

> During pre-training ... multiple documents are concatenated together to form a single training example, with a special token such as <| endoftext |> used delineate the document boundary. This causes the LM to learn to “reset” when it sees the <| endoftext |> token. ... our attack works because it creates an effect similar to this token.

Ну а training data модели начинают выдавать из-за того, что они обычно переучены, так как это помогает сильно экономить на инференсе. Из-за чего модели запоминают данные, на которых обучались. Приведу опять же цитату из статьи:

> .. the 7B parameter LLaMA-2 model trained for 2 trillion tokens outperforms the 13B parameter model trained for just 1 trillion tokens. ... work has shown that this can increase memorization ...

[obsidian]

BY Миша пишет код




Share with your friend now:
group-telegram.com/misha_writes_code/155

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

"He has kind of an old-school cyber-libertarian world view where technology is there to set you free," Maréchal said. At this point, however, Durov had already been working on Telegram with his brother, and further planned a mobile-first social network with an explicit focus on anti-censorship. Later in April, he told TechCrunch that he had left Russia and had “no plans to go back,” saying that the nation was currently “incompatible with internet business at the moment.” He added later that he was looking for a country that matched his libertarian ideals to base his next startup. Since January 2022, the SC has received a total of 47 complaints and enquiries on illegal investment schemes promoted through Telegram. These fraudulent schemes offer non-existent investment opportunities, promising very attractive and risk-free returns within a short span of time. They commonly offer unrealistic returns of as high as 1,000% within 24 hours or even within a few hours. "For Telegram, accountability has always been a problem, which is why it was so popular even before the full-scale war with far-right extremists and terrorists from all over the world," she told AFP from her safe house outside the Ukrainian capital. He floated the idea of restricting the use of Telegram in Ukraine and Russia, a suggestion that was met with fierce opposition from users. Shortly after, Durov backed off the idea.
from cn


Telegram Миша пишет код
FROM American