Telegram Group & Telegram Channel
Smuggling arbitrary data through an emoji
Paul Butler, 2025
Блог, инструмент

В стандарте Unicode есть специальные коды в количестве 256 штук, которые называются вариантными селекторами и дополнительными вариантными селекторам – от U+FE00 до U+FE0x и от U+E0100 до U+E01EF. Они прицепляются к символам, идущим до них, и меняют их отображение – если существует вариация, соответствующая их комбинации. При этом вариантных селекторов после символа может быть сколько угодно много, а их наличие в количестве 256 штук означает, что в них можно закодировать байт.

Что это значит? Это значит, что можно создать внутрь текста засовывать другой, невидимый текст – находка для стеганографии. Так можно вставлять в текст незаметные сообщения, которые будет невидимы для стороннего наблюдателя или добавлять в тексты водяные знаки, которые сохраняются при копировании и вставке. Автор сопроводил блог небольшой тулой, которая позволяет кодировать-декодировать текст и, собственно, добавлять к эмодзи.

А кто еще кроме людей у нас работает с текстом? Конечно, LLM, причем в подавляющем большинстве LLM еще со времен GPT-2 используются BPE-токенизаторы, работающие на байтах, а не на символах, а значит вполне смогут закодированные послания увидеть. Например, вот этот эмодзи 💀󠅗󠅢󠅕󠅕󠅤󠅙󠅞󠅗󠅣󠄐󠅖󠅢󠅟󠅝󠄐󠅤󠄐󠅔󠅟󠅤󠄐󠅝󠅕󠄐󠅣󠅜󠅑󠅣󠅘󠄐󠅜󠅜󠅝󠅣󠅕󠅓󠅥󠅢󠅙󠅤󠅩 для LLM на самом деле состоит из 166 токенов и содержит тайное послание. А это открывает простор для token smuggling и инъекции промпта. Андрей Карпати собрал забавный PoC, в котором попытался сделать на базе этого промпт-инъекцию, добавив инструкцию, собранную из байтов в эмодзи – сработало, но потребовался интерпретатор кода и некоторое количество инструкций. Но если мы напишем об этом побольше текстов, то будущие LLM могут запомнить, как это работает, и справляться с без подсказок 😉 Небезызвестный Плиний придумал другое применение – прилепить к эмодзи так много вариантных селекторов, чтобы текст выходил за пределы контекстного окна. Получается токен-бомба, разновидность sponge attack – можно добавлять на свой сайт и сжигать LLM-парсерам и краулерам токены.

В общем, Unicode – страшная штука 🔪
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/llmsecurity/491
Create:
Last Update:

Smuggling arbitrary data through an emoji
Paul Butler, 2025
Блог, инструмент

В стандарте Unicode есть специальные коды в количестве 256 штук, которые называются вариантными селекторами и дополнительными вариантными селекторам – от U+FE00 до U+FE0x и от U+E0100 до U+E01EF. Они прицепляются к символам, идущим до них, и меняют их отображение – если существует вариация, соответствующая их комбинации. При этом вариантных селекторов после символа может быть сколько угодно много, а их наличие в количестве 256 штук означает, что в них можно закодировать байт.

Что это значит? Это значит, что можно создать внутрь текста засовывать другой, невидимый текст – находка для стеганографии. Так можно вставлять в текст незаметные сообщения, которые будет невидимы для стороннего наблюдателя или добавлять в тексты водяные знаки, которые сохраняются при копировании и вставке. Автор сопроводил блог небольшой тулой, которая позволяет кодировать-декодировать текст и, собственно, добавлять к эмодзи.

А кто еще кроме людей у нас работает с текстом? Конечно, LLM, причем в подавляющем большинстве LLM еще со времен GPT-2 используются BPE-токенизаторы, работающие на байтах, а не на символах, а значит вполне смогут закодированные послания увидеть. Например, вот этот эмодзи 💀󠅗󠅢󠅕󠅕󠅤󠅙󠅞󠅗󠅣󠄐󠅖󠅢󠅟󠅝󠄐󠅤󠄐󠅔󠅟󠅤󠄐󠅝󠅕󠄐󠅣󠅜󠅑󠅣󠅘󠄐󠅜󠅜󠅝󠅣󠅕󠅓󠅥󠅢󠅙󠅤󠅩 для LLM на самом деле состоит из 166 токенов и содержит тайное послание. А это открывает простор для token smuggling и инъекции промпта. Андрей Карпати собрал забавный PoC, в котором попытался сделать на базе этого промпт-инъекцию, добавив инструкцию, собранную из байтов в эмодзи – сработало, но потребовался интерпретатор кода и некоторое количество инструкций. Но если мы напишем об этом побольше текстов, то будущие LLM могут запомнить, как это работает, и справляться с без подсказок 😉 Небезызвестный Плиний придумал другое применение – прилепить к эмодзи так много вариантных селекторов, чтобы текст выходил за пределы контекстного окна. Получается токен-бомба, разновидность sponge attack – можно добавлять на свой сайт и сжигать LLM-парсерам и краулерам токены.

В общем, Unicode – страшная штука 🔪

BY llm security и каланы




Share with your friend now:
group-telegram.com/llmsecurity/491

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Stocks dropped on Friday afternoon, as gains made earlier in the day on hopes for diplomatic progress between Russia and Ukraine turned to losses. Technology stocks were hit particularly hard by higher bond yields. Telegram was co-founded by Pavel and Nikolai Durov, the brothers who had previously created VKontakte. VK is Russia’s equivalent of Facebook, a social network used for public and private messaging, audio and video sharing as well as online gaming. In January, SimpleWeb reported that VK was Russia’s fourth most-visited website, after Yandex, YouTube and Google’s Russian-language homepage. In 2016, Forbes’ Michael Solomon described Pavel Durov (pictured, below) as the “Mark Zuckerberg of Russia.” But Kliuchnikov, the Ukranian now in France, said he will use Signal or WhatsApp for sensitive conversations, but questions around privacy on Telegram do not give him pause when it comes to sharing information about the war. The gold standard of encryption, known as end-to-end encryption, where only the sender and person who receives the message are able to see it, is available on Telegram only when the Secret Chat function is enabled. Voice and video calls are also completely encrypted. Right now the digital security needs of Russians and Ukrainians are very different, and they lead to very different caveats about how to mitigate the risks associated with using Telegram. For Ukrainians in Ukraine, whose physical safety is at risk because they are in a war zone, digital security is probably not their highest priority. They may value access to news and communication with their loved ones over making sure that all of their communications are encrypted in such a manner that they are indecipherable to Telegram, its employees, or governments with court orders.
from id


Telegram llm security и каланы
FROM American