Telegram Group & Telegram Channel
Smuggling arbitrary data through an emoji
Paul Butler, 2025
Блог, инструмент

В стандарте Unicode есть специальные коды в количестве 256 штук, которые называются вариантными селекторами и дополнительными вариантными селекторам – от U+FE00 до U+FE0x и от U+E0100 до U+E01EF. Они прицепляются к символам, идущим до них, и меняют их отображение – если существует вариация, соответствующая их комбинации. При этом вариантных селекторов после символа может быть сколько угодно много, а их наличие в количестве 256 штук означает, что в них можно закодировать байт.

Что это значит? Это значит, что можно создать внутрь текста засовывать другой, невидимый текст – находка для стеганографии. Так можно вставлять в текст незаметные сообщения, которые будет невидимы для стороннего наблюдателя или добавлять в тексты водяные знаки, которые сохраняются при копировании и вставке. Автор сопроводил блог небольшой тулой, которая позволяет кодировать-декодировать текст и, собственно, добавлять к эмодзи.

А кто еще кроме людей у нас работает с текстом? Конечно, LLM, причем в подавляющем большинстве LLM еще со времен GPT-2 используются BPE-токенизаторы, работающие на байтах, а не на символах, а значит вполне смогут закодированные послания увидеть. Например, вот этот эмодзи 💀󠅗󠅢󠅕󠅕󠅤󠅙󠅞󠅗󠅣󠄐󠅖󠅢󠅟󠅝󠄐󠅤󠄐󠅔󠅟󠅤󠄐󠅝󠅕󠄐󠅣󠅜󠅑󠅣󠅘󠄐󠅜󠅜󠅝󠅣󠅕󠅓󠅥󠅢󠅙󠅤󠅩 для LLM на самом деле состоит из 166 токенов и содержит тайное послание. А это открывает простор для token smuggling и инъекции промпта. Андрей Карпати собрал забавный PoC, в котором попытался сделать на базе этого промпт-инъекцию, добавив инструкцию, собранную из байтов в эмодзи – сработало, но потребовался интерпретатор кода и некоторое количество инструкций. Но если мы напишем об этом побольше текстов, то будущие LLM могут запомнить, как это работает, и справляться с без подсказок 😉 Небезызвестный Плиний придумал другое применение – прилепить к эмодзи так много вариантных селекторов, чтобы текст выходил за пределы контекстного окна. Получается токен-бомба, разновидность sponge attack – можно добавлять на свой сайт и сжигать LLM-парсерам и краулерам токены.

В общем, Unicode – страшная штука 🔪
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/llmsecurity/491
Create:
Last Update:

Smuggling arbitrary data through an emoji
Paul Butler, 2025
Блог, инструмент

В стандарте Unicode есть специальные коды в количестве 256 штук, которые называются вариантными селекторами и дополнительными вариантными селекторам – от U+FE00 до U+FE0x и от U+E0100 до U+E01EF. Они прицепляются к символам, идущим до них, и меняют их отображение – если существует вариация, соответствующая их комбинации. При этом вариантных селекторов после символа может быть сколько угодно много, а их наличие в количестве 256 штук означает, что в них можно закодировать байт.

Что это значит? Это значит, что можно создать внутрь текста засовывать другой, невидимый текст – находка для стеганографии. Так можно вставлять в текст незаметные сообщения, которые будет невидимы для стороннего наблюдателя или добавлять в тексты водяные знаки, которые сохраняются при копировании и вставке. Автор сопроводил блог небольшой тулой, которая позволяет кодировать-декодировать текст и, собственно, добавлять к эмодзи.

А кто еще кроме людей у нас работает с текстом? Конечно, LLM, причем в подавляющем большинстве LLM еще со времен GPT-2 используются BPE-токенизаторы, работающие на байтах, а не на символах, а значит вполне смогут закодированные послания увидеть. Например, вот этот эмодзи 💀󠅗󠅢󠅕󠅕󠅤󠅙󠅞󠅗󠅣󠄐󠅖󠅢󠅟󠅝󠄐󠅤󠄐󠅔󠅟󠅤󠄐󠅝󠅕󠄐󠅣󠅜󠅑󠅣󠅘󠄐󠅜󠅜󠅝󠅣󠅕󠅓󠅥󠅢󠅙󠅤󠅩 для LLM на самом деле состоит из 166 токенов и содержит тайное послание. А это открывает простор для token smuggling и инъекции промпта. Андрей Карпати собрал забавный PoC, в котором попытался сделать на базе этого промпт-инъекцию, добавив инструкцию, собранную из байтов в эмодзи – сработало, но потребовался интерпретатор кода и некоторое количество инструкций. Но если мы напишем об этом побольше текстов, то будущие LLM могут запомнить, как это работает, и справляться с без подсказок 😉 Небезызвестный Плиний придумал другое применение – прилепить к эмодзи так много вариантных селекторов, чтобы текст выходил за пределы контекстного окна. Получается токен-бомба, разновидность sponge attack – можно добавлять на свой сайт и сжигать LLM-парсерам и краулерам токены.

В общем, Unicode – страшная штука 🔪

BY llm security и каланы




Share with your friend now:
group-telegram.com/llmsecurity/491

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Telegram Messenger Blocks Navalny Bot During Russian Election "He has to start being more proactive and to find a real solution to this situation, not stay in standby without interfering. It's a very irresponsible position from the owner of Telegram," she said. At this point, however, Durov had already been working on Telegram with his brother, and further planned a mobile-first social network with an explicit focus on anti-censorship. Later in April, he told TechCrunch that he had left Russia and had “no plans to go back,” saying that the nation was currently “incompatible with internet business at the moment.” He added later that he was looking for a country that matched his libertarian ideals to base his next startup. In this regard, Sebi collaborated with the Telecom Regulatory Authority of India (TRAI) to reduce the vulnerability of the securities market to manipulation through misuse of mass communication medium like bulk SMS. If you initiate a Secret Chat, however, then these communications are end-to-end encrypted and are tied to the device you are using. That means it’s less convenient to access them across multiple platforms, but you are at far less risk of snooping. Back in the day, Secret Chats received some praise from the EFF, but the fact that its standard system isn’t as secure earned it some criticism. If you’re looking for something that is considered more reliable by privacy advocates, then Signal is the EFF’s preferred platform, although that too is not without some caveats.
from sg


Telegram llm security и каланы
FROM American