Telegram Group & Telegram Channel
NLP!
В ИБ - полезен.
Но как разобраться?..
Часть 2.
#ml_для_иб

Визуальное
🔖Выращивание векторов слов Word2Vec прямо на глазах - демонстрация с кучей кнопочек, наглядно. И дополнительно статья, где объясняется феномен его работы.
🔖Google Model Explorer. Инструмент для анализа собственных разработок и их отладки.
🔖B. Bycroft LLM Visualization. Интерактивный учебник по устройству трансформеров и LLM на примере GPT-2 small, GPT-2 XL, nano-gpt и GPT-3.

Полный практический ликбез
Ноутбук на Kaggle с разбором Word2Vec, Glove, RNN, и до Seq2Seq, механизма внимания из трансформеров и BERT. Мощная теория, но без кода.

LLM
Помимо бесчисленных гайдов о том, что и как в них работает, обращу ваше внимание на пару важных вещей.
➡️Квантизация моделей. А точнее, их весов. Вот есть модель на миллиард параметров, 1B. А что есть параметр? - это число. Если это float64, он весит 8 байт, float32 - 4 байт. Таким образом, модель в зависимости от числового типа займет либо 500 или 1000 МБ - разница значительная. О том, как сжать веса модели и при этом сохранить по максимуму ее эффективность, отлично расписано тут. И я достаточно убежден, что это - ключ к развертыванию подобных больших моделей в контуре заказчика, как того требуют часто реалии рынка ИБ.
➡️Высочайшая схожесть эмбеддингов. Пробовали ли вы, например, с помощью SecureBERT сделать эмбеддинг фразы "base64 encoded suspicious powershell command content" и "serve the donuts warm for the best taste", а потом измерить расстояние от них до, например "windows malicious command"? Результат вас удивит - близость будет одинаковой и колебаться в районе 0.9 (косинусная). У этого есть причина, заключается она в анизотропности пространства отображения трансформеров, создаваемого ими в процессе обучения. Подробнее о том, что это и как с этим справиться, читайте здесь.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1



group-telegram.com/borismlsec/81
Create:
Last Update:

NLP!
В ИБ - полезен.
Но как разобраться?..
Часть 2.
#ml_для_иб

Визуальное
🔖Выращивание векторов слов Word2Vec прямо на глазах - демонстрация с кучей кнопочек, наглядно. И дополнительно статья, где объясняется феномен его работы.
🔖Google Model Explorer. Инструмент для анализа собственных разработок и их отладки.
🔖B. Bycroft LLM Visualization. Интерактивный учебник по устройству трансформеров и LLM на примере GPT-2 small, GPT-2 XL, nano-gpt и GPT-3.

Полный практический ликбез
Ноутбук на Kaggle с разбором Word2Vec, Glove, RNN, и до Seq2Seq, механизма внимания из трансформеров и BERT. Мощная теория, но без кода.

LLM
Помимо бесчисленных гайдов о том, что и как в них работает, обращу ваше внимание на пару важных вещей.
➡️Квантизация моделей. А точнее, их весов. Вот есть модель на миллиард параметров, 1B. А что есть параметр? - это число. Если это float64, он весит 8 байт, float32 - 4 байт. Таким образом, модель в зависимости от числового типа займет либо 500 или 1000 МБ - разница значительная. О том, как сжать веса модели и при этом сохранить по максимуму ее эффективность, отлично расписано тут. И я достаточно убежден, что это - ключ к развертыванию подобных больших моделей в контуре заказчика, как того требуют часто реалии рынка ИБ.
➡️Высочайшая схожесть эмбеддингов. Пробовали ли вы, например, с помощью SecureBERT сделать эмбеддинг фразы "base64 encoded suspicious powershell command content" и "serve the donuts warm for the best taste", а потом измерить расстояние от них до, например "windows malicious command"? Результат вас удивит - близость будет одинаковой и колебаться в районе 0.9 (косинусная). У этого есть причина, заключается она в анизотропности пространства отображения трансформеров, создаваемого ими в процессе обучения. Подробнее о том, что это и как с этим справиться, читайте здесь.

BY Борис_ь с ml




Share with your friend now:
group-telegram.com/borismlsec/81

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Founder Pavel Durov says tech is meant to set you free "He has kind of an old-school cyber-libertarian world view where technology is there to set you free," Maréchal said. "Your messages about the movement of the enemy through the official chatbot … bring new trophies every day," the government agency tweeted. "There are several million Russians who can lift their head up from propaganda and try to look for other sources, and I'd say that most look for it on Telegram," he said. On Telegram’s website, it says that Pavel Durov “supports Telegram financially and ideologically while Nikolai (Duvov)’s input is technological.” Currently, the Telegram team is based in Dubai, having moved around from Berlin, London and Singapore after departing Russia. Meanwhile, the company which owns Telegram is registered in the British Virgin Islands.
from us


Telegram Борис_ь с ml
FROM American