Notice: file_put_contents(): Write of 4570 bytes failed with errno=28 No space left on device in /var/www/group-telegram/post.php on line 50

Warning: file_put_contents(): Only 16384 of 20954 bytes written, possibly out of free disk space in /var/www/group-telegram/post.php on line 50
Борис_ь с ml | Telegram Webview: borismlsec/81 -
Telegram Group & Telegram Channel
NLP!
В ИБ - полезен.
Но как разобраться?..
Часть 2.
#ml_для_иб

Визуальное
🔖Выращивание векторов слов Word2Vec прямо на глазах - демонстрация с кучей кнопочек, наглядно. И дополнительно статья, где объясняется феномен его работы.
🔖Google Model Explorer. Инструмент для анализа собственных разработок и их отладки.
🔖B. Bycroft LLM Visualization. Интерактивный учебник по устройству трансформеров и LLM на примере GPT-2 small, GPT-2 XL, nano-gpt и GPT-3.

Полный практический ликбез
Ноутбук на Kaggle с разбором Word2Vec, Glove, RNN, и до Seq2Seq, механизма внимания из трансформеров и BERT. Мощная теория, но без кода.

LLM
Помимо бесчисленных гайдов о том, что и как в них работает, обращу ваше внимание на пару важных вещей.
➡️Квантизация моделей. А точнее, их весов. Вот есть модель на миллиард параметров, 1B. А что есть параметр? - это число. Если это float64, он весит 8 байт, float32 - 4 байт. Таким образом, модель в зависимости от числового типа займет либо 500 или 1000 МБ - разница значительная. О том, как сжать веса модели и при этом сохранить по максимуму ее эффективность, отлично расписано тут. И я достаточно убежден, что это - ключ к развертыванию подобных больших моделей в контуре заказчика, как того требуют часто реалии рынка ИБ.
➡️Высочайшая схожесть эмбеддингов. Пробовали ли вы, например, с помощью SecureBERT сделать эмбеддинг фразы "base64 encoded suspicious powershell command content" и "serve the donuts warm for the best taste", а потом измерить расстояние от них до, например "windows malicious command"? Результат вас удивит - близость будет одинаковой и колебаться в районе 0.9 (косинусная). У этого есть причина, заключается она в анизотропности пространства отображения трансформеров, создаваемого ими в процессе обучения. Подробнее о том, что это и как с этим справиться, читайте здесь.
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍1



group-telegram.com/borismlsec/81
Create:
Last Update:

NLP!
В ИБ - полезен.
Но как разобраться?..
Часть 2.
#ml_для_иб

Визуальное
🔖Выращивание векторов слов Word2Vec прямо на глазах - демонстрация с кучей кнопочек, наглядно. И дополнительно статья, где объясняется феномен его работы.
🔖Google Model Explorer. Инструмент для анализа собственных разработок и их отладки.
🔖B. Bycroft LLM Visualization. Интерактивный учебник по устройству трансформеров и LLM на примере GPT-2 small, GPT-2 XL, nano-gpt и GPT-3.

Полный практический ликбез
Ноутбук на Kaggle с разбором Word2Vec, Glove, RNN, и до Seq2Seq, механизма внимания из трансформеров и BERT. Мощная теория, но без кода.

LLM
Помимо бесчисленных гайдов о том, что и как в них работает, обращу ваше внимание на пару важных вещей.
➡️Квантизация моделей. А точнее, их весов. Вот есть модель на миллиард параметров, 1B. А что есть параметр? - это число. Если это float64, он весит 8 байт, float32 - 4 байт. Таким образом, модель в зависимости от числового типа займет либо 500 или 1000 МБ - разница значительная. О том, как сжать веса модели и при этом сохранить по максимуму ее эффективность, отлично расписано тут. И я достаточно убежден, что это - ключ к развертыванию подобных больших моделей в контуре заказчика, как того требуют часто реалии рынка ИБ.
➡️Высочайшая схожесть эмбеддингов. Пробовали ли вы, например, с помощью SecureBERT сделать эмбеддинг фразы "base64 encoded suspicious powershell command content" и "serve the donuts warm for the best taste", а потом измерить расстояние от них до, например "windows malicious command"? Результат вас удивит - близость будет одинаковой и колебаться в районе 0.9 (косинусная). У этого есть причина, заключается она в анизотропности пространства отображения трансформеров, создаваемого ими в процессе обучения. Подробнее о том, что это и как с этим справиться, читайте здесь.

BY Борис_ь с ml




Share with your friend now:
group-telegram.com/borismlsec/81

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

In 2014, Pavel Durov fled the country after allies of the Kremlin took control of the social networking site most know just as VK. Russia's intelligence agency had asked Durov to turn over the data of anti-Kremlin protesters. Durov refused to do so. Additionally, investors are often instructed to deposit monies into personal bank accounts of individuals who claim to represent a legitimate entity, and/or into an unrelated corporate account. To lend credence and to lure unsuspecting victims, perpetrators usually claim that their entity and/or the investment schemes are approved by financial authorities. Groups are also not fully encrypted, end-to-end. This includes private groups. Private groups cannot be seen by other Telegram users, but Telegram itself can see the groups and all of the communications that you have in them. All of the same risks and warnings about channels can be applied to groups. Oh no. There’s a certain degree of myth-making around what exactly went on, so take everything that follows lightly. Telegram was originally launched as a side project by the Durov brothers, with Nikolai handling the coding and Pavel as CEO, while both were at VK. A Russian Telegram channel with over 700,000 followers is spreading disinformation about Russia's invasion of Ukraine under the guise of providing "objective information" and fact-checking fake news. Its influence extends beyond the platform, with major Russian publications, government officials, and journalists citing the page's posts.
from us


Telegram Борис_ь с ml
FROM American