group-telegram.com/borismlsec/43
Last Update:
#ml_для_иб
Работа с данными в ИБ - какие нужны компетенции? Часть 3.
Часто специалисты на практике получают узкоспециализированные задачи, которые требуют погружения в отдельные области математической теории машинного обучения, что сильно влияет на формирование их компетенций. И, соответственно, легко сегодня на рынке можно встретить такие вакансии, как "nlp-инженер", "специалист по recsys" и так далее. И, конечно, часто эти задачи в практике пересекаются - nlp и recsys, классификация и rl, и т.д.
Итак, разделение специалистов
2. По типам задачи, решаемой машинным обучением:
— classic ml (classification, regression, clusterisation). Здесь могут применяться как базовые модели машинного обучения, таки как случайный лес или k-means, но и нейросети для подобных задач используются.
— natural language processing. Эта область основана на математической лингвистике, и к этой области относятся модели архитектуры Transformer, например. А трансформерами являются все так популярные LLM.
— reinforcement learning. Или обучение с подкреплением. Служат для того, чтобы модель ml могла работать с внешним миром и учиться на основе опыта от него. Важными понятиями являются такие вещи, как внешняя среда, с которой взаимодействует модель с помощью определенных действий, и получает за эти действия какую-либо награду. Действия также приводят к переходам среды из одного состояния в другое.
— anomaly detection. Выявление аномалий в данных, что очень большое применение находит в кибербезопасности. Аномальный трафик всегда вызывает пристальное внимание, и важно понимать, что свойственно защищаемой системе, а что нет.
— time series forecasting. Прогнозирование динамики численных показателей, что широко используется при бизнес-планировании, предсказании погоды, оптимизации энергетических и логистических процессов.
— recommendation systems. Широкая область, иногда пересекающаяся с nlp. Это задача наиболее релевантного объекта из некоторого множества для другого объекта (чаще всего пользователя), обладающим поведенческим процессом. И этот поведенческий процесс позволяет оценивать, какие объекты релевантны данному условно пользователю. Традиционное применение очевидно, но иногда находит себя и в ИБ, например в виде системы выявления несвойственных пользователю приложений. Основывается на гипотезе, что аномальное приложение непохоже ни на какое из тех, что ему рекомендует система.
— video processing, computer vision. Системы с моделями этого класса широко распространены в робототехнике и системах видеонаблюдения (физическая безопасность, контроль качества).
— image processing. Фильтрация шумов, улучшение качества изобржения и апскейлинг, распознавание объектов на изображении. Благодаря этим технологиям появились дипфейки.
— audio processing. Обработка и синтез речи или просто звуков, распознавание речи и эмоций, та же самая фильтрация шумов, диаризация (выделение отдельных голосов в многоголосой речи), модификация заданного аудиосигнала под другой стиль или иные требования. Например, недавно OpenAI представили решение, позволяющее озвучивать заданным голосом заданный текст на заданном языке, при условии что оригинальный отрывок речи записан на совершенно другом языке.
Подробнее про виды задач ml можно почитать, например, тут, тут и тут.
BY Борис_ь с ml

Share with your friend now:
group-telegram.com/borismlsec/43