group-telegram.com/data_secrets/7015
Last Update:
Яндекс открывает ранний доступ к своей внутренней платформе для хранения и обработки данных YTsaurus
По сути, это хранилище + вычислительная платформа. Такой Hadoop на стероидах, где все сразу спроектировано для огромной нагрузки.
Внутри Яндекс платформа работает уже 10 лет. Именно на ней обучали YandexGPT, а еще реализовывали полный пайплайн оптимизации цен, логистики и акций Яндекс Маркета. Как вы понимаете, речь тут о поддержке эксабайтных объёмов данных, миллионов CPU и десятков тысяч GPU.
С точки зрения ML YTsaurus подходит под любые сценарии: от ETL и подготовки фичей до обучения и инференса моделей. Поддерживается обработка логов и вообще почти любых типов данных. Можно использовать знакомые инструменты, такие как ClickHouse и Apache Spark, либо писать низкоуровневые пайплайны с помощью MapReduce. Также доступен Python API и клиент для интеграции в ML-воркфлоу.
Интересно, что развернуть можно и как облачный сервис (тогда все будет админить Яндекс), и как on-premise, если компания хочет хранить данные у себя.
В общем, максимальная гибкость, мощность и покрытие задач. Для раннего доступа к YTsaurus подавайте заявку на сайте
BY Data Secrets
Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260
Share with your friend now:
group-telegram.com/data_secrets/7015