Telegram Group & Telegram Channel
Дизайн собственной раскладки: данные

Предыдущие части: экскурс в историю, общий подход.

Прежде чем погрузиться в метрики, их на чём-то нужно считать. Как мы знаем, много данных = стабильные метрики, сходящаяся оптимизация, достаток и процветание 🤴. Датасет хотелось подготовить самому, не у Норвига с Карпатым же брать. Изначально мне хотелось собрать статистику с датасета архива, но выкачка данных там только с Amazon S3 за свой счёт, да и формат довольно всратый. В итоге я остановился на Reddit-е, дамп которого с недавних пор (клятые LLMки 🤬) доступен только с торрентов. В сумме сжатых данных получается 2.5Tb, что с комфортом процессится на домашнем компьютере.

Для обработки за пару часов с помочью ChatGPT и такой-то матери был написан и отлажен простенький шелл-скрипт, который читает файлы с помощью jq и считает комбинации букв на awk. Особенно хочется отметить jq – он делает работу с JSONами суперприятной – всякие сложные селекты отрабатывают максимлаьно быстро 📈 без противного парсинга. Файлики с результатами я выложу в комментариях. В следующий раз поговорим о метриках и, наконец, оптимизации.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥11



group-telegram.com/epsiloncorrect/159
Create:
Last Update:

Дизайн собственной раскладки: данные

Предыдущие части: экскурс в историю, общий подход.

Прежде чем погрузиться в метрики, их на чём-то нужно считать. Как мы знаем, много данных = стабильные метрики, сходящаяся оптимизация, достаток и процветание 🤴. Датасет хотелось подготовить самому, не у Норвига с Карпатым же брать. Изначально мне хотелось собрать статистику с датасета архива, но выкачка данных там только с Amazon S3 за свой счёт, да и формат довольно всратый. В итоге я остановился на Reddit-е, дамп которого с недавних пор (клятые LLMки 🤬) доступен только с торрентов. В сумме сжатых данных получается 2.5Tb, что с комфортом процессится на домашнем компьютере.

Для обработки за пару часов с помочью ChatGPT и такой-то матери был написан и отлажен простенький шелл-скрипт, который читает файлы с помощью jq и считает комбинации букв на awk. Особенно хочется отметить jq – он делает работу с JSONами суперприятной – всякие сложные селекты отрабатывают максимлаьно быстро 📈 без противного парсинга. Файлики с результатами я выложу в комментариях. В следующий раз поговорим о метриках и, наконец, оптимизации.

BY epsilon correct


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/epsiloncorrect/159

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Pavel Durov, Telegram's CEO, is known as "the Russian Mark Zuckerberg," for co-founding VKontakte, which is Russian for "in touch," a Facebook imitator that became the country's most popular social networking site. Also in the latest update is the ability for users to create a unique @username from the Settings page, providing others with an easy way to contact them via Search or their t.me/username link without sharing their phone number. Telegram was founded in 2013 by two Russian brothers, Nikolai and Pavel Durov. The original Telegram channel has expanded into a web of accounts for different locations, including specific pages made for individual Russian cities. There's also an English-language website, which states it is owned by the people who run the Telegram channels. The last couple days have exemplified that uncertainty. On Thursday, news emerged that talks in Turkey between the Russia and Ukraine yielded no positive result. But on Friday, Reuters reported that Russian President Vladimir Putin said there had been some “positive shifts” in talks between the two sides.
from no


Telegram epsilon correct
FROM American