group-telegram.com/start_ds/396
Create:
Last Update:
Last Update:
🐶 Пет-проекты для начинающего Data Scientistа
Pet-project
- это небольшой личный проект в любой отрасли для портфолио и/или собственного удовольствия. Начинающему дата саентисту почти что необходимо сделать какой-нибудь
(пусть даже совсем небольшой)
пет-проект
Во-первых, это позволит вам понять, действительно ли вы заинтересованы в этой сфере.
Во-вторых, точно прокачает ваши навыки.
Ну и в-третьих, его можно будет указать в резюме, если у вас не было опыта работы. Собеседующий точно заметит, если вы будете с энтузиазмом рассказывать про свои проекты
В идеале в вашем проекте должны быть затронуты все этапы работы с данными:
1. Получение данных:
- Можно спарсить данные, например, с помощью библиотек BeautifulSoup, Scrapy или Selenium (если под этим постом наберётся 100 сердечек ❤️, мы расскажем про парсинг подробнее)
- Можно поработать с какой-нибудь APIшкой для получения данных (например, с api ХедХантера для вакансий)
- Можно скачать датасет из открытых источников, например, с Kaggle или Google Dataset Search
2. Исследовательский анализ данных (EDA):
- Повизуализировать данные с помощью библиотек вроде Matplotlib, Seaborn или Plotly для нахождения закономерностей и аномалий
- Поприменять статистический анализ для понимания распределений и тестирования гипотез
3. Предобработка данных:
- Почистить данные от пропусков и выбросов
- Преобразовать типы данных, нормализировать и стандартизировать их
- Попробовать придумать новые признаки для повышения точности моделей
4. Построение моделей:
- Понять, какой алгоритм машинного обучения будет эффективнее в вашей задаче (от линейной регрессии до градиентного бустинга и глубокого обучения)
- Оптимизировать его гиперапараметры
5. Настройка регулярных процессов (про это, кстати, у нас был пост):
- Автоматизировать сбор и обновление данных через скрипты
- Настроить автоматическое переобучение моделей с новыми данными
6. Работа с большими данными:
- Попробовать поработать с Hadoop/Spark для обработки большого объема данных (если под этим постом наберётся 150 сердечек❤️, мы расскажем подробнее про MapReduce)
- Понять, что в вашем проекте это совсем ни к чему и использовать для хранения и обработки данных, например, PostgreSQL или MongoDB
7. Деплой модели:
- Юзануть Docker контейнеры для упаковки и деплоя моделей и приложений
- Познакомиться с облачными платформами, такими как AWS, Google Cloud или Azure для развертывания моделей
Будет очень классно, если идея проекта придет к вам в процессе решения какой-нибудь задачи из жизни. Если же идей нет, можно взять их отсюда:
– 10 проектов по data science для начинающих
– 36 идей для проектов по аналитике данных
(просто вбиваете в поиск “идеи пет-проекта для data scientistа” 😁)
Ставьте сердечки❤️ под этим постом, если было полезно, и начинайте делать свой первый пет-проект, если еще не начали!
BY Start Career in DS

Share with your friend now:
group-telegram.com/start_ds/396
