group-telegram.com/technologies_trends/332
Last Update:
GIGO: проблема качества данных в эпоху цифровой трансформации
GIGO (Garbage In, Garbage Out, «мусор на входе, мусор на выходе») — формула, выведенная программистом IBM Джорджем Фюшелем еще в эпоху перфокарт: если на вход системы подаются некачественные данные, то и выходные результаты будут неточными, бесполезными и даже вредными.
В контексте обучения моделей ИИ и машинного обучения феномен GIGO проявляется особенно остро.
Откуда берется «мусор»?
Феномен GIGO — прямое отражение причинно-следственной связи в обработке информации. «Мусором» на входе могут быть данные:
• некорректно размеченные: если изображения кошек ошибочно помечены как собаки, или спам-письма как легитимные, модель будет учиться на этих ошибках;
• неконсистентные: различия в представлении одних и тех же сущностей (например, «Нью-Йорк», «Нью Йорк», «NYC») в обучающем наборе сбивают модель с толку;
• смещенные: если обучающий датасет содержит нерелевантные данные, модель будет воспроизводить и даже усиливать эти смещения;
• а также неполные, зашумленные, устаревшие, дублирующиеся и т.п.
Источниками «мусора» могут быть ошибки ввода, некорректная интеграция систем, сбои оборудования, устаревшие методы сбора данных, отсутствие валидации на этапе ввода или даже преднамеренное искажение информации. Особенно уязвимы в этом плане синтетические датасеты.
Почему GIGO особенно критичен для ИИ
В эпоху Big Data GIGO становится еще более коварным. Огромные объемы данных, поступающие из множества источников (IoT-устройства, социальные сети, транзакционные системы), часто не проходят должной проверки качества. Кумулятивному эффекту способствуют особенности ИИ:
• масштаб: модели обрабатывают огромные объемы данных, а значит, даже небольшие ошибки в данных могут быть многократно усилены;
• автоматизация: ИИ-системы часто принимают решения или выполняют действия без прямого участия человека. Если эти решения основаны на «мусоре», последствия могут быть серьезными и труднообратимыми;
• «черный ящик»: для сложных моделей глубокого обучения часто трудно понять, где причина ошибок вывода — в архитектуре модели, алгоритме или низком качестве данных.
👉 Согласно оценкам Gartner, средний финансовый ущерб, наносимый низким качеством данных организациям, составляет около $15 млн ежегодно. Это включает в себя затраты на очистку, стандартизацию, дедупликацию данных, а также на переработку проектов, которые были основаны на ошибочных данных. До 80% времени дата-сайентистов может уходить на очистку и подготовку данных, а не на их анализ и моделирование, что является колоссальной потерей продуктивности.
👉 По данным IBM, низкое качество данных обходится экономике США в $3.1 трлн ежегодно. Неточные данные приводят к ошибочным аналитическим выводам в маркетинговых стратегиях, управлении ресурсами, ценообразовании или прогнозах спроса.
🎯 Ссылки:
• Garbage in, garbage out (GIGO) | EBSCO Research Starters
• Garbage In, Garbage Out | Towards Data Science
• Gaining insights in datasets in the shade of “garbage in, garbage out” rationale: Feature space distribution fitting
• Avoiding GIGO: Learnings from data collection in innovation research - ScienceDirect
#BigData #данные #ML
🚀 ©ТехноТренды
BY 📈 ТехноТренды: Технологии, Тренды, IT
Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260
Share with your friend now:
group-telegram.com/technologies_trends/332
