Telegram Group & Telegram Channel
GIGO: проблема качества данных в эпоху цифровой трансформации

GIGO (Garbage In, Garbage Out, «мусор на входе, мусор на выходе») — формула, выведенная программистом IBM Джорджем Фюшелем еще в эпоху перфокарт: если на вход системы подаются некачественные данные, то и выходные результаты будут неточными, бесполезными и даже вредными.

В контексте обучения моделей ИИ и машинного обучения феномен GIGO проявляется особенно остро.

Откуда берется «мусор»?

Феномен GIGO — прямое отражение причинно-следственной связи в обработке информации. «Мусором» на входе могут быть данные:
• некорректно размеченные: если изображения кошек ошибочно помечены как собаки, или спам-письма как легитимные, модель будет учиться на этих ошибках;
• неконсистентные: различия в представлении одних и тех же сущностей (например, «Нью-Йорк», «Нью Йорк», «NYC») в обучающем наборе сбивают модель с толку;
• смещенные: если обучающий датасет содержит нерелевантные данные, модель будет воспроизводить и даже усиливать эти смещения;
• а также неполные, зашумленные, устаревшие, дублирующиеся и т.п.

Источниками «мусора» могут быть ошибки ввода, некорректная интеграция систем, сбои оборудования, устаревшие методы сбора данных, отсутствие валидации на этапе ввода или даже преднамеренное искажение информации. Особенно уязвимы в этом плане синтетические датасеты.

Почему GIGO особенно критичен для ИИ

В эпоху Big Data GIGO становится еще более коварным. Огромные объемы данных, поступающие из множества источников (IoT-устройства, социальные сети, транзакционные системы), часто не проходят должной проверки качества. Кумулятивному эффекту способствуют особенности ИИ:
масштаб: модели обрабатывают огромные объемы данных, а значит, даже небольшие ошибки в данных могут быть многократно усилены;
автоматизация: ИИ-системы часто принимают решения или выполняют действия без прямого участия человека. Если эти решения основаны на «мусоре», последствия могут быть серьезными и труднообратимыми;
«черный ящик»: для сложных моделей глубокого обучения часто трудно понять, где причина ошибок вывода — в архитектуре модели, алгоритме или низком качестве данных.

👉 Согласно оценкам Gartner, средний финансовый ущерб, наносимый низким качеством данных организациям, составляет около $15 млн ежегодно. Это включает в себя затраты на очистку, стандартизацию, дедупликацию данных, а также на переработку проектов, которые были основаны на ошибочных данных. До 80% времени дата-сайентистов может уходить на очистку и подготовку данных, а не на их анализ и моделирование, что является колоссальной потерей продуктивности.

👉 По данным IBM, низкое качество данных обходится экономике США в $3.1 трлн ежегодно. Неточные данные приводят к ошибочным аналитическим выводам в маркетинговых стратегиях, управлении ресурсами, ценообразовании или прогнозах спроса.

🎯 Ссылки:
Garbage in, garbage out (GIGO) | EBSCO Research Starters
Garbage In, Garbage Out | Towards Data Science
Gaining insights in datasets in the shade of “garbage in, garbage out” rationale: Feature space distribution fitting
Avoiding GIGO: Learnings from data collection in innovation research - ScienceDirect

#BigData #данные #ML

🚀 ©ТехноТренды



group-telegram.com/technologies_trends/332
Create:
Last Update:

GIGO: проблема качества данных в эпоху цифровой трансформации

GIGO (Garbage In, Garbage Out, «мусор на входе, мусор на выходе») — формула, выведенная программистом IBM Джорджем Фюшелем еще в эпоху перфокарт: если на вход системы подаются некачественные данные, то и выходные результаты будут неточными, бесполезными и даже вредными.

В контексте обучения моделей ИИ и машинного обучения феномен GIGO проявляется особенно остро.

Откуда берется «мусор»?

Феномен GIGO — прямое отражение причинно-следственной связи в обработке информации. «Мусором» на входе могут быть данные:
• некорректно размеченные: если изображения кошек ошибочно помечены как собаки, или спам-письма как легитимные, модель будет учиться на этих ошибках;
• неконсистентные: различия в представлении одних и тех же сущностей (например, «Нью-Йорк», «Нью Йорк», «NYC») в обучающем наборе сбивают модель с толку;
• смещенные: если обучающий датасет содержит нерелевантные данные, модель будет воспроизводить и даже усиливать эти смещения;
• а также неполные, зашумленные, устаревшие, дублирующиеся и т.п.

Источниками «мусора» могут быть ошибки ввода, некорректная интеграция систем, сбои оборудования, устаревшие методы сбора данных, отсутствие валидации на этапе ввода или даже преднамеренное искажение информации. Особенно уязвимы в этом плане синтетические датасеты.

Почему GIGO особенно критичен для ИИ

В эпоху Big Data GIGO становится еще более коварным. Огромные объемы данных, поступающие из множества источников (IoT-устройства, социальные сети, транзакционные системы), часто не проходят должной проверки качества. Кумулятивному эффекту способствуют особенности ИИ:
масштаб: модели обрабатывают огромные объемы данных, а значит, даже небольшие ошибки в данных могут быть многократно усилены;
автоматизация: ИИ-системы часто принимают решения или выполняют действия без прямого участия человека. Если эти решения основаны на «мусоре», последствия могут быть серьезными и труднообратимыми;
«черный ящик»: для сложных моделей глубокого обучения часто трудно понять, где причина ошибок вывода — в архитектуре модели, алгоритме или низком качестве данных.

👉 Согласно оценкам Gartner, средний финансовый ущерб, наносимый низким качеством данных организациям, составляет около $15 млн ежегодно. Это включает в себя затраты на очистку, стандартизацию, дедупликацию данных, а также на переработку проектов, которые были основаны на ошибочных данных. До 80% времени дата-сайентистов может уходить на очистку и подготовку данных, а не на их анализ и моделирование, что является колоссальной потерей продуктивности.

👉 По данным IBM, низкое качество данных обходится экономике США в $3.1 трлн ежегодно. Неточные данные приводят к ошибочным аналитическим выводам в маркетинговых стратегиях, управлении ресурсами, ценообразовании или прогнозах спроса.

🎯 Ссылки:
Garbage in, garbage out (GIGO) | EBSCO Research Starters
Garbage In, Garbage Out | Towards Data Science
Gaining insights in datasets in the shade of “garbage in, garbage out” rationale: Feature space distribution fitting
Avoiding GIGO: Learnings from data collection in innovation research - ScienceDirect

#BigData #данные #ML

🚀 ©ТехноТренды

BY 📈 ТехноТренды: Технологии, Тренды, IT


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/technologies_trends/332

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Since January 2022, the SC has received a total of 47 complaints and enquiries on illegal investment schemes promoted through Telegram. These fraudulent schemes offer non-existent investment opportunities, promising very attractive and risk-free returns within a short span of time. They commonly offer unrealistic returns of as high as 1,000% within 24 hours or even within a few hours. And indeed, volatility has been a hallmark of the market environment so far in 2022, with the S&P 500 still down more than 10% for the year-to-date after first sliding into a correction last month. The CBOE Volatility Index, or VIX, has held at a lofty level of more than 30. This provided opportunity to their linked entities to offload their shares at higher prices and make significant profits at the cost of unsuspecting retail investors. It is unclear who runs the account, although Russia's official Ministry of Foreign Affairs Twitter account promoted the Telegram channel on Saturday and claimed it was operated by "a group of experts & journalists." At this point, however, Durov had already been working on Telegram with his brother, and further planned a mobile-first social network with an explicit focus on anti-censorship. Later in April, he told TechCrunch that he had left Russia and had “no plans to go back,” saying that the nation was currently “incompatible with internet business at the moment.” He added later that he was looking for a country that matched his libertarian ideals to base his next startup.
from us


Telegram 📈 ТехноТренды: Технологии, Тренды, IT
FROM American