Warning: file_put_contents(aCache/aDaily/post/technologies_trends/--): Failed to open stream: No space left on device in /var/www/group-telegram/post.php on line 50
📈 ТехноТренды: Технологии, Тренды, IT | Telegram Webview: technologies_trends/332 -
Telegram Group & Telegram Channel
GIGO: проблема качества данных в эпоху цифровой трансформации

GIGO (Garbage In, Garbage Out, «мусор на входе, мусор на выходе») — формула, выведенная программистом IBM Джорджем Фюшелем еще в эпоху перфокарт: если на вход системы подаются некачественные данные, то и выходные результаты будут неточными, бесполезными и даже вредными.

В контексте обучения моделей ИИ и машинного обучения феномен GIGO проявляется особенно остро.

Откуда берется «мусор»?

Феномен GIGO — прямое отражение причинно-следственной связи в обработке информации. «Мусором» на входе могут быть данные:
• некорректно размеченные: если изображения кошек ошибочно помечены как собаки, или спам-письма как легитимные, модель будет учиться на этих ошибках;
• неконсистентные: различия в представлении одних и тех же сущностей (например, «Нью-Йорк», «Нью Йорк», «NYC») в обучающем наборе сбивают модель с толку;
• смещенные: если обучающий датасет содержит нерелевантные данные, модель будет воспроизводить и даже усиливать эти смещения;
• а также неполные, зашумленные, устаревшие, дублирующиеся и т.п.

Источниками «мусора» могут быть ошибки ввода, некорректная интеграция систем, сбои оборудования, устаревшие методы сбора данных, отсутствие валидации на этапе ввода или даже преднамеренное искажение информации. Особенно уязвимы в этом плане синтетические датасеты.

Почему GIGO особенно критичен для ИИ

В эпоху Big Data GIGO становится еще более коварным. Огромные объемы данных, поступающие из множества источников (IoT-устройства, социальные сети, транзакционные системы), часто не проходят должной проверки качества. Кумулятивному эффекту способствуют особенности ИИ:
масштаб: модели обрабатывают огромные объемы данных, а значит, даже небольшие ошибки в данных могут быть многократно усилены;
автоматизация: ИИ-системы часто принимают решения или выполняют действия без прямого участия человека. Если эти решения основаны на «мусоре», последствия могут быть серьезными и труднообратимыми;
«черный ящик»: для сложных моделей глубокого обучения часто трудно понять, где причина ошибок вывода — в архитектуре модели, алгоритме или низком качестве данных.

👉 Согласно оценкам Gartner, средний финансовый ущерб, наносимый низким качеством данных организациям, составляет около $15 млн ежегодно. Это включает в себя затраты на очистку, стандартизацию, дедупликацию данных, а также на переработку проектов, которые были основаны на ошибочных данных. До 80% времени дата-сайентистов может уходить на очистку и подготовку данных, а не на их анализ и моделирование, что является колоссальной потерей продуктивности.

👉 По данным IBM, низкое качество данных обходится экономике США в $3.1 трлн ежегодно. Неточные данные приводят к ошибочным аналитическим выводам в маркетинговых стратегиях, управлении ресурсами, ценообразовании или прогнозах спроса.

🎯 Ссылки:
Garbage in, garbage out (GIGO) | EBSCO Research Starters
Garbage In, Garbage Out | Towards Data Science
Gaining insights in datasets in the shade of “garbage in, garbage out” rationale: Feature space distribution fitting
Avoiding GIGO: Learnings from data collection in innovation research - ScienceDirect

#BigData #данные #ML

🚀 ©ТехноТренды



group-telegram.com/technologies_trends/332
Create:
Last Update:

GIGO: проблема качества данных в эпоху цифровой трансформации

GIGO (Garbage In, Garbage Out, «мусор на входе, мусор на выходе») — формула, выведенная программистом IBM Джорджем Фюшелем еще в эпоху перфокарт: если на вход системы подаются некачественные данные, то и выходные результаты будут неточными, бесполезными и даже вредными.

В контексте обучения моделей ИИ и машинного обучения феномен GIGO проявляется особенно остро.

Откуда берется «мусор»?

Феномен GIGO — прямое отражение причинно-следственной связи в обработке информации. «Мусором» на входе могут быть данные:
• некорректно размеченные: если изображения кошек ошибочно помечены как собаки, или спам-письма как легитимные, модель будет учиться на этих ошибках;
• неконсистентные: различия в представлении одних и тех же сущностей (например, «Нью-Йорк», «Нью Йорк», «NYC») в обучающем наборе сбивают модель с толку;
• смещенные: если обучающий датасет содержит нерелевантные данные, модель будет воспроизводить и даже усиливать эти смещения;
• а также неполные, зашумленные, устаревшие, дублирующиеся и т.п.

Источниками «мусора» могут быть ошибки ввода, некорректная интеграция систем, сбои оборудования, устаревшие методы сбора данных, отсутствие валидации на этапе ввода или даже преднамеренное искажение информации. Особенно уязвимы в этом плане синтетические датасеты.

Почему GIGO особенно критичен для ИИ

В эпоху Big Data GIGO становится еще более коварным. Огромные объемы данных, поступающие из множества источников (IoT-устройства, социальные сети, транзакционные системы), часто не проходят должной проверки качества. Кумулятивному эффекту способствуют особенности ИИ:
масштаб: модели обрабатывают огромные объемы данных, а значит, даже небольшие ошибки в данных могут быть многократно усилены;
автоматизация: ИИ-системы часто принимают решения или выполняют действия без прямого участия человека. Если эти решения основаны на «мусоре», последствия могут быть серьезными и труднообратимыми;
«черный ящик»: для сложных моделей глубокого обучения часто трудно понять, где причина ошибок вывода — в архитектуре модели, алгоритме или низком качестве данных.

👉 Согласно оценкам Gartner, средний финансовый ущерб, наносимый низким качеством данных организациям, составляет около $15 млн ежегодно. Это включает в себя затраты на очистку, стандартизацию, дедупликацию данных, а также на переработку проектов, которые были основаны на ошибочных данных. До 80% времени дата-сайентистов может уходить на очистку и подготовку данных, а не на их анализ и моделирование, что является колоссальной потерей продуктивности.

👉 По данным IBM, низкое качество данных обходится экономике США в $3.1 трлн ежегодно. Неточные данные приводят к ошибочным аналитическим выводам в маркетинговых стратегиях, управлении ресурсами, ценообразовании или прогнозах спроса.

🎯 Ссылки:
Garbage in, garbage out (GIGO) | EBSCO Research Starters
Garbage In, Garbage Out | Towards Data Science
Gaining insights in datasets in the shade of “garbage in, garbage out” rationale: Feature space distribution fitting
Avoiding GIGO: Learnings from data collection in innovation research - ScienceDirect

#BigData #данные #ML

🚀 ©ТехноТренды

BY 📈 ТехноТренды: Технологии, Тренды, IT




Share with your friend now:
group-telegram.com/technologies_trends/332

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Telegram Messenger Blocks Navalny Bot During Russian Election In view of this, the regulator has cautioned investors not to rely on such investment tips / advice received through social media platforms. It has also said investors should exercise utmost caution while taking investment decisions while dealing in the securities market. This provided opportunity to their linked entities to offload their shares at higher prices and make significant profits at the cost of unsuspecting retail investors. Lastly, the web previews of t.me links have been given a new look, adding chat backgrounds and design elements from the fully-features Telegram Web client. But the Ukraine Crisis Media Center's Tsekhanovska points out that communications are often down in zones most affected by the war, making this sort of cross-referencing a luxury many cannot afford.
from ye


Telegram 📈 ТехноТренды: Технологии, Тренды, IT
FROM American