Warning: file_put_contents(aCache/aDaily/post/technologies_trends/--): Failed to open stream: No space left on device in /var/www/group-telegram/post.php on line 50
📈 ТехноТренды: Технологии, Тренды, IT | Telegram Webview: technologies_trends/332 -
Telegram Group & Telegram Channel
GIGO: проблема качества данных в эпоху цифровой трансформации

GIGO (Garbage In, Garbage Out, «мусор на входе, мусор на выходе») — формула, выведенная программистом IBM Джорджем Фюшелем еще в эпоху перфокарт: если на вход системы подаются некачественные данные, то и выходные результаты будут неточными, бесполезными и даже вредными.

В контексте обучения моделей ИИ и машинного обучения феномен GIGO проявляется особенно остро.

Откуда берется «мусор»?

Феномен GIGO — прямое отражение причинно-следственной связи в обработке информации. «Мусором» на входе могут быть данные:
• некорректно размеченные: если изображения кошек ошибочно помечены как собаки, или спам-письма как легитимные, модель будет учиться на этих ошибках;
• неконсистентные: различия в представлении одних и тех же сущностей (например, «Нью-Йорк», «Нью Йорк», «NYC») в обучающем наборе сбивают модель с толку;
• смещенные: если обучающий датасет содержит нерелевантные данные, модель будет воспроизводить и даже усиливать эти смещения;
• а также неполные, зашумленные, устаревшие, дублирующиеся и т.п.

Источниками «мусора» могут быть ошибки ввода, некорректная интеграция систем, сбои оборудования, устаревшие методы сбора данных, отсутствие валидации на этапе ввода или даже преднамеренное искажение информации. Особенно уязвимы в этом плане синтетические датасеты.

Почему GIGO особенно критичен для ИИ

В эпоху Big Data GIGO становится еще более коварным. Огромные объемы данных, поступающие из множества источников (IoT-устройства, социальные сети, транзакционные системы), часто не проходят должной проверки качества. Кумулятивному эффекту способствуют особенности ИИ:
масштаб: модели обрабатывают огромные объемы данных, а значит, даже небольшие ошибки в данных могут быть многократно усилены;
автоматизация: ИИ-системы часто принимают решения или выполняют действия без прямого участия человека. Если эти решения основаны на «мусоре», последствия могут быть серьезными и труднообратимыми;
«черный ящик»: для сложных моделей глубокого обучения часто трудно понять, где причина ошибок вывода — в архитектуре модели, алгоритме или низком качестве данных.

👉 Согласно оценкам Gartner, средний финансовый ущерб, наносимый низким качеством данных организациям, составляет около $15 млн ежегодно. Это включает в себя затраты на очистку, стандартизацию, дедупликацию данных, а также на переработку проектов, которые были основаны на ошибочных данных. До 80% времени дата-сайентистов может уходить на очистку и подготовку данных, а не на их анализ и моделирование, что является колоссальной потерей продуктивности.

👉 По данным IBM, низкое качество данных обходится экономике США в $3.1 трлн ежегодно. Неточные данные приводят к ошибочным аналитическим выводам в маркетинговых стратегиях, управлении ресурсами, ценообразовании или прогнозах спроса.

🎯 Ссылки:
Garbage in, garbage out (GIGO) | EBSCO Research Starters
Garbage In, Garbage Out | Towards Data Science
Gaining insights in datasets in the shade of “garbage in, garbage out” rationale: Feature space distribution fitting
Avoiding GIGO: Learnings from data collection in innovation research - ScienceDirect

#BigData #данные #ML

🚀 ©ТехноТренды



group-telegram.com/technologies_trends/332
Create:
Last Update:

GIGO: проблема качества данных в эпоху цифровой трансформации

GIGO (Garbage In, Garbage Out, «мусор на входе, мусор на выходе») — формула, выведенная программистом IBM Джорджем Фюшелем еще в эпоху перфокарт: если на вход системы подаются некачественные данные, то и выходные результаты будут неточными, бесполезными и даже вредными.

В контексте обучения моделей ИИ и машинного обучения феномен GIGO проявляется особенно остро.

Откуда берется «мусор»?

Феномен GIGO — прямое отражение причинно-следственной связи в обработке информации. «Мусором» на входе могут быть данные:
• некорректно размеченные: если изображения кошек ошибочно помечены как собаки, или спам-письма как легитимные, модель будет учиться на этих ошибках;
• неконсистентные: различия в представлении одних и тех же сущностей (например, «Нью-Йорк», «Нью Йорк», «NYC») в обучающем наборе сбивают модель с толку;
• смещенные: если обучающий датасет содержит нерелевантные данные, модель будет воспроизводить и даже усиливать эти смещения;
• а также неполные, зашумленные, устаревшие, дублирующиеся и т.п.

Источниками «мусора» могут быть ошибки ввода, некорректная интеграция систем, сбои оборудования, устаревшие методы сбора данных, отсутствие валидации на этапе ввода или даже преднамеренное искажение информации. Особенно уязвимы в этом плане синтетические датасеты.

Почему GIGO особенно критичен для ИИ

В эпоху Big Data GIGO становится еще более коварным. Огромные объемы данных, поступающие из множества источников (IoT-устройства, социальные сети, транзакционные системы), часто не проходят должной проверки качества. Кумулятивному эффекту способствуют особенности ИИ:
масштаб: модели обрабатывают огромные объемы данных, а значит, даже небольшие ошибки в данных могут быть многократно усилены;
автоматизация: ИИ-системы часто принимают решения или выполняют действия без прямого участия человека. Если эти решения основаны на «мусоре», последствия могут быть серьезными и труднообратимыми;
«черный ящик»: для сложных моделей глубокого обучения часто трудно понять, где причина ошибок вывода — в архитектуре модели, алгоритме или низком качестве данных.

👉 Согласно оценкам Gartner, средний финансовый ущерб, наносимый низким качеством данных организациям, составляет около $15 млн ежегодно. Это включает в себя затраты на очистку, стандартизацию, дедупликацию данных, а также на переработку проектов, которые были основаны на ошибочных данных. До 80% времени дата-сайентистов может уходить на очистку и подготовку данных, а не на их анализ и моделирование, что является колоссальной потерей продуктивности.

👉 По данным IBM, низкое качество данных обходится экономике США в $3.1 трлн ежегодно. Неточные данные приводят к ошибочным аналитическим выводам в маркетинговых стратегиях, управлении ресурсами, ценообразовании или прогнозах спроса.

🎯 Ссылки:
Garbage in, garbage out (GIGO) | EBSCO Research Starters
Garbage In, Garbage Out | Towards Data Science
Gaining insights in datasets in the shade of “garbage in, garbage out” rationale: Feature space distribution fitting
Avoiding GIGO: Learnings from data collection in innovation research - ScienceDirect

#BigData #данные #ML

🚀 ©ТехноТренды

BY 📈 ТехноТренды: Технологии, Тренды, IT




Share with your friend now:
group-telegram.com/technologies_trends/332

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

The picture was mixed overseas. Hong Kong’s Hang Seng Index fell 1.6%, under pressure from U.S. regulatory scrutiny on New York-listed Chinese companies. Stocks were more buoyant in Europe, where Frankfurt’s DAX surged 1.4%. Pavel Durov, Telegram's CEO, is known as "the Russian Mark Zuckerberg," for co-founding VKontakte, which is Russian for "in touch," a Facebook imitator that became the country's most popular social networking site. Telegram was founded in 2013 by two Russian brothers, Nikolai and Pavel Durov. Markets continued to grapple with the economic and corporate earnings implications relating to the Russia-Ukraine conflict. “We have a ton of uncertainty right now,” said Stephanie Link, chief investment strategist and portfolio manager at Hightower Advisors. “We’re dealing with a war, we’re dealing with inflation. We don’t know what it means to earnings.” The account, "War on Fakes," was created on February 24, the same day Russian President Vladimir Putin announced a "special military operation" and troops began invading Ukraine. The page is rife with disinformation, according to The Atlantic Council's Digital Forensic Research Lab, which studies digital extremism and published a report examining the channel.
from jp


Telegram 📈 ТехноТренды: Технологии, Тренды, IT
FROM American