🧖‍♂️Дифузія всьо (1/2)

Амбасадор матричного множення

🧖‍♂️Дифузія всьо (1/2)

Дифузійна нейронна мережа - не багато не мало, один з двох, нарівні з архітектурою трансформера, основних векторів сучасного буму ШІ, і схоже, ця гілка розвитку виходить на плато. На відміну від трансформера, який показав здатність покращуватись в дуже широкому секторі характеристик(в усіх вимірюваних, окрім можливо reasoning, але про це іншим разом) - моделі на основі дифузії стабільно показували покращення лише в частині метрик, в той час як в інших прогресу майже не було взагалі.

Не вдаючись в деталі, підсумувати це можна так - моделі покращувались в сенсі готових результатів, і ніяк не мінялись в сенсі керованості і зворотнього зв'язку з користувачем. Тобто дивлячись на випадкові результати генерацій в інтернеті, складно було не вразитись. Якість краща, реалізм, увага до деталей. Щодо відео - таймлайн довший, розуміння фізики краще. А з другої сторони - повна нездатність моделі задовільнити в точності запит користувача, неможливість редагування вже готових результатів.

Причин проблеми кілька, і кожна носить фундаментальний характер.
1)Сам алгоритм роботи таких моделей, які навчені шум розтискати в зображення - доволі замкнений на собі. В нього важко втрутитися ззовні, наприклад органічно додавши детальний промпт, що дуже обмежує керованість.
2)Шум при кожній генерації ініціалізовується випадковим чином, що накопичує відмінності в результаті, навіть при умові однакового промпту.
3)Модель вимагає навчання з учителем. Навчальні дані мають бути розмічені, а оскільки ця розмітка як правило коротка(а також через п.1) - в моделі не виникає глибинного розуміння запиту зі всіма мовними нюансами та глибинними контекстами, як це є трансформера, і обмежується вона, як правило, дуже простими асоціяціями, і якщо промпт дійсно важчий і багаторівневий - результати будуть або незрозумілі, або навіть зрозумілі прямо протилежно до запиту.

В результаті цих проблем - пожинаємо купу наслідків, таких як відсутність адаптивності, контролю над деталями, глобального контексту, і повної нездатності до розширення модальностей. Як наслідок, настав тупік, який перекреслює надії ще річної давності, що скоро будемо генерувати собі фільми по бажанню.

Please open Telegram to view this post

VIEW IN TELEGRAM

www.group-telegram.com/us/superalignmentUA.com/5

387 viewsedited Dec 16, 2024 at 00:51

group-telegram.com/superalignmentUA/5

Create: 2024-12-16
Last Update: 2025-07-01 21:23:10

Telegram | DID YOU KNOW?

🧖‍♂️Дифузія всьо (1/2)