group-telegram.com/superalignmentUA/5
Last Update:
Дифузійна нейронна мережа - не багато не мало, один з двох, нарівні з архітектурою трансформера, основних векторів сучасного буму ШІ, і схоже, ця гілка розвитку виходить на плато. На відміну від трансформера, який показав здатність покращуватись в дуже широкому секторі характеристик(в усіх вимірюваних, окрім можливо reasoning, але про це іншим разом) - моделі на основі дифузії стабільно показували покращення лише в частині метрик, в той час як в інших прогресу майже не було взагалі.
Не вдаючись в деталі, підсумувати це можна так - моделі покращувались в сенсі готових результатів, і ніяк не мінялись в сенсі керованості і зворотнього зв'язку з користувачем. Тобто дивлячись на випадкові результати генерацій в інтернеті, складно було не вразитись. Якість краща, реалізм, увага до деталей. Щодо відео - таймлайн довший, розуміння фізики краще. А з другої сторони - повна нездатність моделі задовільнити в точності запит користувача, неможливість редагування вже готових результатів.
Причин проблеми кілька, і кожна носить фундаментальний характер.
1)Сам алгоритм роботи таких моделей, які навчені шум розтискати в зображення - доволі замкнений на собі. В нього важко втрутитися ззовні, наприклад органічно додавши детальний промпт, що дуже обмежує керованість.
2)Шум при кожній генерації ініціалізовується випадковим чином, що накопичує відмінності в результаті, навіть при умові однакового промпту.
3)Модель вимагає навчання з учителем. Навчальні дані мають бути розмічені, а оскільки ця розмітка як правило коротка(а також через п.1) - в моделі не виникає глибинного розуміння запиту зі всіма мовними нюансами та глибинними контекстами, як це є трансформера, і обмежується вона, як правило, дуже простими асоціяціями, і якщо промпт дійсно важчий і багаторівневий - результати будуть або незрозумілі, або навіть зрозумілі прямо протилежно до запиту.
В результаті цих проблем - пожинаємо купу наслідків, таких як відсутність адаптивності, контролю над деталями, глобального контексту, і повної нездатності до розширення модальностей. Як наслідок, настав тупік, який перекреслює надії ще річної давності, що скоро будемо генерувати собі фільми по бажанню.