Telegram Group & Telegram Channel
🧖‍♂️Дифузія всьо (1/2)

Дифузійна нейронна мережа - не багато не мало, один з двох, нарівні з архітектурою трансформера, основних векторів сучасного буму ШІ, і схоже, ця гілка розвитку виходить на плато. На відміну від трансформера, який показав здатність покращуватись в дуже широкому секторі характеристик(в усіх вимірюваних, окрім можливо reasoning, але про це іншим разом) - моделі на основі дифузії стабільно показували покращення лише в частині метрик, в той час як в інших прогресу майже не було взагалі.

Не вдаючись в деталі, підсумувати це можна так - моделі покращувались в сенсі готових результатів, і ніяк не мінялись в сенсі керованості і зворотнього зв'язку з користувачем. Тобто дивлячись на випадкові результати генерацій в інтернеті, складно було не вразитись. Якість краща, реалізм, увага до деталей. Щодо відео - таймлайн довший, розуміння фізики краще. А з другої сторони - повна нездатність моделі задовільнити в точності запит користувача, неможливість редагування вже готових результатів.

Причин проблеми кілька, і кожна носить фундаментальний характер.
1)Сам алгоритм роботи таких моделей, які навчені шум розтискати в зображення - доволі замкнений на собі. В нього важко втрутитися ззовні, наприклад органічно додавши детальний промпт, що дуже обмежує керованість.
2)Шум при кожній генерації ініціалізовується випадковим чином, що накопичує відмінності в результаті, навіть при умові однакового промпту.
3)Модель вимагає навчання з учителем. Навчальні дані мають бути розмічені, а оскільки ця розмітка як правило коротка(а також через п.1) - в моделі не виникає глибинного розуміння запиту зі всіма мовними нюансами та глибинними контекстами, як це є трансформера, і обмежується вона, як правило, дуже простими асоціяціями, і якщо промпт дійсно важчий і багаторівневий - результати будуть або незрозумілі, або навіть зрозумілі прямо протилежно до запиту.

В результаті цих проблем - пожинаємо купу наслідків, таких як відсутність адаптивності, контролю над деталями, глобального контексту, і повної нездатності до розширення модальностей. Як наслідок, настав тупік, який перекреслює надії ще річної давності, що скоро будемо генерувати собі фільми по бажанню.
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/superalignmentUA/5
Create:
Last Update:

🧖‍♂️Дифузія всьо (1/2)

Дифузійна нейронна мережа - не багато не мало, один з двох, нарівні з архітектурою трансформера, основних векторів сучасного буму ШІ, і схоже, ця гілка розвитку виходить на плато. На відміну від трансформера, який показав здатність покращуватись в дуже широкому секторі характеристик(в усіх вимірюваних, окрім можливо reasoning, але про це іншим разом) - моделі на основі дифузії стабільно показували покращення лише в частині метрик, в той час як в інших прогресу майже не було взагалі.

Не вдаючись в деталі, підсумувати це можна так - моделі покращувались в сенсі готових результатів, і ніяк не мінялись в сенсі керованості і зворотнього зв'язку з користувачем. Тобто дивлячись на випадкові результати генерацій в інтернеті, складно було не вразитись. Якість краща, реалізм, увага до деталей. Щодо відео - таймлайн довший, розуміння фізики краще. А з другої сторони - повна нездатність моделі задовільнити в точності запит користувача, неможливість редагування вже готових результатів.

Причин проблеми кілька, і кожна носить фундаментальний характер.
1)Сам алгоритм роботи таких моделей, які навчені шум розтискати в зображення - доволі замкнений на собі. В нього важко втрутитися ззовні, наприклад органічно додавши детальний промпт, що дуже обмежує керованість.
2)Шум при кожній генерації ініціалізовується випадковим чином, що накопичує відмінності в результаті, навіть при умові однакового промпту.
3)Модель вимагає навчання з учителем. Навчальні дані мають бути розмічені, а оскільки ця розмітка як правило коротка(а також через п.1) - в моделі не виникає глибинного розуміння запиту зі всіма мовними нюансами та глибинними контекстами, як це є трансформера, і обмежується вона, як правило, дуже простими асоціяціями, і якщо промпт дійсно важчий і багаторівневий - результати будуть або незрозумілі, або навіть зрозумілі прямо протилежно до запиту.

В результаті цих проблем - пожинаємо купу наслідків, таких як відсутність адаптивності, контролю над деталями, глобального контексту, і повної нездатності до розширення модальностей. Як наслідок, настав тупік, який перекреслює надії ще річної давності, що скоро будемо генерувати собі фільми по бажанню.

BY Амбасадор матричного множення


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/superalignmentUA/5

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

"The result is on this photo: fiery 'greetings' to the invaders," the Security Service of Ukraine wrote alongside a photo showing several military vehicles among plumes of black smoke. The Securities and Exchange Board of India (Sebi) had carried out a similar exercise in 2017 in a matter related to circulation of messages through WhatsApp. "And that set off kind of a battle royale for control of the platform that Durov eventually lost," said Nathalie Maréchal of the Washington advocacy group Ranking Digital Rights. WhatsApp, a rival messaging platform, introduced some measures to counter disinformation when Covid-19 was first sweeping the world. Either way, Durov says that he withdrew his resignation but that he was ousted from his company anyway. Subsequently, control of the company was reportedly handed to oligarchs Alisher Usmanov and Igor Sechin, both allegedly close associates of Russian leader Vladimir Putin.
from us


Telegram Амбасадор матричного множення
FROM American