Как и предупреждал, продолжаю ударную дозу ностальгии; наверное, не нужно возвращать мой 2023-й, но вот что я тогда писал.
Discrete Latent Spaces: Generative AI II
Вариационные автокодировщики, общая конструкция которых была описана в предыдущем посте, долгое время оставались чем-то вроде сильного концептуально интересного бейзлайна, но проигрывали всем кому ни попадя, особенно, конечно, GAN'ам (то есть обычно AAE, adversarial autoencoders).
Это изменилось, когда латентное пространство VAE сделали дискретным: ввели некий "словарь" латентных кодов, который тоже обучается вместе с кодировщиком и декодировщиком. В этом посте как раз про идею дискретных пространств и VQ-VAE (vector quantized VAE) я и рассказываю. Кстати, если кто-то знает, почему так, то есть почему вдруг именно дискретные пространства стали ключом к успеху (а может, не они, просто так совпало с чем-то другим?), напишите — для меня это всё ещё загадка.
How DALL-E Creates AI-Generated Art: Generative AI III
А в следующем посте мы совмещаем вариационный автокодировщик с дискретным пространством и делаем логичный следующий шаг: приспособить трансформер писать код в этом пространстве, чтобы можно было из текста (или чего угодно другого) порождать картинку.
Так получилась модель DALL-E, с которой, можно сказать, началась история по-настоящему хорошо работающих text-to-image моделей. Она прогремела в 2021-м, но уже через год её оставили позади диффузионные модели. Но это уже совсем другая история...
#longreads #synthesisai
Discrete Latent Spaces: Generative AI II
Вариационные автокодировщики, общая конструкция которых была описана в предыдущем посте, долгое время оставались чем-то вроде сильного концептуально интересного бейзлайна, но проигрывали всем кому ни попадя, особенно, конечно, GAN'ам (то есть обычно AAE, adversarial autoencoders).
Это изменилось, когда латентное пространство VAE сделали дискретным: ввели некий "словарь" латентных кодов, который тоже обучается вместе с кодировщиком и декодировщиком. В этом посте как раз про идею дискретных пространств и VQ-VAE (vector quantized VAE) я и рассказываю. Кстати, если кто-то знает, почему так, то есть почему вдруг именно дискретные пространства стали ключом к успеху (а может, не они, просто так совпало с чем-то другим?), напишите — для меня это всё ещё загадка.
How DALL-E Creates AI-Generated Art: Generative AI III
А в следующем посте мы совмещаем вариационный автокодировщик с дискретным пространством и делаем логичный следующий шаг: приспособить трансформер писать код в этом пространстве, чтобы можно было из текста (или чего угодно другого) порождать картинку.
Так получилась модель DALL-E, с которой, можно сказать, началась история по-настоящему хорошо работающих text-to-image моделей. Она прогремела в 2021-м, но уже через год её оставили позади диффузионные модели. Но это уже совсем другая история...
#longreads #synthesisai
🔥6❤2
group-telegram.com/sinecor/626
Create:
Last Update:
Last Update:
Как и предупреждал, продолжаю ударную дозу ностальгии; наверное, не нужно возвращать мой 2023-й, но вот что я тогда писал.
Discrete Latent Spaces: Generative AI II
Вариационные автокодировщики, общая конструкция которых была описана в предыдущем посте, долгое время оставались чем-то вроде сильного концептуально интересного бейзлайна, но проигрывали всем кому ни попадя, особенно, конечно, GAN'ам (то есть обычно AAE, adversarial autoencoders).
Это изменилось, когда латентное пространство VAE сделали дискретным: ввели некий "словарь" латентных кодов, который тоже обучается вместе с кодировщиком и декодировщиком. В этом посте как раз про идею дискретных пространств и VQ-VAE (vector quantized VAE) я и рассказываю. Кстати, если кто-то знает, почему так, то есть почему вдруг именно дискретные пространства стали ключом к успеху (а может, не они, просто так совпало с чем-то другим?), напишите — для меня это всё ещё загадка.
How DALL-E Creates AI-Generated Art: Generative AI III
А в следующем посте мы совмещаем вариационный автокодировщик с дискретным пространством и делаем логичный следующий шаг: приспособить трансформер писать код в этом пространстве, чтобы можно было из текста (или чего угодно другого) порождать картинку.
Так получилась модель DALL-E, с которой, можно сказать, началась история по-настоящему хорошо работающих text-to-image моделей. Она прогремела в 2021-м, но уже через год её оставили позади диффузионные модели. Но это уже совсем другая история...
#longreads #synthesisai
Discrete Latent Spaces: Generative AI II
Вариационные автокодировщики, общая конструкция которых была описана в предыдущем посте, долгое время оставались чем-то вроде сильного концептуально интересного бейзлайна, но проигрывали всем кому ни попадя, особенно, конечно, GAN'ам (то есть обычно AAE, adversarial autoencoders).
Это изменилось, когда латентное пространство VAE сделали дискретным: ввели некий "словарь" латентных кодов, который тоже обучается вместе с кодировщиком и декодировщиком. В этом посте как раз про идею дискретных пространств и VQ-VAE (vector quantized VAE) я и рассказываю. Кстати, если кто-то знает, почему так, то есть почему вдруг именно дискретные пространства стали ключом к успеху (а может, не они, просто так совпало с чем-то другим?), напишите — для меня это всё ещё загадка.
How DALL-E Creates AI-Generated Art: Generative AI III
А в следующем посте мы совмещаем вариационный автокодировщик с дискретным пространством и делаем логичный следующий шаг: приспособить трансформер писать код в этом пространстве, чтобы можно было из текста (или чего угодно другого) порождать картинку.
Так получилась модель DALL-E, с которой, можно сказать, началась история по-настоящему хорошо работающих text-to-image моделей. Она прогремела в 2021-м, но уже через год её оставили позади диффузионные модели. Но это уже совсем другая история...
#longreads #synthesisai
BY Sinекура


Share with your friend now:
group-telegram.com/sinecor/626
