Амбасадор матричного множення
⚡️Трамп оголосив про створення нової компанії Stargate, яка буде спільним проектом корпорацій OpenAI, Softbank і Oracle, в яку уряд США інвестує 500 мільярдів доларів. Ціллю є побудова інфраструктури для ШІ в Сполучених штатах. А також досягнення загального…
OpenAI найбільш ракова компанія зі всіх, які ведуть гонку ШІ. Вони не публікують досліджень, не діляться технологіями, вже відносно давно показово повністю закрили відділ безпеки ШІ і питань елайнменту.
Хоч формально це об'єднання кількох компаній - на практиці всі крім OpenAI там відіграють допоміжну роль. Як от nvidia в питанні з відеокартами чи банки в фінансовому плані.
Зверху контролю теж не буде, бо як ми чули на вчорашній пресконференції - для Трампа це питання існує на рівні "будемо лікувати всі раки за 10 хвилин і продовжимо тривалість життя".
Тому тепер СЕО OpenAI, Сем Альтман, перверт з ненавистю до живого і диктаторськими замашками отримує повну особисту владу на всіма процесами розвитку ШІ, не будучи скованим навіть тими формальними обмеженнями які були на ньому в OpenAI, і до того ж безлімітний доступ до всіх ресурсів держави США: електростанцій, нових датацентрів, фінансових, і так далі в ексклюзивне користування.
Тому ситуація вже така безнадійна, що в питання безпеки ШІ остання надія просто на природні процеси
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Scale baby, scale
У попередньому пості ми оглянули методику Chain-of-Thought, яка "витягує" навички мислення з мовних моделей. Але Chain-of-Thought існувала як мінімум 2 роки з моменту виходу ChatGPT як техніка промптингу (написання інструкцій для моделей), а широко відомою вона стала лише з появою моделей о1.
Чому це так, як це пов'язано з масштабуванням (скейлінгом) моделей і останніми заявами Трампа, розберемо в новій статті.
У попередньому пості ми оглянули методику Chain-of-Thought, яка "витягує" навички мислення з мовних моделей. Але Chain-of-Thought існувала як мінімум 2 роки з моменту виходу ChatGPT як техніка промптингу (написання інструкцій для моделей), а широко відомою вона стала лише з появою моделей о1.
Чому це так, як це пов'язано з масштабуванням (скейлінгом) моделей і останніми заявами Трампа, розберемо в новій статті.
@superalignmentUA’s Substack
Scale baby, scale
Про test-time compute scaling та принцип роботи "думаючих" моделей на кшталт o1
This media is not supported in your browser
VIEW IN TELEGRAM
Що думаєте з цього приводу?
Будуть доступні дві версії - o3-mini і o3-mini-high. Другу не плутати з звичайною o3, яку теж анонсовували в той же час, її не буде. o3-mini-high це різновидність саме mini моделі.
Мені ше доступ не дали, тому поки не тестив і особисті враження не скажу, але глянув бігло на бенчмарки, і скажу наступне: якщо у вас була підписка за 20$, і ви мали доступ до o1 - то особливої різниці ви не відчуєте. Різниці або зовсім немає, або вона дуже мінорна, або взагалі навіть незначне погіршення, і це у порівнянні з сильнішою o3-mini-high. Помітні покращення є мабуть тільки в фронтир математиці, але якщо ви не на магістратурі матфаку, як я, то наврядчи вам це так потрібно. Якщо ви мали o1 pro за 200$ - то там взагалі жодних покращень.
А от що дійсно важливо - так це те, що нова модель буде доступна безкоштовним юзерам. І от якщо у вас не було платної підписки, і максимум що було доступно - це gpt4o, і то з лімітом, то тут буде відчутна прям епохальна різниця, на порядок. Так що апдейт на цей раз для роботяг.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Це прям їхній фірмовий почерк перебивати анонси конкурентів за пару днів до їх виходу своїми презентаціями.
По сабжу пост пізніше напишу, зараз на екзамені.
Please open Telegram to view this post
VIEW IN TELEGRAM
Амбасадор матричного множення
Ітак Deep Research. Анонсована вчора вночі.
Позиціонується авторами як проривний інструмент генерації досліджень рівня доктора наук. Тобто даєте йому короткий промпт, він задає уточнюючі питання, і лізе в інтернет шукати і компілювати інформацію, обробляючи сотні сайтів і документів. Короче продвінутий поісковик на, оскільки базова модель о3, з файнтнінгом RL на роботу з пошуком і файлами.
Особливо навіть немає чого розказувати, всі ці технології вже були раніше, тому як я і підозрював, анонс зроблений чисто щоб перебити наступаючі анонси моделей від гугла, як це у них прийнято)
З цікавого, на безчмарку Humanity's Last Exam (на скріншоті) набирає 26.6% (при попередньому рекорді 13%), але знову ж таки, це в основному через те що сама по собі о3 сильніша всього решта, а не через корисність технолоії deep research.
Але тим не менше, реліз доволі цінний, бо дає нам доступ до самої о3, анонсованої ще в грудні. Для pro підписки доступна вже з лімітом 100 повідомлень в місяць, для plus буде доступна згодом, з лімітом 10 в місяць.
Позиціонується авторами як проривний інструмент генерації досліджень рівня доктора наук. Тобто даєте йому короткий промпт, він задає уточнюючі питання, і лізе в інтернет шукати і компілювати інформацію, обробляючи сотні сайтів і документів. Короче продвінутий поісковик на, оскільки базова модель о3, з файнтнінгом RL на роботу з пошуком і файлами.
Особливо навіть немає чого розказувати, всі ці технології вже були раніше, тому як я і підозрював, анонс зроблений чисто щоб перебити наступаючі анонси моделей від гугла, як це у них прийнято)
З цікавого, на безчмарку Humanity's Last Exam (на скріншоті) набирає 26.6% (при попередньому рекорді 13%), але знову ж таки, це в основному через те що сама по собі о3 сильніша всього решта, а не через корисність технолоії deep research.
Але тим не менше, реліз доволі цінний, бо дає нам доступ до самої о3, анонсованої ще в грудні. Для pro підписки доступна вже з лімітом 100 повідомлень в місяць, для plus буде доступна згодом, з лімітом 10 в місяць.
Крім того, модель опенсорсна, тому якщо у вас якесь зовсім питання на грані криміналу, то краще спочатку качайте модель на комп'ютер і тільки тоді локально вже питайте.
До прикладу на скрінах чат діпсік і чатгпт відповідає на одне і те саме питання.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Амбасадор матричного множення
В коментарях питали як запустити модель локально на комп'ютері/власному сервері. Думав просто відповісти, але напишу пост, раптом ще комусь треба.
Ось гітхаб діпсіка. Полазьте там по сторінці, виберіть модель яка вам підходить, і там по посиланню переходьте Hugging Face моделі, куда завантажують ваги. До прикладу ось посилання на R1, який дистильований в ламу на 8 мільярдів параметрів. Далі клонуєте репозиторій, тим самим завантажуючи ваги моделі локально. Ну і встановлюєте, конкретний гайд буде в документі README, ну по класиці.
Це найбільш повний і низькорівневий доступ до моделі, який тільки можна отримати. Ну і відповідно вимагає більше знань, бо можуть бути трудності в установці. Я діпсік собі не ставив, але рініше ставив Llama 3.1 локально, то трохи довелось помучитись, так сходу не запускалась.
Є також більш простий і високорівнений спосіб. Ставите софт Ollama, і там всередині програми вже вибираєте модель. З плюсів, програма сама завантажить ваги і все запустить, з мінусів - менший контроль над моделлю. В плані якогось дослідження з нею не попрацюєш. Але якщо треба тільки анонімність і приватність діалогів - то цього буде більш ніж достатньо.
Ось гітхаб діпсіка. Полазьте там по сторінці, виберіть модель яка вам підходить, і там по посиланню переходьте Hugging Face моделі, куда завантажують ваги. До прикладу ось посилання на R1, який дистильований в ламу на 8 мільярдів параметрів. Далі клонуєте репозиторій, тим самим завантажуючи ваги моделі локально. Ну і встановлюєте, конкретний гайд буде в документі README, ну по класиці.
Це найбільш повний і низькорівневий доступ до моделі, який тільки можна отримати. Ну і відповідно вимагає більше знань, бо можуть бути трудності в установці. Я діпсік собі не ставив, але рініше ставив Llama 3.1 локально, то трохи довелось помучитись, так сходу не запускалась.
Є також більш простий і високорівнений спосіб. Ставите софт Ollama, і там всередині програми вже вибираєте модель. З плюсів, програма сама завантажить ваги і все запустить, з мінусів - менший контроль над моделлю. В плані якогось дослідження з нею не попрацюєш. Але якщо треба тільки анонімність і приватність діалогів - то цього буде більш ніж достатньо.
This media is not supported in your browser
VIEW IN TELEGRAM
Можливо ви знаєте Іллю Суцкевера. Раніше головний вчений та інноватор в OpenAI, один з істоків сучасної хвилі ШІ-буму. Приблизну рік тому розсварився з OpenAI, пішов з компанії і заснував власну SSI (Safe Superintelligence). Я ще тоді здивувався, мовляв чому він, при умові що на ринку страшний дефіцит людей, грошей, відеокарт і енергії створює ще одну власну компанію з нуля, а не доєднується до вже готової лабораторії, типу антропіка, мети чи Ілона Маска.
І єдиним поясненням, до якого я дійшов було шось типу "швидше за все у нього є ідеї чи технології, які принципово поміняють правила гри, і виведуть покращення моделей за рамки стандартного кількісного скейлінгу датасет/комп'ют/кількість параметрів, ну і відповідно цим нема сенсу ділитися з іншими лабораторіями, бо з таким підходом він і сам легко знайде фінансування". Після того за кілька місяців вийшла OpenAI o1, і я вирішив шо це якраз і є ця нова технологія, над якою почав працювати Суцкевер, і успішно про цю тему забув.
Ну і власне, до новин:
1)SSI Суцкевера можуть отримати 20 мільярдів інвестицій в свою компанію, пишуть в Reuters. Враховуючи, що компанія не випускає жодних комерційних продуктів, а займається виключно дослідженнями - це дуже сміливий крок і великі гроші, вкладення по суті альтруїстичні. Тобто щоб їх залучити, Суцкевер мав показати щось прям едаке, якісно нову технологію чи підхід.
Звичайно, можна скинути на то, що це дефолтний обман інвесторів, які ні в чому не розбираються, і тут є друга новина.
2)Сем Альтман вийшов з заявою, що прогрес в області ШІ з лютого 2025 по лютий 2027 буде навіть більший, ніж прогрес з лютого 2023 до лютого 2025. Щоб ви розуміли сміливість і амбіційність цієї тези: останні два роки - це прогрес від ChatGPT на GPT 3 до Deep Research. Це прогрес який можна виміряти тільки в астрономічних одиницях. І Сем каже що це нічого, порівняно з тим що нас чекає. "Ми знаємо як покращити ці моделі дуже дуже сильно".
Шанс що дві різні лабораторії одночасно почали блефувати вже мешний, тому так виглядає, що це перші дзвіночки-предвісники абсолютно якісно нових підходів і технологій, і нова Post-training парадигма тут ще і близько не остання.
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Ціллю було заманити максимально широкого і невтянутого в тему користувача. Результат на відео. По моєму повна лажа, яка не окупиться ніколи в житті.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Про ціну DeepSeek
Обіцяв пост про це в день виходу, але тема виявилась доволі слизькою і неоднозначною. З однієї сторони безпрецедентно низька ціна, ще й в умовах ембарго на поставок відеокарт з США в Китай, з іншої сторони - було неясно, наскільки китайська лабораторія чесна в плані своїх звітностей, і чи не завищує вона свої результати. Короче треба було покопати, що я і зробив. Нижче наведу фактори, завдяки яким китайцям вдалося удешевити тренування і інференс моделей, але я утримаюсь від аналізу, наскільки сильно кожен з факторів повпливав на кінцевий результат.
1)Архітектура MoE (mixture of experts) - ідея оптимізації, при якій під час тренування і інференсу моделі задіюється не всі параметри, а лише частина, один експерт, який відповідає за конкретну тему. Це схоже на біологічний мозок, де різні відділи відповідають за різні сфери діяльності. В цілому ця архітектура вже застосовувалася раніше, зокрема і у GPT4o, але китайці розробили свою версію, DeepseekMoE, в якому покращена сегментація та ізоляція експертів, що робить технологію ще ефективнішою, через те що вирішуються проблеми, зокрема з тим, коли експерти не мають чіткої спеціалізації, чи навпаки кілька експертів мають +/- одні знання. Ну і відповідно самих експертів більше. В середньому цей метод зменшує кількість обчислень приблизну на 30%.
2)Архітектура MLA (multi-head latent attention) - покращена версія звичайного механізму уваги (MHA), який взагалі є центральним механізмом в трансформерів, тим не менше, саме він завжди був слабим місцем в плані обчислень. Механізм уваги працює за принципом, де вектор запиту q кожного токена порівнюється з векторами ключів k усіх попередніх токенів. Це дозволяє визначити, наскільки кожен токен контекстуально пов'язаний з іншими в послідовності. Через це, кількість необхідних обчислень зростає квадратично зі збільшенням довжини контексту, якщо точно, то на (x^2)/2. Тому простір для оптимізації тут великий, за що і взялися в DeepSeek. MLA спочатку стискає значення q, k, v в латентні вектори, і вже з ними проводить обчислення. В результаті кеш під час інференсу зменшується аж на 93.3% (принаймні так було у DeepSeek v2, де вперше його застосували), причому без втрат для якості.
3)Є така бібліотека NCCL (NVIDIA Collective Communications Library). Це стандартна бібліотека NVIDIA для побудови кластерів з відеокарт, для можливості вести паралельні обчислення, простіше кажучи, щоб багато відеокарт працювала як одне ціле. Так от, інженери DeepSeek переписали на дуже фундаментальному рівні (на рівні аналога ассеблера) ці протоколи, в результаті чого отримали краще результати і менші втрати на взаємодії.
Обіцяв пост про це в день виходу, але тема виявилась доволі слизькою і неоднозначною. З однієї сторони безпрецедентно низька ціна, ще й в умовах ембарго на поставок відеокарт з США в Китай, з іншої сторони - було неясно, наскільки китайська лабораторія чесна в плані своїх звітностей, і чи не завищує вона свої результати. Короче треба було покопати, що я і зробив. Нижче наведу фактори, завдяки яким китайцям вдалося удешевити тренування і інференс моделей, але я утримаюсь від аналізу, наскільки сильно кожен з факторів повпливав на кінцевий результат.
1)Архітектура MoE (mixture of experts) - ідея оптимізації, при якій під час тренування і інференсу моделі задіюється не всі параметри, а лише частина, один експерт, який відповідає за конкретну тему. Це схоже на біологічний мозок, де різні відділи відповідають за різні сфери діяльності. В цілому ця архітектура вже застосовувалася раніше, зокрема і у GPT4o, але китайці розробили свою версію, DeepseekMoE, в якому покращена сегментація та ізоляція експертів, що робить технологію ще ефективнішою, через те що вирішуються проблеми, зокрема з тим, коли експерти не мають чіткої спеціалізації, чи навпаки кілька експертів мають +/- одні знання. Ну і відповідно самих експертів більше. В середньому цей метод зменшує кількість обчислень приблизну на 30%.
2)Архітектура MLA (multi-head latent attention) - покращена версія звичайного механізму уваги (MHA), який взагалі є центральним механізмом в трансформерів, тим не менше, саме він завжди був слабим місцем в плані обчислень. Механізм уваги працює за принципом, де вектор запиту q кожного токена порівнюється з векторами ключів k усіх попередніх токенів. Це дозволяє визначити, наскільки кожен токен контекстуально пов'язаний з іншими в послідовності. Через це, кількість необхідних обчислень зростає квадратично зі збільшенням довжини контексту, якщо точно, то на (x^2)/2. Тому простір для оптимізації тут великий, за що і взялися в DeepSeek. MLA спочатку стискає значення q, k, v в латентні вектори, і вже з ними проводить обчислення. В результаті кеш під час інференсу зменшується аж на 93.3% (принаймні так було у DeepSeek v2, де вперше його застосували), причому без втрат для якості.
3)Є така бібліотека NCCL (NVIDIA Collective Communications Library). Це стандартна бібліотека NVIDIA для побудови кластерів з відеокарт, для можливості вести паралельні обчислення, простіше кажучи, щоб багато відеокарт працювала як одне ціле. Так от, інженери DeepSeek переписали на дуже фундаментальному рівні (на рівні аналога ассеблера) ці протоколи, в результаті чого отримали краще результати і менші втрати на взаємодії.
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
1)Вже завтра Ілон Маск представить (і скоріш за все зразу і релізне) Grok 3. По словам Ілона модель "лякаюче розумна", і краще всього того, що доступно на ринку зараз. Це буде друга базова модель нового покоління (після гуглівської Gemini 2.0 pro, яка вийшла невдалою, і про яку напишу пост згодом), її претрейн був найбільшим трейнінг раном в історії, на який пішло обчислень в 10 раз більше, ніж при тренуванні Grok 2, в 6 раз більше, ніж при трейні Llama 3.1 405B, і в 70 раз більше, ніж у DeepSeek 3. Поверх неї була натренована reasoning модель, і це буде перша мисляча модель, натренована поверх базової нового покоління. Навіть OpenAI o3 була натренована поверх GPT4o, тобто базової моделі попереднього покоління. І хоча це відкрите питання, наскільки якість базової моделі впливає на якість reasoning складової, зокрема приклад DeepSeek нам показує, що можливо цей вплив переоцінений, але тим не менше, певний історичний чекпоінт тут є. Крім того, Ілон сказав, що Grok був натренований на великій кількості синтетичних даних. У мене давно був скепсис і загальна невіра в синтетичні дані як рішення, про це поста не писав, але на стрімі з Маргіналом згадував, тому вже готуюсь завалити єбало, якщо виявиться що був неправий😁. Короче ждемс.
2)Це ще не офіційно, але вже гуляє інформація, що Anthropic теж ближчим часом релізнуть нову модель. Це буде комбінована модель, де не буде окремо reasoning і базової компоненти, це вже повноцінна імплементація нової парадигми в загальну модель, просто під час легких запитів і питань reasoning буде короткий, на пару секунд, а під час комплексних і важких задач як і зараз, короче модель сама розумітиме скільки їй треба думати. Пишуть, що теж буде краща всіх доступних зараз, можливо обучена поверх так і не вишедшої минулого року claude 3.5 opus, хоча маю сумніви. Швидше всього цей напрям в Anthropic закинули через недостатню кількість обчислювальних можливостей. Взагалі Anthropic останнім часом переживає великі трудності, їм явно не хватає ресурсів, тому успіх цієї моделі можливо дасть можливість повернутися в гонку передових моделей. А надія на це є, бо Даріо Амодей (як і я😉) був фанатом RL навчання поверх бахових моделей, до того як це стало мейнстрімом. Тому можливо придумають нові цікаві рішення, яких раніше не було. Ми тут, як ви могли помітити, максимально симпатизуємо саме Anthropic, тому сподіваємось що в лабораторії буде все добре.
Please open Telegram to view this post
VIEW IN TELEGRAM