Telegram Group & Telegram Channel
Mistral выпустили две новые 7B модели

MathΣtral - тюн Mistral 7B, ориентированный на математику и технические дисциплины. На бенчах заметно лучше конкурентов среди открытых математических LLM, но до закрытых моделей всё ещё далеко - специализированные на математике варианты Gemini 1.5 Pro на MATH выдают за 90%.

Создали модель в коллаборации с Project Numina, победителями недавнего AIMO Progress Prize, где модели соревновались в решении задач с международной математической олимпиады (IMO). На том соревновании первые 4 места заняли тюны DeepSeek Math 7B, видимо, Mistral захотели своего конкурента.

Codestral Mamba - модель для кода, основанная на архитектуре Mamba V2, первый не трансформер который натренили в Mistral.

Результаты неплохие, но результатами бенчей слегка манипулируют - сравнивают с довольно старыми моделями, а с сильными конкурентами, вроде Llama 3 8B и DeepSeek Coder V2 Lite - нет. Результат Llama 3 8B на HumanEval выше чем у других моделей с которыми сравнивают Codestral. А DeepSeek Coder V2 Lite на HumanEval обгоняет не только Codestral Mamba, но и Codestral 22B.

Mamba, в теории, обещает "линейный" инференс с "бесконечным контекстом. Конкурентов трансформерам всегда интересно видеть, но я пока что не видел нормальных тестов контекста более чем 16к токенов, так что отношусь к архитектуре скептически. Если хотите, могу написать про неё поподробнее.

@ai_newz
89👍50🔥23❤‍🔥1



group-telegram.com/ai_newz/3009
Create:
Last Update:

Mistral выпустили две новые 7B модели

MathΣtral - тюн Mistral 7B, ориентированный на математику и технические дисциплины. На бенчах заметно лучше конкурентов среди открытых математических LLM, но до закрытых моделей всё ещё далеко - специализированные на математике варианты Gemini 1.5 Pro на MATH выдают за 90%.

Создали модель в коллаборации с Project Numina, победителями недавнего AIMO Progress Prize, где модели соревновались в решении задач с международной математической олимпиады (IMO). На том соревновании первые 4 места заняли тюны DeepSeek Math 7B, видимо, Mistral захотели своего конкурента.

Codestral Mamba - модель для кода, основанная на архитектуре Mamba V2, первый не трансформер который натренили в Mistral.

Результаты неплохие, но результатами бенчей слегка манипулируют - сравнивают с довольно старыми моделями, а с сильными конкурентами, вроде Llama 3 8B и DeepSeek Coder V2 Lite - нет. Результат Llama 3 8B на HumanEval выше чем у других моделей с которыми сравнивают Codestral. А DeepSeek Coder V2 Lite на HumanEval обгоняет не только Codestral Mamba, но и Codestral 22B.

Mamba, в теории, обещает "линейный" инференс с "бесконечным контекстом. Конкурентов трансформерам всегда интересно видеть, но я пока что не видел нормальных тестов контекста более чем 16к токенов, так что отношусь к архитектуре скептически. Если хотите, могу написать про неё поподробнее.

@ai_newz

BY эйай ньюз





Share with your friend now:
group-telegram.com/ai_newz/3009

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

On December 23rd, 2020, Pavel Durov posted to his channel that the company would need to start generating revenue. In early 2021, he added that any advertising on the platform would not use user data for targeting, and that it would be focused on “large one-to-many channels.” He pledged that ads would be “non-intrusive” and that most users would simply not notice any change. Russian President Vladimir Putin launched Russia's invasion of Ukraine in the early-morning hours of February 24, targeting several key cities with military strikes. Multiple pro-Kremlin media figures circulated the post's false claims, including prominent Russian journalist Vladimir Soloviev and the state-controlled Russian outlet RT, according to the DFR Lab's report. Channels are not fully encrypted, end-to-end. All communications on a Telegram channel can be seen by anyone on the channel and are also visible to Telegram. Telegram may be asked by a government to hand over the communications from a channel. Telegram has a history of standing up to Russian government requests for data, but how comfortable you are relying on that history to predict future behavior is up to you. Because Telegram has this data, it may also be stolen by hackers or leaked by an internal employee. READ MORE
from vn


Telegram эйай ньюз
FROM American