Telegram Group & Telegram Channel
Forwarded from Machinelearning
🌟Zamba2-mini: компактная ΠΈ ΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΡ‚Π΅Π»ΡŒΠ½Π°Ρ модСль с Π³ΠΈΠ±Ρ€ΠΈΠ΄Π½ΠΎΠΉ Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€ΠΎΠΉ.

Zamba2-mini - гибридная модСль c 1.2B ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ², построСнная ΠΈΠ· Π±Π»ΠΎΠΊΠΎΠ² state-space Mamba (SSM) ΠΈ transformer.

МодСль создана Π½Π° ΠΎΠ±Ρ‰Π΅ΠΉ Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€Π΅ Zamba, Π½ΠΎ отличаСтся ΠΎΡ‚ большСй ΠΌΠΎΠ΄Π΅Π»ΠΈ 2.7B трСмя особСнностями:

πŸŸ’Π΄ΠΎΠ±Π°Π²Π»Π΅Π½Ρ‹ rotary position embeddings;

πŸŸ’Ρ‡Π΅Ρ€Π΅Π΄ΡƒΡŽΡ‰ΠΈΠ΅ΡΡ трансформСрныС Π±Π»ΠΎΠΊΠΈ Π·Π°ΠΌΠ΅Π½Π΅Π½Ρ‹ ΠΎΠ΄Π½ΠΈΠΌ ΠΎΠ±Ρ‰ΠΈΠΌ;

πŸŸ’Π²ΠΌΠ΅ΡΡ‚ΠΎ LoRA Π½Π° Π±Π»ΠΎΠΊΠ΅ MLP Π΄ΠΎΠ±Π°Π²Π»Π΅Π½Ρ‹ ΠΏΡ€ΠΎΠ΅ΠΊΡ‚ΠΎΡ€Ρ‹ LoRA Π² Π±Π»ΠΎΠΊΠΈ внимания.

Zamba2-mini ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ Ρ‚ΠΎΠΊΠ΅Π½ΠΈΠ·Π°Ρ‚ΠΎΡ€ Mistral v0.1 ΠΈ Π±Ρ‹Π»Π° ΠΏΡ€Π΅Π΄Π²Π°Ρ€ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ ΠΎΠ±ΡƒΡ‡Π΅Π½Π° Π½Π° 3 Ρ‚Ρ€ΠΈΠ»Π»ΠΈΠΎΠ½Π°Ρ… Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ² тСкстовых Π΄Π°Π½Π½Ρ‹Ρ… ΠΈ ΠΊΠΎΠ΄Π΅ Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹Ρ… языков программирования, ΠΏΠΎΠ»ΡƒΡ‡Π΅Π½Π½Ρ‹Ρ… ΠΈΠ· ΠΎΡ‚ΠΊΡ€Ρ‹Ρ‚Ρ‹Ρ… Π²Π΅Π±-Π½Π°Π±ΠΎΡ€ΠΎΠ² Π΄Π°Π½Π½Ρ‹Ρ…, ΠΊ ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΌ Π±Ρ‹Π» Π΄ΠΎΠ±Π°Π²Π»Π΅Π½ собствСнный ΠΊΠΎΡ€ΠΏΡƒ Π΄Π°Π½Π½Ρ‹Ρ… Zyda.

ВпослСдствии, Π½Π° Π²Ρ‚ΠΎΡ€ΠΎΠΌ этапС Zamba2-mini Π±Ρ‹Π»Π° ΠΏΠΎΠ΄Π²Π΅Ρ€Π³Π½ΡƒΡ‚Π° Π΄ΠΎΠΏΠΎΠ»Π½ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΠΉ Ρ„Π°Π·Π΅ агрСссивного сниТСния скорости обучСния Π½Π° смСси ΠΈΠ· 100B высококачСствСнных Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ².

Zamba2-mini ΠΏΠΎΠΊΠ°Π·Π°Π»Π° Π² тСстах Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρ‹, сопоставимыС с модСлями с ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€Π°ΠΌΠΈ <2B ΠΈ ΠΌΠΎΠΆΠ΅Ρ‚ ΠΊΠΎΠ½ΠΊΡƒΡ€ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ с Π½Π΅ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΌΠΈ LLM большСго Ρ€Π°Π·ΠΌΠ΅Ρ€Π°.

Благодаря ΡƒΠ½ΠΈΠΊΠ°Π»ΡŒΠ½ΠΎΠΉ Π³ΠΈΠ±Ρ€ΠΈΠ΄Π½ΠΎΠΉ Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€Π΅ SSM Zamba2-mini дСмонстрируСт Π½ΠΈΠ·ΠΊΠΈΠ΅ Π·Π°Π΄Π΅Ρ€ΠΆΠΊΠΈ логичСского Π²Ρ‹Π²ΠΎΠ΄Π° ΠΈ Π±Ρ‹ΡΡ‚Ρ€ΡƒΡŽ Π³Π΅Π½Π΅Ρ€Π°Ρ†ΠΈΡŽ ΠΏΡ€ΠΈ Π·Π½Π°Ρ‡ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ мСньшСм ΠΏΠΎΡ‚Ρ€Π΅Π±Π»Π΅Π½ΠΈΠΈ VRAM, Ρ‡Π΅ΠΌ Π΄Ρ€ΡƒΠ³ΠΈΠ΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ Ρ‚Π°ΠΊΠΎΠΉ ΠΆΠ΅ плотности ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ² Π½Π° основС трансформСров.
Π’Π°ΠΊΠΈΠ΅ характСристики Π΄Π΅Π»Π°Π΅Ρ‚ Π΅Π΅ идСальной ΡƒΠ½ΠΈΠ²Π΅Ρ€ΡΠ°Π»ΡŒΠ½ΠΎΠΉ модСлью для ΠΏΡ€ΠΈΠ»ΠΎΠΆΠ΅Π½ΠΈΠΉ Π½Π° устройствах.

⚠️ ΠŸΡ€ΠΈΠΌΠ΅Ρ‡Π°Π½ΠΈΠ΅: Zamba2-mini Π΅Ρ‰Π΅ Π½Π΅ ΠΏΠΎΠ»Π½ΠΎΡΡ‚ΡŒΡŽ совмСстима со всСми Ρ„Ρ€Π΅ΠΉΠΌΠ²ΠΎΡ€ΠΊΠ°ΠΌΠΈ ΠΈ инструмСнтами HuggingFace.

Π Π΅Π°Π»ΠΈΠ·Π°Ρ†ΠΈΡŽ Zamba2-1.2B для Pytorch ΠΌΠΎΠΆΠ½ΠΎ Π½Π°ΠΉΡ‚ΠΈ здСсь.

β–ΆοΈΠ›ΠΎΠΊΠ°Π»ΡŒΠ½Π°Ρ установка ΠΈ инфСрСнс:

# Clone repositiry
git clone https://github.com/Zyphra/transformers_zamba2.git

#Install requirments:
cd transformers_zamba2
pip install -e .
pip install accelerate

#Inference
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

tokenizer = AutoTokenizer.from_pretrained("Zyphra/Zamba2-1.2B")
model = AutoModelForCausalLM.from_pretrained("Zyphra/Zamba2-1.2B", device_map="cuda", torch_dtype=torch.bfloat16)

input_text = "A funny prompt would be "
input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")

outputs = model.generate(**input_ids, max_new_tokens=100)
print(tokenizer.decode(outputs[0]))


▢️Для запускС Π½Π° CPU - only, ΡƒΠΊΠ°ΠΆΠΈΡ‚Π΅ use_mamba_kernels=False ΠΏΡ€ΠΈ Π·Π°Π³Ρ€ΡƒΠ·ΠΊΠ΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ AutoModelForCausalLM.from_pretrained.


πŸ“ŒΠ›ΠΈΡ†Π΅Π½Π·ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅ : Apache 2.0 License.


πŸŸ‘Π‘Ρ‚Ρ€Π°Π½ΠΈΡ†Π° ΠΏΡ€ΠΎΠ΅ΠΊΡ‚Π°
🟑Arxiv
🟑МодСль


@ai_machinelearning_big_data

#AI #SLM #Mamba #ML #Zamba2mini
Please open Telegram to view this post
VIEW IN TELEGRAM
πŸ‘5❀1πŸ”₯1



group-telegram.com/bigdatai/787
Create:
Last Update:

🌟Zamba2-mini: компактная ΠΈ ΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΡ‚Π΅Π»ΡŒΠ½Π°Ρ модСль с Π³ΠΈΠ±Ρ€ΠΈΠ΄Π½ΠΎΠΉ Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€ΠΎΠΉ.

Zamba2-mini - гибридная модСль c 1.2B ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ², построСнная ΠΈΠ· Π±Π»ΠΎΠΊΠΎΠ² state-space Mamba (SSM) ΠΈ transformer.

МодСль создана Π½Π° ΠΎΠ±Ρ‰Π΅ΠΉ Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€Π΅ Zamba, Π½ΠΎ отличаСтся ΠΎΡ‚ большСй ΠΌΠΎΠ΄Π΅Π»ΠΈ 2.7B трСмя особСнностями:

πŸŸ’Π΄ΠΎΠ±Π°Π²Π»Π΅Π½Ρ‹ rotary position embeddings;

πŸŸ’Ρ‡Π΅Ρ€Π΅Π΄ΡƒΡŽΡ‰ΠΈΠ΅ΡΡ трансформСрныС Π±Π»ΠΎΠΊΠΈ Π·Π°ΠΌΠ΅Π½Π΅Π½Ρ‹ ΠΎΠ΄Π½ΠΈΠΌ ΠΎΠ±Ρ‰ΠΈΠΌ;

πŸŸ’Π²ΠΌΠ΅ΡΡ‚ΠΎ LoRA Π½Π° Π±Π»ΠΎΠΊΠ΅ MLP Π΄ΠΎΠ±Π°Π²Π»Π΅Π½Ρ‹ ΠΏΡ€ΠΎΠ΅ΠΊΡ‚ΠΎΡ€Ρ‹ LoRA Π² Π±Π»ΠΎΠΊΠΈ внимания.

Zamba2-mini ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ Ρ‚ΠΎΠΊΠ΅Π½ΠΈΠ·Π°Ρ‚ΠΎΡ€ Mistral v0.1 ΠΈ Π±Ρ‹Π»Π° ΠΏΡ€Π΅Π΄Π²Π°Ρ€ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ ΠΎΠ±ΡƒΡ‡Π΅Π½Π° Π½Π° 3 Ρ‚Ρ€ΠΈΠ»Π»ΠΈΠΎΠ½Π°Ρ… Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ² тСкстовых Π΄Π°Π½Π½Ρ‹Ρ… ΠΈ ΠΊΠΎΠ΄Π΅ Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹Ρ… языков программирования, ΠΏΠΎΠ»ΡƒΡ‡Π΅Π½Π½Ρ‹Ρ… ΠΈΠ· ΠΎΡ‚ΠΊΡ€Ρ‹Ρ‚Ρ‹Ρ… Π²Π΅Π±-Π½Π°Π±ΠΎΡ€ΠΎΠ² Π΄Π°Π½Π½Ρ‹Ρ…, ΠΊ ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΌ Π±Ρ‹Π» Π΄ΠΎΠ±Π°Π²Π»Π΅Π½ собствСнный ΠΊΠΎΡ€ΠΏΡƒ Π΄Π°Π½Π½Ρ‹Ρ… Zyda.

ВпослСдствии, Π½Π° Π²Ρ‚ΠΎΡ€ΠΎΠΌ этапС Zamba2-mini Π±Ρ‹Π»Π° ΠΏΠΎΠ΄Π²Π΅Ρ€Π³Π½ΡƒΡ‚Π° Π΄ΠΎΠΏΠΎΠ»Π½ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΠΉ Ρ„Π°Π·Π΅ агрСссивного сниТСния скорости обучСния Π½Π° смСси ΠΈΠ· 100B высококачСствСнных Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ².

Zamba2-mini ΠΏΠΎΠΊΠ°Π·Π°Π»Π° Π² тСстах Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρ‹, сопоставимыС с модСлями с ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€Π°ΠΌΠΈ <2B ΠΈ ΠΌΠΎΠΆΠ΅Ρ‚ ΠΊΠΎΠ½ΠΊΡƒΡ€ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ с Π½Π΅ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΌΠΈ LLM большСго Ρ€Π°Π·ΠΌΠ΅Ρ€Π°.

Благодаря ΡƒΠ½ΠΈΠΊΠ°Π»ΡŒΠ½ΠΎΠΉ Π³ΠΈΠ±Ρ€ΠΈΠ΄Π½ΠΎΠΉ Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€Π΅ SSM Zamba2-mini дСмонстрируСт Π½ΠΈΠ·ΠΊΠΈΠ΅ Π·Π°Π΄Π΅Ρ€ΠΆΠΊΠΈ логичСского Π²Ρ‹Π²ΠΎΠ΄Π° ΠΈ Π±Ρ‹ΡΡ‚Ρ€ΡƒΡŽ Π³Π΅Π½Π΅Ρ€Π°Ρ†ΠΈΡŽ ΠΏΡ€ΠΈ Π·Π½Π°Ρ‡ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ мСньшСм ΠΏΠΎΡ‚Ρ€Π΅Π±Π»Π΅Π½ΠΈΠΈ VRAM, Ρ‡Π΅ΠΌ Π΄Ρ€ΡƒΠ³ΠΈΠ΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ Ρ‚Π°ΠΊΠΎΠΉ ΠΆΠ΅ плотности ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ² Π½Π° основС трансформСров.
Π’Π°ΠΊΠΈΠ΅ характСристики Π΄Π΅Π»Π°Π΅Ρ‚ Π΅Π΅ идСальной ΡƒΠ½ΠΈΠ²Π΅Ρ€ΡΠ°Π»ΡŒΠ½ΠΎΠΉ модСлью для ΠΏΡ€ΠΈΠ»ΠΎΠΆΠ΅Π½ΠΈΠΉ Π½Π° устройствах.

⚠️ ΠŸΡ€ΠΈΠΌΠ΅Ρ‡Π°Π½ΠΈΠ΅: Zamba2-mini Π΅Ρ‰Π΅ Π½Π΅ ΠΏΠΎΠ»Π½ΠΎΡΡ‚ΡŒΡŽ совмСстима со всСми Ρ„Ρ€Π΅ΠΉΠΌΠ²ΠΎΡ€ΠΊΠ°ΠΌΠΈ ΠΈ инструмСнтами HuggingFace.

Π Π΅Π°Π»ΠΈΠ·Π°Ρ†ΠΈΡŽ Zamba2-1.2B для Pytorch ΠΌΠΎΠΆΠ½ΠΎ Π½Π°ΠΉΡ‚ΠΈ здСсь.

β–ΆοΈΠ›ΠΎΠΊΠ°Π»ΡŒΠ½Π°Ρ установка ΠΈ инфСрСнс:

# Clone repositiry
git clone https://github.com/Zyphra/transformers_zamba2.git

#Install requirments:
cd transformers_zamba2
pip install -e .
pip install accelerate

#Inference
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

tokenizer = AutoTokenizer.from_pretrained("Zyphra/Zamba2-1.2B")
model = AutoModelForCausalLM.from_pretrained("Zyphra/Zamba2-1.2B", device_map="cuda", torch_dtype=torch.bfloat16)

input_text = "A funny prompt would be "
input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")

outputs = model.generate(**input_ids, max_new_tokens=100)
print(tokenizer.decode(outputs[0]))


▢️Для запускС Π½Π° CPU - only, ΡƒΠΊΠ°ΠΆΠΈΡ‚Π΅ use_mamba_kernels=False ΠΏΡ€ΠΈ Π·Π°Π³Ρ€ΡƒΠ·ΠΊΠ΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ AutoModelForCausalLM.from_pretrained.


πŸ“ŒΠ›ΠΈΡ†Π΅Π½Π·ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅ : Apache 2.0 License.


πŸŸ‘Π‘Ρ‚Ρ€Π°Π½ΠΈΡ†Π° ΠΏΡ€ΠΎΠ΅ΠΊΡ‚Π°
🟑Arxiv
🟑МодСль


@ai_machinelearning_big_data

#AI #SLM #Mamba #ML #Zamba2mini

BY Big Data AI







Share with your friend now:
group-telegram.com/bigdatai/787

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Soloviev also promoted the channel in a post he shared on his own Telegram, which has 580,000 followers. The post recommended his viewers subscribe to "War on Fakes" in a time of fake news. The last couple days have exemplified that uncertainty. On Thursday, news emerged that talks in Turkey between the Russia and Ukraine yielded no positive result. But on Friday, Reuters reported that Russian President Vladimir Putin said there had been some β€œpositive shifts” in talks between the two sides. Two days after Russia invaded Ukraine, an account on the Telegram messaging platform posing as President Volodymyr Zelenskiy urged his armed forces to surrender. Update March 8, 2022: EFF has clarified that Channels and Groups are not fully encrypted, end-to-end, updated our post to link to Telegram’s FAQ for Cloud and Secret chats, updated to clarify that auto-delete is available for group and channel admins, and added some additional links. Investors took profits on Friday while they could ahead of the weekend, explained Tom Essaye, founder of Sevens Report Research. Saturday and Sunday could easily bring unfortunate news on the war frontβ€”and traders would rather be able to sell any recent winnings at Friday’s earlier prices than wait for a potentially lower price at Monday’s open.
from no


Telegram Big Data AI
FROM American