group-telegram.com/ai_machinelearning_big_data/7469
Last Update:
Π ΡΠ΅Π»ΠΈΠ· Π²ΠΎΡΠ»ΠΈ 2 MoE-ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΈ 6 Dense models (ΠΏΠ»ΠΎΡΠ½ΡΠ΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ), ΡΠ°Π·ΠΌΠ΅ΡΠΎΠΌ ΠΎΡ 0.6B Π΄ΠΎ 235B ΠΏΠ°ΡΠ°ΠΌΠ΅ΡΡΠΎΠ².
π Π€Π»Π°Π³ΠΌΠ°Π½ΡΠΊΠ°Ρ ΠΌΠΎΠ΄Π΅Π»Ρ Qwen3-235B-A22B Π΄Π΅ΠΌΠΎΠ½ΡΡΡΠΈΡΡΠ΅Ρ ΠΊΠΎΠ½ΠΊΡΡΠ΅Π½ΡΠ½ΡΠ΅ ΡΠ΅Π·ΡΠ»ΡΡΠ°ΡΡ Π² Π·Π°Π΄Π°ΡΠ°Ρ
ΠΠΎΠ΄ΠΈΠ½Π°, ΠΌΠ°ΡΠ΅ΠΌΠ°ΡΠΈΠΊΠΈ ΠΈ ΠΎΠ±ΡΠΈΡ
ΡΠΏΠΎΡΠΎΠ±Π½ΠΎΡΡΠ΅ΠΉ, ΡΠ²Π΅ΡΠ΅Π½Π½ΠΎ ΡΠΎΠΏΠ΅ΡΠ½ΠΈΡΠ°Ρ Ρ ΠΏΠ΅ΡΠ΅Π΄ΠΎΠ²ΡΠΌΠΈ ΠΌΠΎΠ΄Π΅Π»ΡΠΌΠΈ, ΡΠ°ΠΊΠΈΠΌΠΈ ΠΊΠ°ΠΊ DeepSeek-R1, o1, o3-mini, Grok-3 ΠΈ Gemini-2.5-Pro.
β‘ ΠΠ΅Π±ΠΎΠ»ΡΡΠ°Ρ MoE-ΠΌΠΎΠ΄Π΅Π»Ρ Qwen3-30B-A3B ΠΏΡΠ΅Π²ΠΎΡΡ
ΠΎΠ΄ΠΈΡ QwQ-32B, ΠΈΡΠΏΠΎΠ»ΡΠ·ΡΡ Π² 10 ΡΠ°Π· ΠΌΠ΅Π½ΡΡΠ΅ ΠΏΠ°ΡΠ°ΠΌΠ΅ΡΡΠΎΠ².
π₯ ΠΠΎΠΌΠΏΠ°ΠΊΡΠ½Π°Ρ ΠΌΠΎΠ΄Π΅Π»Ρ Qwen3-4B ΡΠΎΠΏΠΎΡΡΠ°Π²ΠΈΠΌΠ° ΠΏΠΎ ΠΏΡΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΡΠ΅Π»ΡΠ½ΠΎΡΡΠΈ Ρ Qwen2.5-72B-Instruct.
π§ ΠΠΎΠ΄Π΄Π΅ΡΠΆΠΈΠ²Π°Π΅Ρ Π³ΠΈΠ±ΡΠΈΠ΄Π½ΡΠΉ ΡΠ΅ΠΆΠΈΠΌ ΠΌΡΡΠ»Π΅Π½ΠΈΡ
Π Π΅ΠΆΠΈΠΌ ΡΠ°Π·ΠΌΡΡΠ»Π΅Π½ΠΈΡ Π°ΠΊΡΠΈΠ²ΠΈΡΡΠ΅ΡΡΡ ΠΏΡΠΈ ΠΎΠ±ΡΠ°Π±ΠΎΡΠΊΠ΅ ΡΠ»ΠΎΠΆΠ½ΡΡ
Π·Π°Π΄Π°Ρ, ΠΎΠ±Π΅ΡΠΏΠ΅ΡΠΈΠ²Π°Ρ ΠΏΠΎΡΠ°Π³ΠΎΠ²ΡΠΉ Π°Π½Π°Π»ΠΈΠ· Π·Π°ΠΏΡΠΎΡΠ° ΠΈ ΡΠΎΡΠΌΠΈΡΠΎΠ²Π°Π½ΠΈΠ΅ ΠΊΠΎΠΌΠΏΠ»Π΅ΠΊΡΠ½ΡΡ
, Π³Π»ΡΠ±ΠΎΠΊΠΈΡ
ΠΎΡΠ²Π΅ΡΠΎΠ².
ΠΠ°Π·ΠΎΠ²ΡΠΉ ΡΠ΅ΠΆΠΈΠΌ ΠΈΡΠΏΠΎΠ»ΡΠ·ΡΠ΅ΡΡΡ Π΄Π»Ρ ΠΏΠΎΠ²ΡΠ΅Π΄Π½Π΅Π²Π½ΡΡ
Π²ΠΎΠΏΡΠΎΡΠΎΠ², ΠΏΠΎΠ·Π²ΠΎΠ»ΡΡ Π²ΡΠ΄Π°Π²Π°ΡΡ Π±ΡΡΡΡΡΠ΅ ΠΈ ΡΠΎΡΠ½ΡΠ΅ ΠΎΡΠ²Π΅ΡΡ Ρ ΠΌΠΈΠ½ΠΈΠΌΠ°Π»ΡΠ½ΠΎΠΉ Π·Π°Π΄Π΅ΡΠΆΠΊΠΎΠΉ.
ΠΡΠΎΡΠ΅ΡΡ ΠΎΠ±ΡΡΠ΅Π½ΠΈΡ ΠΌΠΎΠ΄Π΅Π»ΠΈ ΡΡΡΡΠΎΠ΅Π½ ΠΏΠΎΡ
ΠΎΠΆΠΈΠΌ ΠΎΠ±ΡΠ°Π·ΠΎΠΌ Π½Π° ΡΠΎ, ΠΊΠ°ΠΊ ΡΡΠΎ ΡΠ΄Π΅Π»Π°Π½ΠΎ Π² DeepSeek R1.
ΠΠΎΠ΄Π΄Π΅ΡΠΆΠΈΠ²Π°Π΅Ρ 119 ΡΠ·ΡΠΊΠΎΠ², Π²ΠΊΠ»ΡΡΠ°Ρ ΡΡΡΡΠΊΠΈΠΉ.
ΠΠΈΡΠ΅Π½Π·ΠΈΡΠΎΠ²Π°Π½ΠΈΠ΅: Apache 2.0 π₯
@ai_machinelearning_big_data
#Qwen