Telegram Group & Telegram Channel
Forwarded from Machinelearning
✔️ ECLECTIC: взгляд Google на то, как LLM понимают разные языки

Исследователи из Google Research представили ECLeKTic — новый бенчмарк, предназначенный для оценки способности больших языковых моделей (LLM) переносить знания между языками.

Исследование направлено на выявление того, насколько эффективно модели могут применять информацию, полученную на одном языке, для решения задач на другом.​

Бенчмарк включает вопросы, сформулированные на одном языке, ответы на которые содержатся в соответствующих статьях Википедии. Эти вопросы затем переводятся на другие языки, для которых аналогичных статей нет. Таким образом, модели должны демонстрировать способность извлекать и применять знания, отсутствующие в целевом языке.​

Оценка моделей: Испытания восьми современных LLM показали, что даже передовые модели испытывают трудности с межъязыковым переносом знаний. Это подчеркивает необходимость дальнейших исследований и улучшений в этой области.​

Вместо простых вопросов используются тесты с множественным выбором, где неправильные ответы (дистракторы) специально сделаны очень похожими на правильный и правдоподобными. Чтобы выбрать верный вариант, модели нужно действительно понять нюансы на целевом языке, а не угадывать.

Минимизация "артефактов перевода": Вопросы тщательно создавались экспертами на 10 различных языках (включая арабский, хинди, японский, русский и др.). Они адаптированы культурно и лингвистически так, чтобы стратегия "перевести-решить-перевести обратно" работала плохо.

ECLECTIC – сложный тест: Он выявляет слабости в понимании, которые могут быть не видны на других бенчмарках.

🌟 Лучшие результаты у Gemini 2.5 Pro: до 52,6% общего успеха и 77,0% коэффициента удачного переноса знаний. ​
В отличие от OpenAI Google на своих же бенчмаркх занимают первые места 😂

Результаты показывают, что текущим LLM еще предстоит улучшить способность по-настоящему переносить и применять знания между языками.

🟡Подробнее
🟡Paper

@ai_machinelearning_big_data


#AI #ml #google #benchmark
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/machinelearning_interview/1695
Create:
Last Update:

✔️ ECLECTIC: взгляд Google на то, как LLM понимают разные языки

Исследователи из Google Research представили ECLeKTic — новый бенчмарк, предназначенный для оценки способности больших языковых моделей (LLM) переносить знания между языками.

Исследование направлено на выявление того, насколько эффективно модели могут применять информацию, полученную на одном языке, для решения задач на другом.​

Бенчмарк включает вопросы, сформулированные на одном языке, ответы на которые содержатся в соответствующих статьях Википедии. Эти вопросы затем переводятся на другие языки, для которых аналогичных статей нет. Таким образом, модели должны демонстрировать способность извлекать и применять знания, отсутствующие в целевом языке.​

Оценка моделей: Испытания восьми современных LLM показали, что даже передовые модели испытывают трудности с межъязыковым переносом знаний. Это подчеркивает необходимость дальнейших исследований и улучшений в этой области.​

Вместо простых вопросов используются тесты с множественным выбором, где неправильные ответы (дистракторы) специально сделаны очень похожими на правильный и правдоподобными. Чтобы выбрать верный вариант, модели нужно действительно понять нюансы на целевом языке, а не угадывать.

Минимизация "артефактов перевода": Вопросы тщательно создавались экспертами на 10 различных языках (включая арабский, хинди, японский, русский и др.). Они адаптированы культурно и лингвистически так, чтобы стратегия "перевести-решить-перевести обратно" работала плохо.

ECLECTIC – сложный тест: Он выявляет слабости в понимании, которые могут быть не видны на других бенчмарках.

🌟 Лучшие результаты у Gemini 2.5 Pro: до 52,6% общего успеха и 77,0% коэффициента удачного переноса знаний. ​
В отличие от OpenAI Google на своих же бенчмаркх занимают первые места 😂

Результаты показывают, что текущим LLM еще предстоит улучшить способность по-настоящему переносить и применять знания между языками.

🟡Подробнее
🟡Paper

@ai_machinelearning_big_data


#AI #ml #google #benchmark

BY Machine learning Interview








Share with your friend now:
group-telegram.com/machinelearning_interview/1695

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

"We're seeing really dramatic moves, and it's all really tied to Ukraine right now, and in a secondary way, in terms of interest rates," Octavio Marenzi, CEO of Opimas, told Yahoo Finance Live on Thursday. "This war in Ukraine is going to give the Fed the ammunition, the cover that it needs, to not raise interest rates too quickly. And I think Jay Powell is a very tepid sort of inflation fighter and he's not going to do as much as he needs to do to get that under control. And this seems like an excuse to kick the can further down the road still and not do too much too soon." The regulator said it has been undertaking several campaigns to educate the investors to be vigilant while taking investment decisions based on stock tips. The news also helped traders look past another report showing decades-high inflation and shake off some of the volatility from recent sessions. The Bureau of Labor Statistics' February Consumer Price Index (CPI) this week showed another surge in prices even before Russia escalated its attacks in Ukraine. The headline CPI — soaring 7.9% over last year — underscored the sticky inflationary pressures reverberating across the U.S. economy, with everything from groceries to rents and airline fares getting more expensive for everyday consumers. The perpetrators use various names to carry out the investment scams. They may also impersonate or clone licensed capital market intermediaries by using the names, logos, credentials, websites and other details of the legitimate entities to promote the illegal schemes. Continuing its crackdown against entities allegedly involved in a front-running scam using messaging app Telegram, Sebi on Thursday carried out search and seizure operations at the premises of eight entities in multiple locations across the country.
from kr


Telegram Machine learning Interview
FROM American