Telegram Group & Telegram Channel
Нерон и Нейрон: ИИ — моя Римская империя 🏛

Древние римляне много писали. Ежегодно обнаруживают до полутора тысяч латинских начертаний — высеченные на камне и выгравированные на монументах, в публичных пространствах и частных домах, нацарапанные на заборах... Надписи позволяют напрямую ощутить повседневную жизнь людей разных слоев обществ прошлого — от бытовых забот до политики и экономики. Это исследует дисциплина эпиграфика 🖋🪦

🔨 Однако за тысячелетия буквы стерлись, предметы с надписями разрушились или были перемещены. Вдобавок римляне злоупотребляли сокращениями и аббревиатурами. Всё это затрудняет и без того сложную расшифровку и интерпретацию, которой занимаются историки и археологи. Традиционно эксперты вручную ищут параллели — надписи с похожими словами, фразами, синтаксисом. Они нужны для контекстуализации. Изнурительный процесс сравнения текстов требует невероятной эрудиции и может затягиваться на месяцы и даже годы. Алгоритмы применялись, но они ограничивались буквальными совпадениями и не считывали смысл. Пришло время нейросетей.

🏺 Специалисты из Google DeepMind под руководством Янниса Ассаэля совместно с академическими учеными создали мультимодальную генеративную модель Aeneas, дабы автоматизировать процесс реконструкции старинной латыни и облегчить участь историков. Название отсылает к мифическому герою Троянской войны Энею, сыну богини Венеры, предку Ромула и Рема. Статья вышла в июле в Nature.

Aeneas принимает на вход транскрибированный латинский текст с пропусками нескольких символов (-) или фрагментов неизвестной длины (#), а также фотоснимки надписей. Ранее модели учитывали исключительно текст, тогда как много деталей можно почерпнуть из внешнего вида физических носителей.

🎭 Как в классической драме соблюдаются три единства, так и Aeneas решает три нетривиальные задачи: действиезаполняет гэпы в тексте, место — выдвигает предположение о регионе происхождения надписи, выбирая одну из 62 римских провинций и, наконец, время — предсказывает датировку с точностью до десятилетия.

Всем этим занимаются три нейросети (головы), принимающие данные от декодера трансформера T5, обрабатывающего исходные символы. Для обучения машинлернеры собрали корпус из 176 тыс. латинских надписей (для 5% были и картинки) за 15 веков со всех уголков Pax Romana — от Британии до Ирака. Aeneas восстанавливает обломки текста, даже когда вообще неизвестно, какой объем утерян! Исторически обогащенные эмбеддинги из T5 применяются для поиска в векторном пространстве, куда спроецирован весь датасет надписей: в итоге получается ранжированный список аналогов. Это прогресс по сравнению с предшествующей моделью Ithaca для древнегреческого языка. А еще в состав Aeneas входит ResNet-8 для обработки фото: эта визуальная информация учитывалась при географической атрибуции. Простейший пример: строку #us populusque Romanus ИИ дополняет до Senatus populusque Romanus («Сенат и народ Рима»).

👑 Ллмку проверили на знаменитом документе эпохи императора Октавиана — Res Gestae Divi Augusti («Деяния божественного Августа»), лучшая копия которого сохранилась на каменной стене храма в Анкаре 🇹🇷. Полагаясь только на тонкие лингвистические маркеры, ИИ сузил оценку возраста монументального трактата до двух периодов (10–1 гг. до н. э. и 10–20 гг. н. э). К таким же выводам пришли эксперты. Но за годы трудов и дебатов.

Конечно, Aeneas не заместит опытных профессионалов, однако позволит им мгновенно находить параллели и сосредотачиваться сразу на самых вероятных версиях. 23 приглашенных эпиграфиста уже протестили модель: в 9 из 10 случаев она дала полезную затравку и инсайты. Сейчас датасет и код полностью доступны, открыт сайт predictingthepast.com

🏆 Думаете, это чудеса и технологии уровня олимпийских богов? Вовсе нет: ученые из разных сфер используют те же самые архитектуры и тулы для обработки данных, которые изучают даже студенты. Скажем, в приложении к статье про Aeneas можно обнаружить, что рисечеры юзали numpy, pandas для стандартизации датасетов, seaborn, matplotlib для графиков, а также другие библиотеки. Все дороги ведут в... Python
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12🥰6💯531😁1



group-telegram.com/blastim/2956
Create:
Last Update:

Нерон и Нейрон: ИИ — моя Римская империя 🏛

Древние римляне много писали. Ежегодно обнаруживают до полутора тысяч латинских начертаний — высеченные на камне и выгравированные на монументах, в публичных пространствах и частных домах, нацарапанные на заборах... Надписи позволяют напрямую ощутить повседневную жизнь людей разных слоев обществ прошлого — от бытовых забот до политики и экономики. Это исследует дисциплина эпиграфика 🖋🪦

🔨 Однако за тысячелетия буквы стерлись, предметы с надписями разрушились или были перемещены. Вдобавок римляне злоупотребляли сокращениями и аббревиатурами. Всё это затрудняет и без того сложную расшифровку и интерпретацию, которой занимаются историки и археологи. Традиционно эксперты вручную ищут параллели — надписи с похожими словами, фразами, синтаксисом. Они нужны для контекстуализации. Изнурительный процесс сравнения текстов требует невероятной эрудиции и может затягиваться на месяцы и даже годы. Алгоритмы применялись, но они ограничивались буквальными совпадениями и не считывали смысл. Пришло время нейросетей.

🏺 Специалисты из Google DeepMind под руководством Янниса Ассаэля совместно с академическими учеными создали мультимодальную генеративную модель Aeneas, дабы автоматизировать процесс реконструкции старинной латыни и облегчить участь историков. Название отсылает к мифическому герою Троянской войны Энею, сыну богини Венеры, предку Ромула и Рема. Статья вышла в июле в Nature.

Aeneas принимает на вход транскрибированный латинский текст с пропусками нескольких символов (-) или фрагментов неизвестной длины (#), а также фотоснимки надписей. Ранее модели учитывали исключительно текст, тогда как много деталей можно почерпнуть из внешнего вида физических носителей.

🎭 Как в классической драме соблюдаются три единства, так и Aeneas решает три нетривиальные задачи: действиезаполняет гэпы в тексте, место — выдвигает предположение о регионе происхождения надписи, выбирая одну из 62 римских провинций и, наконец, время — предсказывает датировку с точностью до десятилетия.

Всем этим занимаются три нейросети (головы), принимающие данные от декодера трансформера T5, обрабатывающего исходные символы. Для обучения машинлернеры собрали корпус из 176 тыс. латинских надписей (для 5% были и картинки) за 15 веков со всех уголков Pax Romana — от Британии до Ирака. Aeneas восстанавливает обломки текста, даже когда вообще неизвестно, какой объем утерян! Исторически обогащенные эмбеддинги из T5 применяются для поиска в векторном пространстве, куда спроецирован весь датасет надписей: в итоге получается ранжированный список аналогов. Это прогресс по сравнению с предшествующей моделью Ithaca для древнегреческого языка. А еще в состав Aeneas входит ResNet-8 для обработки фото: эта визуальная информация учитывалась при географической атрибуции. Простейший пример: строку #us populusque Romanus ИИ дополняет до Senatus populusque Romanus («Сенат и народ Рима»).

👑 Ллмку проверили на знаменитом документе эпохи императора Октавиана — Res Gestae Divi Augusti («Деяния божественного Августа»), лучшая копия которого сохранилась на каменной стене храма в Анкаре 🇹🇷. Полагаясь только на тонкие лингвистические маркеры, ИИ сузил оценку возраста монументального трактата до двух периодов (10–1 гг. до н. э. и 10–20 гг. н. э). К таким же выводам пришли эксперты. Но за годы трудов и дебатов.

Конечно, Aeneas не заместит опытных профессионалов, однако позволит им мгновенно находить параллели и сосредотачиваться сразу на самых вероятных версиях. 23 приглашенных эпиграфиста уже протестили модель: в 9 из 10 случаев она дала полезную затравку и инсайты. Сейчас датасет и код полностью доступны, открыт сайт predictingthepast.com

🏆 Думаете, это чудеса и технологии уровня олимпийских богов? Вовсе нет: ученые из разных сфер используют те же самые архитектуры и тулы для обработки данных, которые изучают даже студенты. Скажем, в приложении к статье про Aeneas можно обнаружить, что рисечеры юзали numpy, pandas для стандартизации датасетов, seaborn, matplotlib для графиков, а также другие библиотеки. Все дороги ведут в... Python

BY Бластим: курсы и работа в биотехе




Share with your friend now:
group-telegram.com/blastim/2956

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

In 2018, Russia banned Telegram although it reversed the prohibition two years later. WhatsApp, a rival messaging platform, introduced some measures to counter disinformation when Covid-19 was first sweeping the world. Multiple pro-Kremlin media figures circulated the post's false claims, including prominent Russian journalist Vladimir Soloviev and the state-controlled Russian outlet RT, according to the DFR Lab's report. And indeed, volatility has been a hallmark of the market environment so far in 2022, with the S&P 500 still down more than 10% for the year-to-date after first sliding into a correction last month. The CBOE Volatility Index, or VIX, has held at a lofty level of more than 30. Although some channels have been removed, the curation process is considered opaque and insufficient by analysts.
from us


Telegram Бластим: курсы и работа в биотехе
FROM American