Telegram Group & Telegram Channel
Нерон и Нейрон: ИИ — моя Римская империя 🏛

Древние римляне много писали. Ежегодно обнаруживают до полутора тысяч латинских начертаний — высеченные на камне и выгравированные на монументах, в публичных пространствах и частных домах, нацарапанные на заборах... Надписи позволяют напрямую ощутить повседневную жизнь людей разных слоев обществ прошлого — от бытовых забот до политики и экономики. Это исследует дисциплина эпиграфика 🖋🪦

🔨 Однако за тысячелетия буквы стерлись, предметы с надписями разрушились или были перемещены. Вдобавок римляне злоупотребляли сокращениями и аббревиатурами. Всё это затрудняет и без того сложную расшифровку и интерпретацию, которой занимаются историки и археологи. Традиционно эксперты вручную ищут параллели — надписи с похожими словами, фразами, синтаксисом. Они нужны для контекстуализации. Изнурительный процесс сравнения текстов требует невероятной эрудиции и может затягиваться на месяцы и даже годы. Алгоритмы применялись, но они ограничивались буквальными совпадениями и не считывали смысл. Пришло время нейросетей.

🏺 Специалисты из Google DeepMind под руководством Янниса Ассаэля совместно с академическими учеными создали мультимодальную генеративную модель Aeneas, дабы автоматизировать процесс реконструкции старинной латыни и облегчить участь историков. Название отсылает к мифическому герою Троянской войны Энею, сыну богини Венеры, предку Ромула и Рема. Статья вышла в июле в Nature.

Aeneas принимает на вход транскрибированный латинский текст с пропусками нескольких символов (-) или фрагментов неизвестной длины (#), а также фотоснимки надписей. Ранее модели учитывали исключительно текст, тогда как много деталей можно почерпнуть из внешнего вида физических носителей.

🎭 Как в классической драме соблюдаются три единства, так и Aeneas решает три нетривиальные задачи: действиезаполняет гэпы в тексте, место — выдвигает предположение о регионе происхождения надписи, выбирая одну из 62 римских провинций и, наконец, время — предсказывает датировку с точностью до десятилетия.

Всем этим занимаются три нейросети (головы), принимающие данные от декодера трансформера T5, обрабатывающего исходные символы. Для обучения машинлернеры собрали корпус из 176 тыс. латинских надписей (для 5% были и картинки) за 15 веков со всех уголков Pax Romana — от Британии до Ирака. Aeneas восстанавливает обломки текста, даже когда вообще неизвестно, какой объем утерян! Исторически обогащенные эмбеддинги из T5 применяются для поиска в векторном пространстве, куда спроецирован весь датасет надписей: в итоге получается ранжированный список аналогов. Это прогресс по сравнению с предшествующей моделью Ithaca для древнегреческого языка. А еще в состав Aeneas входит ResNet-8 для обработки фото: эта визуальная информация учитывалась при географической атрибуции. Простейший пример: строку #us populusque Romanus ИИ дополняет до Senatus populusque Romanus («Сенат и народ Рима»).

👑 Ллмку проверили на знаменитом документе эпохи императора Октавиана — Res Gestae Divi Augusti («Деяния божественного Августа»), лучшая копия которого сохранилась на каменной стене храма в Анкаре 🇹🇷. Полагаясь только на тонкие лингвистические маркеры, ИИ сузил оценку возраста монументального трактата до двух периодов (10–1 гг. до н. э. и 10–20 гг. н. э). К таким же выводам пришли эксперты. Но за годы трудов и дебатов.

Конечно, Aeneas не заместит опытных профессионалов, однако позволит им мгновенно находить параллели и сосредотачиваться сразу на самых вероятных версиях. 23 приглашенных эпиграфиста уже протестили модель: в 9 из 10 случаев она дала полезную затравку и инсайты. Сейчас датасет и код полностью доступны, открыт сайт predictingthepast.com

🏆 Думаете, это чудеса и технологии уровня олимпийских богов? Вовсе нет: ученые из разных сфер используют те же самые архитектуры и тулы для обработки данных, которые изучают даже студенты. Скажем, в приложении к статье про Aeneas можно обнаружить, что рисечеры юзали numpy, pandas для стандартизации датасетов, seaborn, matplotlib для графиков, а также другие библиотеки. Все дороги ведут в... Python
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13🥰6💯531😁1



group-telegram.com/blastim/2956
Create:
Last Update:

Нерон и Нейрон: ИИ — моя Римская империя 🏛

Древние римляне много писали. Ежегодно обнаруживают до полутора тысяч латинских начертаний — высеченные на камне и выгравированные на монументах, в публичных пространствах и частных домах, нацарапанные на заборах... Надписи позволяют напрямую ощутить повседневную жизнь людей разных слоев обществ прошлого — от бытовых забот до политики и экономики. Это исследует дисциплина эпиграфика 🖋🪦

🔨 Однако за тысячелетия буквы стерлись, предметы с надписями разрушились или были перемещены. Вдобавок римляне злоупотребляли сокращениями и аббревиатурами. Всё это затрудняет и без того сложную расшифровку и интерпретацию, которой занимаются историки и археологи. Традиционно эксперты вручную ищут параллели — надписи с похожими словами, фразами, синтаксисом. Они нужны для контекстуализации. Изнурительный процесс сравнения текстов требует невероятной эрудиции и может затягиваться на месяцы и даже годы. Алгоритмы применялись, но они ограничивались буквальными совпадениями и не считывали смысл. Пришло время нейросетей.

🏺 Специалисты из Google DeepMind под руководством Янниса Ассаэля совместно с академическими учеными создали мультимодальную генеративную модель Aeneas, дабы автоматизировать процесс реконструкции старинной латыни и облегчить участь историков. Название отсылает к мифическому герою Троянской войны Энею, сыну богини Венеры, предку Ромула и Рема. Статья вышла в июле в Nature.

Aeneas принимает на вход транскрибированный латинский текст с пропусками нескольких символов (-) или фрагментов неизвестной длины (#), а также фотоснимки надписей. Ранее модели учитывали исключительно текст, тогда как много деталей можно почерпнуть из внешнего вида физических носителей.

🎭 Как в классической драме соблюдаются три единства, так и Aeneas решает три нетривиальные задачи: действиезаполняет гэпы в тексте, место — выдвигает предположение о регионе происхождения надписи, выбирая одну из 62 римских провинций и, наконец, время — предсказывает датировку с точностью до десятилетия.

Всем этим занимаются три нейросети (головы), принимающие данные от декодера трансформера T5, обрабатывающего исходные символы. Для обучения машинлернеры собрали корпус из 176 тыс. латинских надписей (для 5% были и картинки) за 15 веков со всех уголков Pax Romana — от Британии до Ирака. Aeneas восстанавливает обломки текста, даже когда вообще неизвестно, какой объем утерян! Исторически обогащенные эмбеддинги из T5 применяются для поиска в векторном пространстве, куда спроецирован весь датасет надписей: в итоге получается ранжированный список аналогов. Это прогресс по сравнению с предшествующей моделью Ithaca для древнегреческого языка. А еще в состав Aeneas входит ResNet-8 для обработки фото: эта визуальная информация учитывалась при географической атрибуции. Простейший пример: строку #us populusque Romanus ИИ дополняет до Senatus populusque Romanus («Сенат и народ Рима»).

👑 Ллмку проверили на знаменитом документе эпохи императора Октавиана — Res Gestae Divi Augusti («Деяния божественного Августа»), лучшая копия которого сохранилась на каменной стене храма в Анкаре 🇹🇷. Полагаясь только на тонкие лингвистические маркеры, ИИ сузил оценку возраста монументального трактата до двух периодов (10–1 гг. до н. э. и 10–20 гг. н. э). К таким же выводам пришли эксперты. Но за годы трудов и дебатов.

Конечно, Aeneas не заместит опытных профессионалов, однако позволит им мгновенно находить параллели и сосредотачиваться сразу на самых вероятных версиях. 23 приглашенных эпиграфиста уже протестили модель: в 9 из 10 случаев она дала полезную затравку и инсайты. Сейчас датасет и код полностью доступны, открыт сайт predictingthepast.com

🏆 Думаете, это чудеса и технологии уровня олимпийских богов? Вовсе нет: ученые из разных сфер используют те же самые архитектуры и тулы для обработки данных, которые изучают даже студенты. Скажем, в приложении к статье про Aeneas можно обнаружить, что рисечеры юзали numpy, pandas для стандартизации датасетов, seaborn, matplotlib для графиков, а также другие библиотеки. Все дороги ведут в... Python

BY Бластим: курсы и работа в биотехе




Share with your friend now:
group-telegram.com/blastim/2956

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

This provided opportunity to their linked entities to offload their shares at higher prices and make significant profits at the cost of unsuspecting retail investors. Telegram has gained a reputation as the “secure” communications app in the post-Soviet states, but whenever you make choices about your digital security, it’s important to start by asking yourself, “What exactly am I securing? And who am I securing it from?” These questions should inform your decisions about whether you are using the right tool or platform for your digital security needs. Telegram is certainly not the most secure messaging app on the market right now. Its security model requires users to place a great deal of trust in Telegram’s ability to protect user data. For some users, this may be good enough for now. For others, it may be wiser to move to a different platform for certain kinds of high-risk communications. The Dow Jones Industrial Average fell 230 points, or 0.7%. Meanwhile, the S&P 500 and the Nasdaq Composite dropped 1.3% and 2.2%, respectively. All three indexes began the day with gains before selling off. Artem Kliuchnikov and his family fled Ukraine just days before the Russian invasion. On December 23rd, 2020, Pavel Durov posted to his channel that the company would need to start generating revenue. In early 2021, he added that any advertising on the platform would not use user data for targeting, and that it would be focused on “large one-to-many channels.” He pledged that ads would be “non-intrusive” and that most users would simply not notice any change.
from sg


Telegram Бластим: курсы и работа в биотехе
FROM American