Telegram Group & Telegram Channel
Нерон и Нейрон: ИИ — моя Римская империя 🏛

Древние римляне много писали. Ежегодно обнаруживают до полутора тысяч латинских начертаний — высеченные на камне и выгравированные на монументах, в публичных пространствах и частных домах, нацарапанные на заборах... Надписи позволяют напрямую ощутить повседневную жизнь людей разных слоев обществ прошлого — от бытовых забот до политики и экономики. Это исследует дисциплина эпиграфика 🖋🪦

🔨 Однако за тысячелетия буквы стерлись, предметы с надписями разрушились или были перемещены. Вдобавок римляне злоупотребляли сокращениями и аббревиатурами. Всё это затрудняет и без того сложную расшифровку и интерпретацию, которой занимаются историки и археологи. Традиционно эксперты вручную ищут параллели — надписи с похожими словами, фразами, синтаксисом. Они нужны для контекстуализации. Изнурительный процесс сравнения текстов требует невероятной эрудиции и может затягиваться на месяцы и даже годы. Алгоритмы применялись, но они ограничивались буквальными совпадениями и не считывали смысл. Пришло время нейросетей.

🏺 Специалисты из Google DeepMind под руководством Янниса Ассаэля совместно с академическими учеными создали мультимодальную генеративную модель Aeneas, дабы автоматизировать процесс реконструкции старинной латыни и облегчить участь историков. Название отсылает к мифическому герою Троянской войны Энею, сыну богини Венеры, предку Ромула и Рема. Статья вышла в июле в Nature.

Aeneas принимает на вход транскрибированный латинский текст с пропусками нескольких символов (-) или фрагментов неизвестной длины (#), а также фотоснимки надписей. Ранее модели учитывали исключительно текст, тогда как много деталей можно почерпнуть из внешнего вида физических носителей.

🎭 Как в классической драме соблюдаются три единства, так и Aeneas решает три нетривиальные задачи: действиезаполняет гэпы в тексте, место — выдвигает предположение о регионе происхождения надписи, выбирая одну из 62 римских провинций и, наконец, время — предсказывает датировку с точностью до десятилетия.

Всем этим занимаются три нейросети (головы), принимающие данные от декодера трансформера T5, обрабатывающего исходные символы. Для обучения машинлернеры собрали корпус из 176 тыс. латинских надписей (для 5% были и картинки) за 15 веков со всех уголков Pax Romana — от Британии до Ирака. Aeneas восстанавливает обломки текста, даже когда вообще неизвестно, какой объем утерян! Исторически обогащенные эмбеддинги из T5 применяются для поиска в векторном пространстве, куда спроецирован весь датасет надписей: в итоге получается ранжированный список аналогов. Это прогресс по сравнению с предшествующей моделью Ithaca для древнегреческого языка. А еще в состав Aeneas входит ResNet-8 для обработки фото: эта визуальная информация учитывалась при географической атрибуции. Простейший пример: строку #us populusque Romanus ИИ дополняет до Senatus populusque Romanus («Сенат и народ Рима»).

👑 Ллмку проверили на знаменитом документе эпохи императора Октавиана — Res Gestae Divi Augusti («Деяния божественного Августа»), лучшая копия которого сохранилась на каменной стене храма в Анкаре 🇹🇷. Полагаясь только на тонкие лингвистические маркеры, ИИ сузил оценку возраста монументального трактата до двух периодов (10–1 гг. до н. э. и 10–20 гг. н. э). К таким же выводам пришли эксперты. Но за годы трудов и дебатов.

Конечно, Aeneas не заместит опытных профессионалов, однако позволит им мгновенно находить параллели и сосредотачиваться сразу на самых вероятных версиях. 23 приглашенных эпиграфиста уже протестили модель: в 9 из 10 случаев она дала полезную затравку и инсайты. Сейчас датасет и код полностью доступны, открыт сайт predictingthepast.com

🏆 Думаете, это чудеса и технологии уровня олимпийских богов? Вовсе нет: ученые из разных сфер используют те же самые архитектуры и тулы для обработки данных, которые изучают даже студенты. Скажем, в приложении к статье про Aeneas можно обнаружить, что рисечеры юзали numpy, pandas для стандартизации датасетов, seaborn, matplotlib для графиков, а также другие библиотеки. Все дороги ведут в... Python
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12🥰6💯531😁1



group-telegram.com/blastim/2956
Create:
Last Update:

Нерон и Нейрон: ИИ — моя Римская империя 🏛

Древние римляне много писали. Ежегодно обнаруживают до полутора тысяч латинских начертаний — высеченные на камне и выгравированные на монументах, в публичных пространствах и частных домах, нацарапанные на заборах... Надписи позволяют напрямую ощутить повседневную жизнь людей разных слоев обществ прошлого — от бытовых забот до политики и экономики. Это исследует дисциплина эпиграфика 🖋🪦

🔨 Однако за тысячелетия буквы стерлись, предметы с надписями разрушились или были перемещены. Вдобавок римляне злоупотребляли сокращениями и аббревиатурами. Всё это затрудняет и без того сложную расшифровку и интерпретацию, которой занимаются историки и археологи. Традиционно эксперты вручную ищут параллели — надписи с похожими словами, фразами, синтаксисом. Они нужны для контекстуализации. Изнурительный процесс сравнения текстов требует невероятной эрудиции и может затягиваться на месяцы и даже годы. Алгоритмы применялись, но они ограничивались буквальными совпадениями и не считывали смысл. Пришло время нейросетей.

🏺 Специалисты из Google DeepMind под руководством Янниса Ассаэля совместно с академическими учеными создали мультимодальную генеративную модель Aeneas, дабы автоматизировать процесс реконструкции старинной латыни и облегчить участь историков. Название отсылает к мифическому герою Троянской войны Энею, сыну богини Венеры, предку Ромула и Рема. Статья вышла в июле в Nature.

Aeneas принимает на вход транскрибированный латинский текст с пропусками нескольких символов (-) или фрагментов неизвестной длины (#), а также фотоснимки надписей. Ранее модели учитывали исключительно текст, тогда как много деталей можно почерпнуть из внешнего вида физических носителей.

🎭 Как в классической драме соблюдаются три единства, так и Aeneas решает три нетривиальные задачи: действиезаполняет гэпы в тексте, место — выдвигает предположение о регионе происхождения надписи, выбирая одну из 62 римских провинций и, наконец, время — предсказывает датировку с точностью до десятилетия.

Всем этим занимаются три нейросети (головы), принимающие данные от декодера трансформера T5, обрабатывающего исходные символы. Для обучения машинлернеры собрали корпус из 176 тыс. латинских надписей (для 5% были и картинки) за 15 веков со всех уголков Pax Romana — от Британии до Ирака. Aeneas восстанавливает обломки текста, даже когда вообще неизвестно, какой объем утерян! Исторически обогащенные эмбеддинги из T5 применяются для поиска в векторном пространстве, куда спроецирован весь датасет надписей: в итоге получается ранжированный список аналогов. Это прогресс по сравнению с предшествующей моделью Ithaca для древнегреческого языка. А еще в состав Aeneas входит ResNet-8 для обработки фото: эта визуальная информация учитывалась при географической атрибуции. Простейший пример: строку #us populusque Romanus ИИ дополняет до Senatus populusque Romanus («Сенат и народ Рима»).

👑 Ллмку проверили на знаменитом документе эпохи императора Октавиана — Res Gestae Divi Augusti («Деяния божественного Августа»), лучшая копия которого сохранилась на каменной стене храма в Анкаре 🇹🇷. Полагаясь только на тонкие лингвистические маркеры, ИИ сузил оценку возраста монументального трактата до двух периодов (10–1 гг. до н. э. и 10–20 гг. н. э). К таким же выводам пришли эксперты. Но за годы трудов и дебатов.

Конечно, Aeneas не заместит опытных профессионалов, однако позволит им мгновенно находить параллели и сосредотачиваться сразу на самых вероятных версиях. 23 приглашенных эпиграфиста уже протестили модель: в 9 из 10 случаев она дала полезную затравку и инсайты. Сейчас датасет и код полностью доступны, открыт сайт predictingthepast.com

🏆 Думаете, это чудеса и технологии уровня олимпийских богов? Вовсе нет: ученые из разных сфер используют те же самые архитектуры и тулы для обработки данных, которые изучают даже студенты. Скажем, в приложении к статье про Aeneas можно обнаружить, что рисечеры юзали numpy, pandas для стандартизации датасетов, seaborn, matplotlib для графиков, а также другие библиотеки. Все дороги ведут в... Python

BY Бластим: курсы и работа в биотехе




Share with your friend now:
group-telegram.com/blastim/2956

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

The regulator said it had received information that messages containing stock tips and other investment advice with respect to selected listed companies are being widely circulated through websites and social media platforms such as Telegram, Facebook, WhatsApp and Instagram. In addition, Telegram now supports the use of third-party streaming tools like OBS Studio and XSplit to broadcast live video, allowing users to add overlays and multi-screen layouts for a more professional look. Multiple pro-Kremlin media figures circulated the post's false claims, including prominent Russian journalist Vladimir Soloviev and the state-controlled Russian outlet RT, according to the DFR Lab's report. "The argument from Telegram is, 'You should trust us because we tell you that we're trustworthy,'" Maréchal said. "It's really in the eye of the beholder whether that's something you want to buy into." That hurt tech stocks. For the past few weeks, the 10-year yield has traded between 1.72% and 2%, as traders moved into the bond for safety when Russia headlines were ugly—and out of it when headlines improved. Now, the yield is touching its pandemic-era high. If the yield breaks above that level, that could signal that it’s on a sustainable path higher. Higher long-dated bond yields make future profits less valuable—and many tech companies are valued on the basis of profits forecast for many years in the future.
from ar


Telegram Бластим: курсы и работа в биотехе
FROM American