Telegram Group & Telegram Channel
Нерон и Нейрон: ИИ — моя Римская империя 🏛

Древние римляне много писали. Ежегодно обнаруживают до полутора тысяч латинских начертаний — высеченные на камне и выгравированные на монументах, в публичных пространствах и частных домах, нацарапанные на заборах... Надписи позволяют напрямую ощутить повседневную жизнь людей разных слоев обществ прошлого — от бытовых забот до политики и экономики. Это исследует дисциплина эпиграфика 🖋🪦

🔨 Однако за тысячелетия буквы стерлись, предметы с надписями разрушились или были перемещены. Вдобавок римляне злоупотребляли сокращениями и аббревиатурами. Всё это затрудняет и без того сложную расшифровку и интерпретацию, которой занимаются историки и археологи. Традиционно эксперты вручную ищут параллели — надписи с похожими словами, фразами, синтаксисом. Они нужны для контекстуализации. Изнурительный процесс сравнения текстов требует невероятной эрудиции и может затягиваться на месяцы и даже годы. Алгоритмы применялись, но они ограничивались буквальными совпадениями и не считывали смысл. Пришло время нейросетей.

🏺 Специалисты из Google DeepMind под руководством Янниса Ассаэля совместно с академическими учеными создали мультимодальную генеративную модель Aeneas, дабы автоматизировать процесс реконструкции старинной латыни и облегчить участь историков. Название отсылает к мифическому герою Троянской войны Энею, сыну богини Венеры, предку Ромула и Рема. Статья вышла в июле в Nature.

Aeneas принимает на вход транскрибированный латинский текст с пропусками нескольких символов (-) или фрагментов неизвестной длины (#), а также фотоснимки надписей. Ранее модели учитывали исключительно текст, тогда как много деталей можно почерпнуть из внешнего вида физических носителей.

🎭 Как в классической драме соблюдаются три единства, так и Aeneas решает три нетривиальные задачи: действиезаполняет гэпы в тексте, место — выдвигает предположение о регионе происхождения надписи, выбирая одну из 62 римских провинций и, наконец, время — предсказывает датировку с точностью до десятилетия.

Всем этим занимаются три нейросети (головы), принимающие данные от декодера трансформера T5, обрабатывающего исходные символы. Для обучения машинлернеры собрали корпус из 176 тыс. латинских надписей (для 5% были и картинки) за 15 веков со всех уголков Pax Romana — от Британии до Ирака. Aeneas восстанавливает обломки текста, даже когда вообще неизвестно, какой объем утерян! Исторически обогащенные эмбеддинги из T5 применяются для поиска в векторном пространстве, куда спроецирован весь датасет надписей: в итоге получается ранжированный список аналогов. Это прогресс по сравнению с предшествующей моделью Ithaca для древнегреческого языка. А еще в состав Aeneas входит ResNet-8 для обработки фото: эта визуальная информация учитывалась при географической атрибуции. Простейший пример: строку #us populusque Romanus ИИ дополняет до Senatus populusque Romanus («Сенат и народ Рима»).

👑 Ллмку проверили на знаменитом документе эпохи императора Октавиана — Res Gestae Divi Augusti («Деяния божественного Августа»), лучшая копия которого сохранилась на каменной стене храма в Анкаре 🇹🇷. Полагаясь только на тонкие лингвистические маркеры, ИИ сузил оценку возраста монументального трактата до двух периодов (10–1 гг. до н. э. и 10–20 гг. н. э). К таким же выводам пришли эксперты. Но за годы трудов и дебатов.

Конечно, Aeneas не заместит опытных профессионалов, однако позволит им мгновенно находить параллели и сосредотачиваться сразу на самых вероятных версиях. 23 приглашенных эпиграфиста уже протестили модель: в 9 из 10 случаев она дала полезную затравку и инсайты. Сейчас датасет и код полностью доступны, открыт сайт predictingthepast.com

🏆 Думаете, это чудеса и технологии уровня олимпийских богов? Вовсе нет: ученые из разных сфер используют те же самые архитектуры и тулы для обработки данных, которые изучают даже студенты. Скажем, в приложении к статье про Aeneas можно обнаружить, что рисечеры юзали numpy, pandas для стандартизации датасетов, seaborn, matplotlib для графиков, а также другие библиотеки. Все дороги ведут в... Python
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13🥰6💯531😁1



group-telegram.com/blastim/2956
Create:
Last Update:

Нерон и Нейрон: ИИ — моя Римская империя 🏛

Древние римляне много писали. Ежегодно обнаруживают до полутора тысяч латинских начертаний — высеченные на камне и выгравированные на монументах, в публичных пространствах и частных домах, нацарапанные на заборах... Надписи позволяют напрямую ощутить повседневную жизнь людей разных слоев обществ прошлого — от бытовых забот до политики и экономики. Это исследует дисциплина эпиграфика 🖋🪦

🔨 Однако за тысячелетия буквы стерлись, предметы с надписями разрушились или были перемещены. Вдобавок римляне злоупотребляли сокращениями и аббревиатурами. Всё это затрудняет и без того сложную расшифровку и интерпретацию, которой занимаются историки и археологи. Традиционно эксперты вручную ищут параллели — надписи с похожими словами, фразами, синтаксисом. Они нужны для контекстуализации. Изнурительный процесс сравнения текстов требует невероятной эрудиции и может затягиваться на месяцы и даже годы. Алгоритмы применялись, но они ограничивались буквальными совпадениями и не считывали смысл. Пришло время нейросетей.

🏺 Специалисты из Google DeepMind под руководством Янниса Ассаэля совместно с академическими учеными создали мультимодальную генеративную модель Aeneas, дабы автоматизировать процесс реконструкции старинной латыни и облегчить участь историков. Название отсылает к мифическому герою Троянской войны Энею, сыну богини Венеры, предку Ромула и Рема. Статья вышла в июле в Nature.

Aeneas принимает на вход транскрибированный латинский текст с пропусками нескольких символов (-) или фрагментов неизвестной длины (#), а также фотоснимки надписей. Ранее модели учитывали исключительно текст, тогда как много деталей можно почерпнуть из внешнего вида физических носителей.

🎭 Как в классической драме соблюдаются три единства, так и Aeneas решает три нетривиальные задачи: действиезаполняет гэпы в тексте, место — выдвигает предположение о регионе происхождения надписи, выбирая одну из 62 римских провинций и, наконец, время — предсказывает датировку с точностью до десятилетия.

Всем этим занимаются три нейросети (головы), принимающие данные от декодера трансформера T5, обрабатывающего исходные символы. Для обучения машинлернеры собрали корпус из 176 тыс. латинских надписей (для 5% были и картинки) за 15 веков со всех уголков Pax Romana — от Британии до Ирака. Aeneas восстанавливает обломки текста, даже когда вообще неизвестно, какой объем утерян! Исторически обогащенные эмбеддинги из T5 применяются для поиска в векторном пространстве, куда спроецирован весь датасет надписей: в итоге получается ранжированный список аналогов. Это прогресс по сравнению с предшествующей моделью Ithaca для древнегреческого языка. А еще в состав Aeneas входит ResNet-8 для обработки фото: эта визуальная информация учитывалась при географической атрибуции. Простейший пример: строку #us populusque Romanus ИИ дополняет до Senatus populusque Romanus («Сенат и народ Рима»).

👑 Ллмку проверили на знаменитом документе эпохи императора Октавиана — Res Gestae Divi Augusti («Деяния божественного Августа»), лучшая копия которого сохранилась на каменной стене храма в Анкаре 🇹🇷. Полагаясь только на тонкие лингвистические маркеры, ИИ сузил оценку возраста монументального трактата до двух периодов (10–1 гг. до н. э. и 10–20 гг. н. э). К таким же выводам пришли эксперты. Но за годы трудов и дебатов.

Конечно, Aeneas не заместит опытных профессионалов, однако позволит им мгновенно находить параллели и сосредотачиваться сразу на самых вероятных версиях. 23 приглашенных эпиграфиста уже протестили модель: в 9 из 10 случаев она дала полезную затравку и инсайты. Сейчас датасет и код полностью доступны, открыт сайт predictingthepast.com

🏆 Думаете, это чудеса и технологии уровня олимпийских богов? Вовсе нет: ученые из разных сфер используют те же самые архитектуры и тулы для обработки данных, которые изучают даже студенты. Скажем, в приложении к статье про Aeneas можно обнаружить, что рисечеры юзали numpy, pandas для стандартизации датасетов, seaborn, matplotlib для графиков, а также другие библиотеки. Все дороги ведут в... Python

BY Бластим: курсы и работа в биотехе




Share with your friend now:
group-telegram.com/blastim/2956

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

To that end, when files are actively downloading, a new icon now appears in the Search bar that users can tap to view and manage downloads, pause and resume all downloads or just individual items, and select one to increase its priority or view it in a chat. That hurt tech stocks. For the past few weeks, the 10-year yield has traded between 1.72% and 2%, as traders moved into the bond for safety when Russia headlines were ugly—and out of it when headlines improved. Now, the yield is touching its pandemic-era high. If the yield breaks above that level, that could signal that it’s on a sustainable path higher. Higher long-dated bond yields make future profits less valuable—and many tech companies are valued on the basis of profits forecast for many years in the future. Channels are not fully encrypted, end-to-end. All communications on a Telegram channel can be seen by anyone on the channel and are also visible to Telegram. Telegram may be asked by a government to hand over the communications from a channel. Telegram has a history of standing up to Russian government requests for data, but how comfortable you are relying on that history to predict future behavior is up to you. Because Telegram has this data, it may also be stolen by hackers or leaked by an internal employee. But the Ukraine Crisis Media Center's Tsekhanovska points out that communications are often down in zones most affected by the war, making this sort of cross-referencing a luxury many cannot afford. Soloviev also promoted the channel in a post he shared on his own Telegram, which has 580,000 followers. The post recommended his viewers subscribe to "War on Fakes" in a time of fake news.
from sa


Telegram Бластим: курсы и работа в биотехе
FROM American