Telegram Group & Telegram Channel
Часть десятая. Легкая работа.

От меня не требовалось программировать для продакшена, а только улучшать работу отдела лингвистики. Мне казалось это легкой и недостаточно продвинутой работой, по сравнению с тем, что я делала в магистратуре и затем в аспирантуре, но я все равно многому научилась. Вот что это было.

Pandas. Я уже знала кое-что базовое про таблицы и pandas, и решила применить эти знания. Анализ ошибок распознавания и маршрутизации звонков происходил в экселе, вручную, что приводило к большому количеству опечаток, проблемам с кодировкой и тому подобное. Из текстовых логов я делала таблицы CSV, лингвисты напрямую открывали их в экселе, кодировка ломалась, и так каждый раз. Я посмотрела на все это и написала скрипты на питоне, которые читали эти таблицы, исправляли кодировку, считали статистику (точность, полноту и тд.) и показывали, в каких местах есть опечатки, неправильные колонки, пустые ячейки. Все, что можно было исправить автоматически, исправлялось, остальное просто выводилось на экран. Таким образом я быстро стала богиней таблиц. Pandas - это лучшее изобретение для обработки таблиц в питоне. Pandas + Spyder - это любовь и я не представляю, что может быть удобнее и стабильнее.

CLI (command line interface). Чтобы остальные лингвисты могли использовать эти скрипты, мне пришлось освоить написание интерфейсов для командной строки и библиотеку argparse.

Работа с файлами в питоне. При работе с логами требовалось копировать файлы, выбирать нужные в разных папках разной структуры, форматировать, переименовывать и удалять. Все это было сделано на баш-скриптах, и я написала что-то подобное, только на питоне. Что было намного более понятно и поддавалось контролю, в отличие от.

Я также научилась устанавливать и настраивать Nuance, если компании нужно было только распознавание речи, без звонков. Весь пользовательский интерфейс был через CLI. Мне пришлось освоить командную строку в виндоус и Red Hat, а также YAML. Я прошла курс по Нюансу, и у меня даже есть сертификат. Я сертифицированный устанавливатель Нюанса.

Я написала скрипты, чтобы считать word error rate для распознавания речи.

API Google Translate. Для создания корпуса на каталанском я предложила использовать перевод с испанского. Этот перевод сперва хотели поручать каталанскому офису, они же знают два языка, пусть переводят. Я говорю: ведь если мы переведем тексты автоматически, тем более что пара испанский-каталан несложная, а работники только проверят, что все правильно и где неправильно, исправят, это сократит время работы.



group-telegram.com/about_nlp/132
Create:
Last Update:

Часть десятая. Легкая работа.

От меня не требовалось программировать для продакшена, а только улучшать работу отдела лингвистики. Мне казалось это легкой и недостаточно продвинутой работой, по сравнению с тем, что я делала в магистратуре и затем в аспирантуре, но я все равно многому научилась. Вот что это было.

Pandas. Я уже знала кое-что базовое про таблицы и pandas, и решила применить эти знания. Анализ ошибок распознавания и маршрутизации звонков происходил в экселе, вручную, что приводило к большому количеству опечаток, проблемам с кодировкой и тому подобное. Из текстовых логов я делала таблицы CSV, лингвисты напрямую открывали их в экселе, кодировка ломалась, и так каждый раз. Я посмотрела на все это и написала скрипты на питоне, которые читали эти таблицы, исправляли кодировку, считали статистику (точность, полноту и тд.) и показывали, в каких местах есть опечатки, неправильные колонки, пустые ячейки. Все, что можно было исправить автоматически, исправлялось, остальное просто выводилось на экран. Таким образом я быстро стала богиней таблиц. Pandas - это лучшее изобретение для обработки таблиц в питоне. Pandas + Spyder - это любовь и я не представляю, что может быть удобнее и стабильнее.

CLI (command line interface). Чтобы остальные лингвисты могли использовать эти скрипты, мне пришлось освоить написание интерфейсов для командной строки и библиотеку argparse.

Работа с файлами в питоне. При работе с логами требовалось копировать файлы, выбирать нужные в разных папках разной структуры, форматировать, переименовывать и удалять. Все это было сделано на баш-скриптах, и я написала что-то подобное, только на питоне. Что было намного более понятно и поддавалось контролю, в отличие от.

Я также научилась устанавливать и настраивать Nuance, если компании нужно было только распознавание речи, без звонков. Весь пользовательский интерфейс был через CLI. Мне пришлось освоить командную строку в виндоус и Red Hat, а также YAML. Я прошла курс по Нюансу, и у меня даже есть сертификат. Я сертифицированный устанавливатель Нюанса.

Я написала скрипты, чтобы считать word error rate для распознавания речи.

API Google Translate. Для создания корпуса на каталанском я предложила использовать перевод с испанского. Этот перевод сперва хотели поручать каталанскому офису, они же знают два языка, пусть переводят. Я говорю: ведь если мы переведем тексты автоматически, тем более что пара испанский-каталан несложная, а работники только проверят, что все правильно и где неправильно, исправят, это сократит время работы.

BY NLP Master


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/about_nlp/132

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Channels are not fully encrypted, end-to-end. All communications on a Telegram channel can be seen by anyone on the channel and are also visible to Telegram. Telegram may be asked by a government to hand over the communications from a channel. Telegram has a history of standing up to Russian government requests for data, but how comfortable you are relying on that history to predict future behavior is up to you. Because Telegram has this data, it may also be stolen by hackers or leaked by an internal employee. And indeed, volatility has been a hallmark of the market environment so far in 2022, with the S&P 500 still down more than 10% for the year-to-date after first sliding into a correction last month. The CBOE Volatility Index, or VIX, has held at a lofty level of more than 30. Pavel Durov, Telegram's CEO, is known as "the Russian Mark Zuckerberg," for co-founding VKontakte, which is Russian for "in touch," a Facebook imitator that became the country's most popular social networking site. During the operations, Sebi officials seized various records and documents, including 34 mobile phones, six laptops, four desktops, four tablets, two hard drive disks and one pen drive from the custody of these persons. "The inflation fire was already hot and now with war-driven inflation added to the mix, it will grow even hotter, setting off a scramble by the world’s central banks to pull back their stimulus earlier than expected," Chris Rupkey, chief economist at FWDBONDS, wrote in an email. "A spike in inflation rates has preceded economic recessions historically and this time prices have soared to levels that once again pose a threat to growth."
from ca


Telegram NLP Master
FROM American