Ivan Begtin

В блоге Meta пишут о том что компания строит свой переводчик реального времени с использованием ИИ [1] и обещают поддерживать много языков и хорошее качество перевода, но не указывают сроки. Тут сложно не вспомнить что похожие технологии появляются и у других компаний, например, в Microsoft Skype уже довольно давно умеет переводить между 40 языками.

Это как раз из тех задач для которых нужны огромные объёмы данных и тем важнее оцифровка и доступность языковых данных. Системы перевода могут спасти вымирающие языки от полного исчезновения.

Ссылки:
[1] https://ai.facebook.com/blog/teaching-ai-to-translate-100s-of-spoken-and-written-languages-in-real-time

#ai #translation #data

Meta

Teaching AI to translate 100s of spoken and written languages in real time

To enable translations for low-resource languages & to prep for future real-time speech to speech translations, we’re expanding our automatic data set creation techniques, working to overcome modeling challenges, and finding new ways to evaluate MT results.

2.3K viewsIvan Begtin, 12:08

Ivan Begtin

В рубрике интересных наборов данных United Nations Parallel Corpus [1] с одной стороны многим известный, а с другой, на удивление, далеко не всем.

Этот набор данных включает связанные тексты на разных языках позволяя развивать технологии перевода, как минимум, между популярными языками которые использует ООН.

В общей сложности это 799 276 документов и 1 727 539 пар связанных документов.

Доступно под свободной лицензией, но не стандартной, а с требованием упоминания ООН и исследования в рамках которого этот набор данных был создан.

Ссылки:
[1] https://conferences.unite.un.org/uncorpus

#opendata #un #datasets #languages #translation

2.3K viewsIvan Begtin, 11:49

About

Blog

Apps

Platform