В блоге Meta пишут о том что компания строит свой переводчик реального времени с использованием ИИ [1] и обещают поддерживать много языков и хорошее качество перевода, но не указывают сроки. Тут сложно не вспомнить что похожие технологии появляются и у других компаний, например, в Microsoft Skype уже довольно давно умеет переводить между 40 языками.
Это как раз из тех задач для которых нужны огромные объёмы данных и тем важнее оцифровка и доступность языковых данных. Системы перевода могут спасти вымирающие языки от полного исчезновения.
Ссылки:
[1] https://ai.facebook.com/blog/teaching-ai-to-translate-100s-of-spoken-and-written-languages-in-real-time
#ai #translation #data
Это как раз из тех задач для которых нужны огромные объёмы данных и тем важнее оцифровка и доступность языковых данных. Системы перевода могут спасти вымирающие языки от полного исчезновения.
Ссылки:
[1] https://ai.facebook.com/blog/teaching-ai-to-translate-100s-of-spoken-and-written-languages-in-real-time
#ai #translation #data
Meta
Teaching AI to translate 100s of spoken and written languages in real time
To enable translations for low-resource languages & to prep for future real-time speech to speech translations, we’re expanding our automatic data set creation techniques, working to overcome modeling challenges, and finding new ways to evaluate MT results.
В рубрике интересных наборов данных United Nations Parallel Corpus [1] с одной стороны многим известный, а с другой, на удивление, далеко не всем.
Этот набор данных включает связанные тексты на разных языках позволяя развивать технологии перевода, как минимум, между популярными языками которые использует ООН.
В общей сложности это 799 276 документов и 1 727 539 пар связанных документов.
Доступно под свободной лицензией, но не стандартной, а с требованием упоминания ООН и исследования в рамках которого этот набор данных был создан.
Ссылки:
[1] https://conferences.unite.un.org/uncorpus
#opendata #un #datasets #languages #translation
Этот набор данных включает связанные тексты на разных языках позволяя развивать технологии перевода, как минимум, между популярными языками которые использует ООН.
В общей сложности это 799 276 документов и 1 727 539 пар связанных документов.
Доступно под свободной лицензией, но не стандартной, а с требованием упоминания ООН и исследования в рамках которого этот набор данных был создан.
Ссылки:
[1] https://conferences.unite.un.org/uncorpus
#opendata #un #datasets #languages #translation