Перевод англоязычных датасетов на русский язык с помощью OpenNMT
Мир несправедлив, в том числе в объеме доступных русскоязычных датасетов для NLP.
В связи с ростом качества нейросетевых систем машинного перевода возникает мысль прогонять тексты через такой переводчик.
Я взял OpenNMT и en-ru модель отсюда.
На входе - англоязычные диалоги.
Результаты:
Временами появляется бред, но его не так уж много, так что ручная модерация должна помочь:
В связи с ростом качества нейросетевых систем машинного перевода возникает мысль прогонять тексты через такой переводчик.
Я взял OpenNMT и en-ru модель отсюда.
На входе - англоязычные диалоги.
Результаты:
- Hello! - Hi! How are you? - Not bad! And You? - I'm doing well. Just got engaged to my high school sweetheart. - Wowowowow! Congratulations! Is she pretty? - She 's pretty cute. She invited me to dinner tonight. 🙂 - Cool! Have a good time you both! And what is your hobby? - I love music! I love Taylor swift. 😉 - Me too. And what about Iggy Pop? - I love Ziggy! He is my favorite. Are you and your wife millennial too? - I have no wife. And I'm not millenial, I'm X generation. Hey? Where are you? - I am sorry to hear that. What do you do for fun? - I'm playing pipe organ. - That sounds impressive. I like to go out to eat with my friends. - Cool! See ya! ---------------------------------------------------- - Здравствуйте! - Привет! Как дела? - Неплохо! - У меня все хорошо. - Воовы! Поздравляем! - Она довольно симпатичная. - Классно провели время вместе! - Я люблю музыку! Я люблю Тейлор Свифт. А что насчет Игги Попа? - Я люблю Зигги! Он мой любимый. - У меня нет жены. И я не милленал, я - Х поколение. - Мне очень жаль это слышать. - Я играю на органе. - Звучит впечатляюще. - Круто!
Временами появляется бред, но его не так уж много, так что ручная модерация должна помочь:
- Я разработчик программного обеспечения. - О, круто. - Я танцую барабан и базу!