Козиев Илья (kelijah) wrote,
Козиев Илья
kelijah

Categories:

Перевод англоязычных датасетов на русский язык с помощью OpenNMT

Мир несправедлив, в том числе в объеме доступных русскоязычных датасетов для NLP.
В связи с ростом качества нейросетевых систем машинного перевода возникает мысль прогонять тексты через такой переводчик.
Я взял OpenNMT и en-ru модель отсюда.
На входе - англоязычные диалоги.

Результаты:

- Hello!
- Hi! How are you?
- Not bad! And You?
- I'm doing well. Just got engaged to my high school sweetheart.
- Wowowowow! Congratulations! Is she pretty?
- She 's pretty cute. She invited me to dinner tonight. 🙂
- Cool! Have a good time you both! And what is your hobby?
- I love music! I love Taylor swift. 😉
- Me too. And what about Iggy Pop?
- I love Ziggy! He is my favorite. Are you and your wife millennial too?
- I have no wife. And I'm not millenial, I'm X generation. Hey? Where are you?
- I am sorry to hear that. What do you do for fun?
- I'm playing pipe organ.
- That sounds impressive. I like to go out to eat with my friends.
- Cool! See ya!
----------------------------------------------------
- Здравствуйте!
- Привет! Как дела?
- Неплохо!
- У меня все хорошо.
- Воовы! Поздравляем!
- Она довольно симпатичная.
- Классно провели время вместе!
- Я люблю музыку! Я люблю Тейлор Свифт.
А что насчет Игги Попа?
- Я люблю Зигги! Он мой любимый.
- У меня нет жены. И я не милленал, я - Х поколение.
- Мне очень жаль это слышать.
- Я играю на органе.
- Звучит впечатляюще.
- Круто!



Временами появляется бред, но его не так уж много, так что ручная модерация должна помочь:

- Я разработчик программного обеспечения.
- О, круто.
- Я танцую барабан и базу!
Tags: opennmt, датасеты, машинный перевод
Subscribe

  • Error

    Anonymous comments are disabled in this journal

    default userpic

    Your reply will be screened

  • 1 comment