?

Log in

No account? Create an account

Компьютерная лингвистика

Новостная лента www.solarix.ru

Previous Entry Share Next Entry
Обновленные датасеты для тренировки чат-ботов
kelijah
После нескольких итераций, в ходе которых исправлены некоторые ошибки и добавлены новые синтаксические конструкции, в репозиторий https://github.com/Koziev/NLP_Datasets/tree/master/QA выложены новые файлы с тройками "предпосылка-вопрос-ответ" с таким форматом:

T: Малышки успешно прошли актировку
Q: малышки успешно прошли что?
A: актировку

T: Малышки успешно прошли актировку
Q: малышки что успешно прошли?
A: актировку

T: Малышки успешно прошли актировку
Q: успешно прошли малышки что?
A: актировку

T: Брат пристально посмотрел на доктора
Q: на кого посмотрел брат?
A: на доктора

T: Брат пристально посмотрел на доктора
Q: на кого брат посмотрел?
A: на доктора

T: Брат пристально посмотрел на доктора
Q: посмотрел на кого брат?
A: на доктора


Датасеты генерируются автоматически из корпуса предложений, который тоже выложен в репозитории https://github.com/Koziev/NLP_Datasets/tree/master/Samples. Объем датасетов достаточно велик, примерно по 50 тысяч троек, чтобы тренировка deep learning моделей была достаточно эффективна.
Tags: ,