?

Log in

No account? Create an account

Компьютерная лингвистика

Новостная лента www.solarix.ru

Previous Entry Share Next Entry
Волшебство seq2seq нейросетки в чатботе - вот кто так еще умеет?
kelijah
Тренер модели и тестирующая часть доступны в файле nn_chargenerator.py.
Готовая модель натренирована на моем датасете вопросов и ответов, она выложена тут (файлы nn_chargenerator.*). Ее назначение - генерация ответа чатбота при наличии нескольких предпосылок (от 0 до 3) и вопроса. В рассматриваемом случае предпосылок нет, текст вопроса содержит в себе все необходимое.

Запускать в консоли надо так: python nn_chargenerator.py --run_mode query

Ответы модели на вопросы "Сколько букв в слове ...?":



Идея теста родилась случайно, когда я просматривал странички Вики с описаниями разных игр. Кроме вопросов на количество букв, можно будет попробовать обучить чатбот отвечать на вопросы такого вида:

- Назови птиц, названия которых начинаются на 'во'
- Названия каких животных оканчиваются на мягкий знак?
...


  • 1
Не очень понял по ссылке, на каком датасете натренирована модель, чтобы так точно отвечать по числу букв. Что с чем сопоставлялось в тренировочном сете? Слова с цифрами?

Датасет, на котором обучается модель, помимо всякого другого содержит такие сэмплы:

Q: В слове "ворона" 2 гласных, верно?
A: Нет

Q: В слове "кот" 2 гласных, верно?
A: Нет

Q: В слове "кот" 1 гласная, верно?
A: Да

Q: Сколько же буковок в слове "сыр"?
A: 3

Q: В слове "сок" сколько букв?
A: 3

Q: В слове "мама" сколько букв?
A: 4


А, то есть датасет был тоже пол таким вопросам. Но все равно точность удивляет, учитывая «обобщающую силу» сеток (что то близкое к точному ответу). И какие выводы? )

> И какие выводы? )

На самом деле демонстрируемые пары вопрос-ответ сделаны просто для проверки того, насколько хорошо выбранное для чатбота представление входного текста передает не только лексическую информацию, но более мелкую - буквы, морфемы. Вот, видно что неплохо передает.

Следовательно, можно попробовать сделать бота для некоторых игр в слова, где требуется доступ к посимвольному уровню. У меня их несколько штук запланировано.


  • 1