Козиев Илья (kelijah) wrote,
Козиев Илья
kelijah

Category:

Релиз чатбота 0.0.2.13 - генеративный перефразировщик реплик и улучшение качества

Для чатбота в рамках релиза 0.0.2.13 подготовлено несколько улучшений.

1) Существенно увеличена точность seq2seq модели генерации текста ответа, ценой увеличения времени тренировки до ~40 часов. На данный момент метрика качества (Jaccard similarity) на валидации дает ~0.89, то есть почти в 90% тестовых случаях модель генерирует точный ответ. Увеличение точности этой модели позволяет отработать некоторым сложным тестам с формальным выводом:

H:> все философы смертны
H:> сократ - философ
H:> смертен ли сократ?
B:> да

Сейчас сценарий вывода с двумя предпосылками срабатывает только для последних 3 реплик собеседника, но в будущем планируется, что она будет подхватывать также предпосылки с кванторами из базы данных.

2) Добавлена экспериментальная точная модель генерации ответа для самых частотных случаев (шаблонная kNN-1).

3) Модель интерпретатора немного улучшена за счет расширения обучающего датасета до 28,000 образцов анафоры, гэппинга, элипсиса etc.

4) В динамические факты добавлена текущая дата (Сегодня 29 июня) и текущий год (Сейчас 2020 год), чтобы бот мог отвечать на вопросы типа "компьютер, скажи, какое сегодня число?"

5) Генеративный перефразировщик реплик вносит вариативность в ответы бота. Он обучается на датасете перефразировок и для некоторых типов фраз умеет строить некоторое количество синонимичных вариантов. Например, для реплики "меня зовут Вика" перефразировщик выдаст варианты:

мое имя - вика
вика - так меня зовут
меня вика зовут
меня зовут вика
Tags: chatbot, генеративная грамматика, генеративная модель, генерация текста, перефразировки, чатбот
Subscribe
  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your reply will be screened

  • 0 comments