Козиев Илья (kelijah) wrote,
Козиев Илья
kelijah

Category:

Оценки для задачи "бинарная классификация - является ли реплика продолжением диалога"

Сделал оценки нескольких методов для определения, является ли реплика допустимым продолжением диалога.
Датасет - Толока. Взято 100,000 реплик. (Был еще контест в 2018 от Я с похожей задачей, тамошний датасет, по-моему, грязноват в сравнении с Толокой.)
В качестве истории бралась одна предшествующая фраза другого собеседника.
Негативные сэмплы добавлялись в количестве 1 на 1 позитивный.
Оценки получены кроссвалидацией на 3х фолдах.

Baseline - LinearSVC на символьных шинглах roc auc=0.55
LightGBM на символьных шинглах ruc auc=0.645
Нейросетка поверх pretrained ruBERT из deeppavlov roc auc=0.709

PS: Если увеличить обучающий набор до 200,000 позитивных пар, roc auc BERT-классификатора вырастает до 0.723.
Tags: bert, диалоги, чатбот
Subscribe
  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your reply will be screened

  • 5 comments