Козиев Илья (kelijah) wrote,
Козиев Илья
kelijah

Category:

Влияние объема негативного сэмплинга для качество модели определения релевантности вопроса

В таблице показана зависимость метрик качества модели определения релевантности предпосылки и вопроса на базе градиентного бустинга и bag-of-shingles от количества добавляемых негативных пар.

Параметр n_negative_per_positive определяет количество добавляемых при подготовке датасета негативных сэмплов на один позитивный. Метрика f1 описывает качество на валидационной части датасета (F1 score). Намного более полезна метрика eval_acc - точность выбора предпосылки для вопроса среди множества альтернатив. Для этой метрики создан отдельный небольшой датасет, содержащий неизвестные при обучении сэмплы.

n_negative_per_positive f1     eval_acc
1                       0.987  0.51
2                       0.985  0.64 
3                       0.984  0.61
4                       0.980  0.61
5                       0.983  0.63
10                      0.980  0.65
20                      0.976  0.68
50                      0.968  0.67



Видны два тренда - f1 ухудшается, но метрика eval_acc улучшается, то есть модель все-таки становится лучше при работе с новыми данными в режиме ранжирования.
Tags: чатбот
Subscribe
  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your reply will be screened

  • 1 comment