?

Log in

No account? Create an account

Компьютерная лингвистика

Новостная лента www.solarix.ru

Previous Entry Share Next Entry
Влияние объема негативного сэмплинга для качество модели определения релевантности вопроса
kelijah
В таблице показана зависимость метрик качества модели определения релевантности предпосылки и вопроса на базе градиентного бустинга и bag-of-shingles от количества добавляемых негативных пар.

Параметр n_negative_per_positive определяет количество добавляемых при подготовке датасета негативных сэмплов на один позитивный. Метрика f1 описывает качество на валидационной части датасета (F1 score). Намного более полезна метрика eval_acc - точность выбора предпосылки для вопроса среди множества альтернатив. Для этой метрики создан отдельный небольшой датасет, содержащий неизвестные при обучении сэмплы.

n_negative_per_positive f1     eval_acc
1                       0.987  0.51
2                       0.985  0.64 
3                       0.984  0.61
4                       0.980  0.61
5                       0.983  0.63
10                      0.980  0.65
20                      0.976  0.68
50                      0.968  0.67



Видны два тренда - f1 ухудшается, но метрика eval_acc улучшается, то есть модель все-таки становится лучше при работе с новыми данными в режиме ранжирования.


  • 1
Поэтому лучше всего оценивать (когда это возможно) AUC и её варианты. В данном случае мы неявно начинаем фитить модель в области трешоилдов где "нужные события редкие", и это совпадает с частотой "при применении на реальных данных".

  • 1