Козиев Илья (kelijah) wrote,
Козиев Илья
kelijah

Category:

Влияние объема негативного сэмплинга для качество модели определения релевантности вопроса

В таблице показана зависимость метрик качества модели определения релевантности предпосылки и вопроса на базе градиентного бустинга и bag-of-shingles от количества добавляемых негативных пар.

Параметр n_negative_per_positive определяет количество добавляемых при подготовке датасета негативных сэмплов на один позитивный. Метрика f1 описывает качество на валидационной части датасета (F1 score). Намного более полезна метрика eval_acc - точность выбора предпосылки для вопроса среди множества альтернатив. Для этой метрики создан отдельный небольшой датасет, содержащий неизвестные при обучении сэмплы.

n_negative_per_positive f1     eval_acc
1                       0.987  0.51
2                       0.985  0.64 
3                       0.984  0.61
4                       0.980  0.61
5                       0.983  0.63
10                      0.980  0.65
20                      0.976  0.68
50                      0.968  0.67



Видны два тренда - f1 ухудшается, но метрика eval_acc улучшается, то есть модель все-таки становится лучше при работе с новыми данными в режиме ранжирования.
Tags: чатбот
Subscribe

Recent Posts from This Journal

  • Релиз 0.0.20.0 чатбота

    В репозитории выложен докер-образ со сборкой чатбота, в которую вошли следующие изменения. 1) Доработки концепции профилей - правила и факты…

  • Перевод англоязычных датасетов на русский язык с помощью OpenNMT

    Мир несправедлив, в том числе в объеме доступных русскоязычных датасетов для NLP. В связи с ростом качества нейросетевых систем машинного перевода…

  • немножно теста NVidia RTX 3090

    Примерно час в боевом режиме тренировки модели (файнтюнинг GPT2). Размер батч подобран так, чтобы как раз влезало в 24 Гб памяти на борту карточки.…

  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your reply will be screened

  • 1 comment