Параметр n_negative_per_positive определяет количество добавляемых при подготовке датасета негативных сэмплов на один позитивный. Метрика f1 описывает качество на валидационной части датасета (F1 score). Намного более полезна метрика eval_acc - точность выбора предпосылки для вопроса среди множества альтернатив. Для этой метрики создан отдельный небольшой датасет, содержащий неизвестные при обучении сэмплы.
n_negative_per_positive f1 eval_acc 1 0.987 0.51 2 0.985 0.64 3 0.984 0.61 4 0.980 0.61 5 0.983 0.63 10 0.980 0.65 20 0.976 0.68 50 0.968 0.67
Видны два тренда - f1 ухудшается, но метрика eval_acc улучшается, то есть модель все-таки становится лучше при работе с новыми данными в режиме ранжирования.