Category: спорт

Непонятная эффективность XGBoost модели для вычисления релевантности текста и вопроса

(продолжение темы про модели для чат-бота, предыдущий текст тут)

В репозиторий проекта выложены тренеры для двух альтернативных моделей, вычисляющих релевантность предпосылки и вопроса к этой предпосылке:

nn_relevancy.py - нейросетка;
xgb_relevancy.py - решение на базе XGBoost.

Загадочной особенностью данной задачи является необъяснимая эффективность XGBoost, или неэффективность нейросетевого решения. На одном и том же датасете нейросетка дает на валидации стабильно точность в районе 0.96...0.97, а градиентный бустинг выбивает стабильно больше 0.99 при кратно меньших затратах времени.

Collapse )