Category: авто

Category was added automatically. Read all entries about "авто".

Запустил обучение модели wordchar2vector на Tesla K80 в гугловском Colaboratory

Описание халявы тут https://habrahabr.ru/post/348058/
Запустил там обучение своей модельки wordchar2vector из репозитория https://github.com/Koziev/chatbot:
Collapse )
Судя по бенчмарку ETA работает это чудо примерно в 4-5 раз медленнее, чем моя железная GTX 980. Вообще ощущение, что физически эта штука там неслабо так делится между халявщиками уважаемыми пользователями сервиса.

Странная фича для определения перефразировки вопросов в каггле Quora Question Pairs

Соревнование по определению похожести вопросов закончилось, теперь можно поизучать чужие решения. И пересмотреть еще раз некоторе нюансы в своем решении тоже.

Итак, есть один признак, который я добавил в датасет, не ожидая особого эффекта. Но он оказался достаточно сильным, и это странно.

Вот топ списка фич, выдаваемых xgboost и отсортированных в порядке убывания веса:

Collapse )

Выделенные болдом признаки kenlm_* представляют из себя оценки достоверности фрагментов фразы. Они вычисляются с помощью предварительно построенной языковой н-грамной модели KenLM. Вычисление делается вот так:

Collapse )

То есть берем начало вопроса из нескольких слов. Значения для начальных фрагментов длиной в 8, 16 и 32 слова вычисляются отдельно. Вычисляем оценку для первого вопроса, для второго, сохраняем их в датасете, а также добавляем разницу оценок. Учитывая логарифмический характер оценок, мы фактически определяем относительную оценку.

И ничто в этом алгоритме не подразумевает какой-либо внятной связи получаемых оценок с фактом семантической близости двух вопросов. Вопросы могут формулироваться с использованием разных слов и оборотов, что неизбежно должно давать совершенно нерелевантные фичи.

Но тем не менее xgboost в ходе построения деревьев на каком-то уровне делает вывод, что выгода от учета значения kenlm-фичи больше, чем, например учет похожести предложений на базе информации в WordNet (синонимия и так далее) - см. положение фичи wordnet_sim_0.