Category: финансы

Skip-gram и открой окно пошире...

Продолжая http://kelijah.livejournal.com/167972.html.
В word2vector модели при генерации поставил cbow=0 и слелал размер окна 10.
Плюс изменил порядок сравнения близости контекстов.
Итог - неточность снятия омонимии и определения нужного смысла для многозначных слов упала в 3 раза, до ~8%:
Collapse )

Словосочетания сущ + сущ в род. падеже

Продолжение статистики по корпусу из http://kelijah.livejournal.com/165490.html.
Собраны словосочетания с существительными, к которым присоеденены существительные в родительном падеже.
Сортировка по абсолютной частоте:
Collapse )

Сортировка по mutual information:
Collapse )

Видны артефакты парсинга. Например, Юрий|лужок - это ошибочный разбор для "Юрий Лужков". Упрощенная морфологическая модель считает "Лужков" только формой существительного "лужок", отсюда и результат в парсере. На это накладывается еще и склонность mutual information выносить в топ всякие опечатки, которые встречаются очень редко, соответственно дают малый знаменатель в формуле MI.