March 18th, 2020

К вопросу о точности UDPipe, обученном на датасете Синтагрус

PS: В ходе перепроверки выяснилось, что сделанный ранее вывод о проблемах синтагруса неверен. Шаблоны вида:

NP,Acc#значит#NP,Nom,Sing#

соответствуют в том числе предложениям типа:

что значит эта фраза ?

В них аккузатив для "что" определен правильно.

Collapse )

Новый набор с русскоязычными паттернами noun+NP,gen

Побочный результат подготовки датасета для генеративной модели - список из почти миллиона словосочетаний Noun+NP,gen:
Collapse )
Архив выложен в репозиторий NLP Datasets. Паттерны собирались автоматически без модерации и предобработки спеллчеком, поэтому там есть некоторое количество мусора типа "кожа лица кофе".