February 20th, 2020

Обучающий датасет для русскоязычного POS Tagger'а (880 тысяч предложений)

В репозитории rupostagger выложен архив samples.gz

Этот архив содержит мой полный текущий датасет для обучения модели частеречной разметки для русского языка.

Объем датасета - примерно 880 тысяч предложений.

Морфологическая разметка в основном следует рекомендациям Universal Dependencies, за исключением некоторых второстепенных деталей. В частности, не используется класс DET, вместо него указывается ADJ.

Обучающий датасет для русскоязычного NP-чанкера

В репозитории ruchunker выложен датасет, на котором обучается NP chunker.

Формат разметки:

0 Бросай
1 свое
2 захолустье
0 ,
0 полетели
0 .


Первый токен в именной группе помечается меткой 1, последующие токены - меткой 2.

Задача чанкера - выделять в предложениях именные группы. Размечены только ИГ верхнего уровня. Вложенные ИГ, например генитив, считаются частью родительского чанка. Датасет получен автоматической конвертацией tree bank'а.