February 25th, 2020

25 тысяч корней в викисловаре

К вопросу о генеративных языковых моделях.

Если распарсить русский викисловарь и собрать инфу о морфологическом разборе (секция Морфологические и синтаксические свойства), то выясняется, что всего есть ~25 тысяч уникальных корней.

Некоторые корни весьма продуктивны. Например корень "дв" упомянут для 521 слова, включая составные:
Collapse )

Полный список слов и корней лежит в репозитории NLP Datasets