June 12th, 2020

Еще раз - сравнение part-of-speech tagger'ов на OpenCorpora

Для оценки взят корпус из OpenCorpora со снятой омонимией. Он конвертирован в CONLLU и тегсет Universal Dependencies, насколько это возможно. Всего в корпусе получилось 13208 предложений.

Далее, выдача нескольких POS tagger'ов сравнивалась с этим корпусом. При сравнении имен существительных (NOUN и PROPN) и прилагательных (ADJ и DET) сравнивались только теги падежа, числа и рода (в единственном числе). Для форм множественного числа род не проверялся, так как rupostagger его не выводит (by design). Для глаголов не учитывались теги вида и залога. Время измерялось в режиме прогона по 1 предложению, т.е. батчи не использовались, даже если это возможно в API теггера.
Collapse )

PS: По возможности все-таки лучше измерять качество тэггеров в привязке в метрикам всего пайплайна. Например, работа тэггеров при разрешении омографов в TTS может давать существенно другие цифры качества, особенно если тэггер активно доучивать на разрешении частотных омографов (доро́га-дорога́, etc).