Козиев Илья (kelijah) wrote,
Козиев Илья
kelijah

Еще раз - сравнение part-of-speech tagger'ов на OpenCorpora

Для оценки взят корпус из OpenCorpora со снятой омонимией. Он конвертирован в CONLLU и тегсет Universal Dependencies, насколько это возможно. Всего в корпусе получилось 13208 предложений.

Далее, выдача нескольких POS tagger'ов сравнивалась с этим корпусом. При сравнении имен существительных (NOUN и PROPN) и прилагательных (ADJ и DET) сравнивались только теги падежа, числа и рода (в единственном числе). Для форм множественного числа род не проверялся, так как rupostagger его не выводит (by design). Для глаголов не учитывались теги вида и залога. Время измерялось в режиме прогона по 1 предложению, т.е. батчи не использовались, даже если это возможно в API теггера.


slovnet
Взята модель slovnet_morph_news_v1.tar и navec_news_v1_1B_250K_300d_100q.tar), время прогона 10 сек

+--------------------------------+-------+
| target                         | score |
+--------------------------------+-------+
| NOUN tags accuracy             | 0.924 |
| VERB tags accuracy             | 0.939 |
| ADJ tags accuracy              | 0.949 |
| part-of-speech f1              | 0.416 |
| part-of-speech + tags accuracy | 0.827 |
+--------------------------------+-------+


Пример ошибки:

ERROR in sample "Шарада от Шеридана"
token="Шарада"
gold: NOUN Case=Nom Gender=Fem Number=Sing
eval: NOUN Animacy=Anim Case=Gen Gender=Masc Number=Sing



UDPipe, дефолтная модель на Синтагрусе с сайта, разбирает корпус за 35 секунд:
+--------------------------------+-------+
| target                         | score |
+--------------------------------+-------+
| NOUN tags accuracy             | 0.932 |
| VERB tags accuracy             | 0.959 |
| ADJ tags accuracy              | 0.962 |
| part-of-speech f1              | 0.438 |
| part-of-speech + tags accuracy | 0.850 |
+--------------------------------+-------+


Пример ошибки:

ERROR in sample "С одной стороны , в нашем кино нет традиции появления романтических комедий ."
token="традиции"
gold: NOUN Case=Gen Gender=Fem Number=Sing
eval: NOUN Animacy=Inan Case=Acc Gender=Fem Number=Plur



rnnmorph
разбирает за 205 сек:
+--------------------------------+-------+
| target                         | score |
+--------------------------------+-------+
| NOUN tags accuracy             | 0.965 |
| VERB tags accuracy             | 0.933 |
| ADJ tags accuracy              | 0.976 |
| part-of-speech f1              | 0.537 |
| part-of-speech + tags accuracy | 0.872 |
+--------------------------------+-------+



Пример ошибки:

ERROR in sample "Международная биеннале медиаискусства"
token="биеннале"
gold: NOUN Case=Nom Gender=Fem Number=Sing
eval: NOUN Case=Nom Gender=Fem Number=Plur




Spacy
я обучил модель сам на данных из GramEval2020, также см. ниже для сравнения модель от buriy)
время разбора 25 сек:
+--------------------------------+-------+
| target                         | score |
+--------------------------------+-------+
| NOUN tags accuracy             | 0.907 |
| VERB tags accuracy             | 0.933 |
| ADJ tags accuracy              | 0.959 |
| part-of-speech f1              | 0.417 |
| part-of-speech + tags accuracy | 0.820 |
+--------------------------------+-------+



Модель Spacy от buriy:
+--------------------------------+-------+
| target                         | score |
+--------------------------------+-------+
| NOUN tags accuracy             | 0.925 |
| VERB tags accuracy             | 0.943 |
| ADJ tags accuracy              | 0.964 |
| part-of-speech f1              | 0.409 |
| part-of-speech + tags accuracy | 0.808 |
+--------------------------------+-------+


Пример ошибки:

ERROR in sample "За кота – ответишь !"
token="ответишь"
gold: VERB Mood=Ind Number=Sing Person=2 Tense=Fut VerbForm=Fin
eval: VERB Aspect=Imp Mood=Ind Number=Sing Person=2 Tense=Pres VerbForm=Fin Voice=Act




DeepPavlov, время разбора 99 сек
+--------------------------------+-------+
| target                         | score |
+--------------------------------+-------+
| NOUN tags accuracy             | 0.968 |
| VERB tags accuracy             | 0.975 |
| ADJ tags accuracy              | 0.974 |
| part-of-speech f1              | 0.452 |
| part-of-speech + tags accuracy | 0.868 |
+--------------------------------+-------+


Пример ошибки:

ERROR in sample "Нарки похожи на хиппи » ."
token="хиппи"
gold: NOUN Case=Acc Number=Plur
eval: NOUN Animacy=Anim Case=Nom Gender=Masc Number=Sing



TurkuNLP
я собрал докер с моделью ru_syntagrus
+--------------------------------+-------+
| target                         | score |
+--------------------------------+-------+
| NOUN tags accuracy             | 0.969 |
| VERB tags accuracy             | 0.968 |
| ADJ tags accuracy              | 0.980 |
| part-of-speech f1              | 0.433 |
| part-of-speech + tags accuracy | 0.831 |
+--------------------------------+-------+


Пример ошибки:

ERROR in sample "Вдова олигарха заказывает убийцу своего мужа ."
token="мужа"
gold: NOUN Case=Gen Gender=Masc Number=Sing
eval: NOUN Animacy=Anim Case=Acc Gender=Masc Number=Sing




мой rupostagger
время прогона 10 сек:
+--------------------------------+-------+
| target                         | score |
+--------------------------------+-------+
| NOUN tags accuracy             | 0.936 |
| VERB tags accuracy             | 0.997 |
| ADJ tags accuracy              | 0.963 |
| part-of-speech f1              | 0.503 |
| part-of-speech + tags accuracy | 0.898 |
+--------------------------------+-------+


Пример ошибки:

ERROR in sample "Шпаги , деньги , биржа"
token="Шпаги"
gold: NOUN Case=Nom Gender=Fem Number=Plur
eval: NOUN Case=Gen Gender=Fem Number=Sing



PS: По возможности все-таки лучше измерять качество тэггеров в привязке в метрикам всего пайплайна. Например, работа тэггеров при разрешении омографов в TTS может давать существенно другие цифры качества, особенно если тэггер активно доучивать на разрешении частотных омографов (доро́га-дорога́, etc).
Tags: deeppavlov, opencorpora, part-of-speech tagging, pos tagger, Морфологический анализ, частеречная разметка
Subscribe
  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your reply will be screened

  • 0 comments