Козиев Илья (kelijah) wrote,
Козиев Илья
kelijah

Category:

Синтагрус, UDPipe и Spacy

Синтагрус - один из самых популярных корпусов для тренировки русскоязычных POS tagger'ов и парсеров.
И у этой всеобщности есть обратная сторона, о которой не следует забывать.

Тестовый пример: состоится сегодня встреча с мужчиной ?

Выдача UDPipe:
+-----------+------------+-------+----------------------------------------------------------------------------+--------+
| form      | lemma      | upos  | feats                                                                      | deprel |
+-----------+------------+-------+----------------------------------------------------------------------------+--------+
| состоится | состояться | VERB  | Aspect=Perf Mood=Ind Number=Sing Person=3 Tense=Fut VerbForm=Fin Voice=Mid | root   |
| сегодня   | сегодня    | ADV   | Degree=Pos                                                                 | advmod |
| встреча   | встреча    | NOUN  | Animacy=Inan Case=Nom Gender=Fem Number=Sing                               | nsubj  |
| с         | с          | ADP   |                                                                            | case   |
| мужчиной  | мужчина    | NOUN  | Animacy=Inan Case=Ins Gender=Fem Number=Sing                               | nmod   |
| ?         | ?          | PUNCT |                                                                            | punct  |
+-----------+------------+-------+----------------------------------------------------------------------------+--------+



Выдача Spacy, который я тоже переобучил с нуля на синтагрусе:
+-----------+-------+----------------------------------------------------------------------------+
| form      | pos   | tags                                                                       |
+-----------+-------+----------------------------------------------------------------------------+
| состоится | VERB  | Aspect=Perf|Mood=Ind|Number=Sing|Person=3|Tense=Fut|VerbForm=Fin|Voice=Mid |
| сегодня   | ADV   | Degree=Pos                                                                 |
| встреча   | NOUN  | Animacy=Inan|Case=Nom|Gender=Fem|Number=Sing                               |
| с         | ADP   |                                                                            |
| мужчиной  | NOUN  | Animacy=Inan|Case=Ins|Gender=Fem|Number=Sing                               |
| ?         | PUNCT |                                                                            |
+-----------+-------+----------------------------------------------------------------------------+



Если присмотреться к слову "мужчиной", то можно увидеть нежданчик в виде "Gender=Fem".
В обучающем корпусе это слово именно в этой форме, но, разумеется с Gender=Masc, встречается 2 раза.
Tags: machine learning, part-of-speech tagging, pos tagger, spacy, syntagrus, udpipe, синтагрус
Subscribe
  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your reply will be screened

  • 0 comments