Козиев Илья (kelijah) wrote,
Козиев Илья
kelijah

Category:

Небольшое исследование качества корпуса PARUS на гитхабе

По поводу вот этого корпуса https://parus-proj.github.io/PaRuS/

Архив с корпусом в формате Conll после распаковки имеет размер около 130 Гб. То есть данных много. Закономерный вопрос - насколько качественны эти данные, учитывая, что ручной модерации они не подвергались в силу объема.

Я сделал небольшой лексический анализ. Искал словоформы, которые отсутствуют в лексиконе Грамматического Словаря. Видно, что данные в какой-то степени грязные. Например, есть "существительные" (лемма + слово):


2016-й 2016-го
а да-а
августой августой
аврелие аврелий
автоконцерный автоконцерны
акий аким
андре андреу


"Прилагательные" (лемма + слово):


инфосистема инфосистемы
коврино коврино
котеночей котеночьи
мальдивый мальдив
навыкать навыкате
намерный намерен
подо поже


"Наречия":


гимпа гимпу
главное главное
говорят говорят
казнить казнено
30 су-30
33 су-33
34 су-34
35 су-35
38 ми-38
38 ил-38
39 ам-39

Есть и проблемы с токенизацией, например встречаются такие "слова":



­ожидается,­
нельзя…—
неукомплекто-
двух-
делать-
фильма—
разоткровенничалась,-
если,-
есть,—
говорила,—
вдруг-
если,—
кстати.-


Tags: github, корпус, лексика
Subscribe
  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your reply will be screened

  • 0 comments