Козиев Илья (kelijah) wrote,
Козиев Илья
kelijah

Статистика шаблонов предложений с открытыми именными группами

В архиве templates.clause_with_np.100000.zip находится часть датасета, 100 тысяч самых частотных записей, с сэмплами следующего вида:
52669    есть#NP,Nom,Sing#.
25839    есть#NP,Nom,Plur#.
18371    NP,Masc,Nom,Sing#пожал#NP,Ins#.
17709    NP,Masc,Nom,Sing#покачал#NP,Ins#.

Первый столбец - частота. Всего был собран ~21 миллион предложений.

Второй столбец содержит результат shallow parsing'а, в котором именные группы заменены подстановочными масками вида NP,тэги. Задается падеж, а также число и грамматический род в случаях, когда это необходимо для правильного согласования с глаголом. Например, запись NP,Nom,Sing описывает группу существительного в именительном падеже и единственном числе. Символ '#' используется как разделитель слов и чанков.

Из недостатков этой версии датасета особо отмечу, что сюда не попали конструкции с нулевой связкой. Кроме того, в именные группы попали некоторые обстоятельства с существительными времени, продолжительности и "раз".
Tags: #np, #пожал, #покачал, dataset, глаголы, морфологический разбор текста, синтаксис, синтаксический разбор, существительное
Subscribe
  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your reply will be screened

  • 3 comments