March 24th, 2020

Самые длинные существительные, глаголы, наречия

Коллега по работе навел на замечательный пост Длинные слова и длинные предложения (о рекордах).
Я решил перепроверить часть указанных там рекордов по своей словарной базе. Та-дам!

Collapse )
Collapse )
Collapse )
Collapse )
 

Забавный и редкий случай с глаголом "являться"

Собираю статистику структуры предложений.
В предложениях выделяются именные группы, чтобы свести варианты аргументов глагола к общему знаменателю.
После обработки примерно 50 миллионов предложений вижу такой top 30 шаблонов (решетка отделяет NP-чанки и прочие токены):
Collapse )Обратите внимание на два стоящих рядом шаблона:

1414    NP,Ins#является#NP,Nom,Sing#.
1233    NP,Nom,Sing#является#NP,Ins#.

В них именные группы зеркально отображены относительно глагола, а частоты (ранги?) очень близки.
Редкий случай действительно свободного порядка ИГ для глагола. Для других глаголов носители языка явно тяготеют к тому или иному положению подлежащего, дополнения или PP, возможно используя "неканоничный" порядок для передачи особых "сигналов".

PS от 31-03-2020. Собрана дополнительная статистика (~8 миллионов предложений). Как и раньше, паттерны с глаголом "являться" значимо выбиваются из общей картины своей симметричностью:
Collapse )

Еще можно заметить странное доминирование конструкций с глаголами состояния, обладания. Есть подозрение, что это артефакт порядка текстов в корпусе.