?

Log in

No account? Create an account

Компьютерная лингвистика

Новостная лента www.solarix.ru

Entries by tag: глаголы

Рекуррентная модель для тернарной классификации слов СОВЕРШЕННЫЙ/НЕСОВЕРШЕННЫЙ/ПРОЧИЕ
kelijah
Решаемая проблема - определение вида русского глагола (для глаголов, инфинитивов, причастий и деепричастий), либо классификация как "undef" для частей речи, которые не имеют такого признака.

Эта модель сделана на основе word_is_noun, про которую я уже рассказывал.
Есть некоторые изменения, не носящие принципиального характера, например:

(*) Использован слой keras.layers.core.Masking для исключения из процесса обучения символов-заполнителей, которыми все входные строки подравниваются до одинаковой длины.

(*) Специальный символ-заполнитель теперь не пробел, а u'\a', и он дает при векторизации полностью нулевой вектор. Это работает в паре с предыдущим пунктом, видимо улучашая обучение LSTM за счет исключения попыток учиться на пустых частях последовательностей.

Сама задача сложнее, чем бинарная классификация существительное/не_существительное, так как вид русских глаголов маркируется на письме изменениями разных частей слова (видеть-увидеть, садиться-сесть, делая-сделав), и кроме того есть определенная неоднозначность для прилагательных и причастий.

Тем не менее, на тренировочном наборе в 900,000 паттернов модель с 64 ячейками LSTM достигает лучшей точности, примерно в 6-7%.

Статистика по словосочетаниям НАРЕЧИЕ+ГЛАГОЛ и ГЛАГОЛ+НАРЕЧИЕ по tree bank
kelijah
[Продолжение]
Объем использованного tree bank: 317,780,920 слов
Собирались ребра с глаголом (инфинитив, глагол, деепричастие) и наречием.
Отдельно учитывались наречия справа и слева от глагола, так как для русского языка есть определенные нормы в этом плане.
Результаты отсортированы по mutual information.

ТОП для adv+v:
Статистика по сочетаемости v+advCollapse )

ТОП для v+adv:
Статистика по сочетаемости adv+vCollapse )

Статистика по сочетаемости глаголов и предложных паттернов
kelijah
Продолжаем обработку статистики. Собираем сочетания глагола (сказуемое или деепричастный оборот) с группой предлог+существительное.
У существительного могут быть атрибуты и дополнения, их в данной статистике мы не учитываем.
Top-100  по абсолютной частоте:

TOP-100 глагол+предлог+существительноеCollapse )

Что можно делать "пристально"?
kelijah
Из статистики по результатам парсинга 600,000 коротких предложений. Сочетаемость наречия "пристально" слева и глагола (инфинитива, деепричастия) справа:

Read more...Collapse )

Других вариантов нет. И похоже, что все они связаны с процессом визуального осмотра/наблюдения.

Добавка глаголов в русскую словарную базу
kelijah
В русскую словарную базу добавилось около 1000 глаголов с наиболее продуктивными моделями, включая такие архиважнейшие слова, как пинговать и сконфигурироваться.

Далее по плану: пересчет вероятностной модели русской морфологии, чтобы получить актуальный part-of-speech tagger. Затем - лемматизация 45 Гб корпуса текстов, включая википедию и новости. Затем много экспериментов с word2vector.

Добавка инфинитивов на -оваться
kelijah
В русскую словарную базу версии 150 войдет примерно 1800 инфинитивов на -оваться (балканизироваться, транскрибироваться и т.д.), которые найдены при частотном анализе 45 Гб корпуса.

Индуцированная валентность
kelijah
Добавил правила для конструкций "иметь что-то сделать что-то", в которых обычный глагол "иметь" присоединяет группу инфинитива:
Read more...Collapse )

Аномалия безличной конструкции
kelijah
Любая красивая, стройная и внутренне непротиворечивая классификация глаголов обязательно натыкается на редкие отклонения, исключения и аномалии, которые накапливаются, нагромождаются и в конце концов покрывают исходное ядро слоем "окказионализмов".

Вот аномалия безличной конструкции:

Порой мне случается видеть будущее.

Был бы вместо "случается" глагол "хочется" - все было бы в ажуре. Он и безличный, и может присоединять инфинитив (то есть промаркирован как модальный):
результат разбора...Collapse )
Добавлять случается в категорию безличных не хочется, так как пример выглядит все-таки не совсем обычно.

Решил так. Разрешаем любым глаголам в форме настоящего времени единственного числа третьего лицы (случается) или прошедшего времени среднего рода (случалось) выступать в роли безличных модальных:
результат разбораCollapse )

О вспомогательных глаголах, pdp-11 и 8086
kelijah
Если человек какое-то время был вынужден писать на ассемблере, перелагая задумки (допустим, тетрисы и диггеры) на суровый уровень i8080 или типа того.

То он обязательно заметит забавную особенность английской грамматики, точнее - системы глагольных времен этого языка.
Она поразительно логична и ортогональна. Как система команд pdp-11. Есть собственно глаголы, а есть прямолинейный алгоритм получения будущего времени, законченного действия и обращения в пассивную конструкцию. И все это независимые (ортогональные) возможности. Вплоть до (цитирую по R.A.Close "A Reference Grammar for Students of English"):

By the end of this month, we shall have been learning this language for ten years.

Ну и в таком духе. Красиво, как разделение режимов адресации операндов и операции в pdp-11.

Ну а мы что? А мы сделали свой i8086. Кудрявый, местами нелогичный, иногда удивляющий невозможностью написать как-то иначе. Нужно сделать будущее время для несовершенного глагола? Извольте поставить однобайтовый префикс БЫТЬ или один из аналогов типа СТАТЬ. Хотите поставить совершенный глагол в форму настоящего времени? Сразу бах! аппаратное исключение, ибо не поддерживается такая возможность.

С другой стороны, количество разных префиксов (то есть вспомогательных глаголов)  позволяет писать синтаксически удивительные вещи. Пример - глагол ДАТЬ/ДАВАТЬ. Ну глагол и глагол, когда сам по себе. А когда в роли "вспомогательного" - начинаются выкрутасы. С одной стороны, он согласуется с подлежащим, а с другой - основной глагол стоит не в инфинитиве, как обычно, а тоже согласуется!
Давай посмотрим дальше...Collapse )

Восходяще-нисходящий разбор группы инфинитива
kelijah
Добрался до этой порции правил, переделал с использованием восходящего хода движка.
Заодно добавил некоторые дополнительные конструкции, накопившиеся в TODO, в частности - конструкцию неполного перечисления:

они будут петь, плясать и т.д.

Результат разбора...Collapse )