?

Log in

No account? Create an account

Компьютерная лингвистика

Новостная лента www.solarix.ru

Entries by tag: статистический парсер

Обновление синтаксического парсера
kelijah

Большое обновление всех компонентов русского синтаксического парсера (http://solarix.ru/parser.shtml):

Read more...Collapse )Ссылка на архив с бинарниками (русская словарная база в комплекте, вероятностные модели и исполнимые файлы): http://solarix.ru/for_developers/download/win/parser-ru-win64.7z

Новый релиз парсера с русской словарной базой под Win32
kelijah
Новый, расширенный русский лексикон.
Доработанная русская морфологическая модель.
Вероятностные модели обучены но новой версии эталонного корпуса.
Подключена новая модель вероятностного русского лемматизатора, который учитывает контекст слова.

Страница с описанием с ссылкой на скачивание: http://www.solarix.ru/parser.shtml

Сейчас этот релиз парсера обкатывается на задаче разбора отзывов. Собираю багрепорты, которые будут учтены в следующей версии. Также в следующем релизе будет добавлена большая порция словарных статей в русский лексикон.

Новая модель лемматизации, заточенная под задачу Named Entry Recognition
kelijah
Новая модель лемматизации работает поверх морфологической модели, и поэтому лучше приспособлена к работе с несловарными элементами - всякими фамилиями, названиями и так далее.

Эта модель будет включена в следующую версию Парсера.

Простой (отладочный) пример. На входе - предложение "Я встретил В.И.Ленина".

На выходе парсера имеем такую частеречную разметку:
Read more...Collapse )

Обратим внимание на следующий элемент:
Read more...Collapse )

Первый бенчмарк английского Парсера
kelijah
Собрана морфологическая модель (part-of-speech tagger) и синтаксическая модель (восходящий парсер) для английского языка по относительно небольшому корпусу.
Эти модели подключены в Парсере, который ранее бегал с русской словарной базой. Теперь, значит, он умеет работать и с английскими текстами.
Итог тестового забега с морфологическим и синтаксическим разбором:

Done, sentence_count=10000, elapsed_time=207 sec, rate=484.353 words/sec

В принципе, близкие цифры у меня получаются и для русских языковых моделей.

Статистика по предикатам SBJ+V+PREP+OBJ: по воскресеньям пресс-служба не работает
kelijah
Подоспела статистика по указанным предикатам, собранная по 317,780,920-словному tree bank'у. Общий обзор статистики сделаю позже, а пока просто отмечу забавный факт, который просто бросился в глаза при визуальной оценке. Вот частоты 4-грамм с подлежащим ПРЕСС-СЛУЖБА и сказуемым СООБЩИТЬ:

пресс-служба|сообщить|в|среду|156
пресс-служба|сообщить|в|понедельник|150
пресс-служба|сообщить|в|вторник|147
пресс-служба|сообщить|в|пятницу|140
пресс-служба|сообщить|в|четверг|111
пресс-служба|сообщить|в|субботу|33
пресс-служба|сообщить|в|воскресенье|4

Интересно, что четверг по каким-то причинам выделается по активности пресс-службы, там явно больше трех сигм отклонение от верхушки. К пятнице готовятся, наверное... В среду - абсолютный пик. А воскресенье они не работают, ага.

Изменения в английской морфологической модели
kelijah
Делаю ревизию английской морфологии в словарной базе. Первое изменение было задумано очень давно, но большой нужды до последнего момента не было.

Теперь, начиная с версии словаря 179, окончание притяжательных форм существительных 's выделено в отдельный "притяжательный постфикс". Таким образом, токенизатор теперь не делает отдельные ветки в графе токенизации, чтобы правильно учесть альтернативный вариант с формой глагола is.
Притяжательные формы убраны из парадигмы английского существительного. Вместо них введен тег "HAS_POSSESSIVE_FORM", чтобы синтаксический парсер мог связать постфикс с существительным.

Дальнейшие планы по анлийскому словарю:

1. Проверить возможность обучить вероятностную морфологическую модель (part-of-speech tagger) на той же алгоритмической базе, которая использована в русской частеречной разметке. Для этого я сейчас выбираю оптимальный вариант получения обучающего корпуса.

2. Проверить возможность обучения синтаксического парсера. В DESR и других аналогичных парсерах есть готовые обученные модели, но возможность самостоятельно дообучить модель на своих примерах может быть важна.

Категоризация имён существительных
kelijah
Придется делать в следующей версии грамматического словаря исключительно из утилитарных соображений - для корректного парсинга.
Дело в том, что сейчас используемая модель для shift-reduce парсера не знает, что существительное "год" и "крещение" имеют разную валентность для заполнения слота обстоятельства времени у глагола. В результате стат. парсер иногда делает ошибки разбора. И эти ошибки видны в статистике паттернов "ГЛАГОЛ + ИМЕННАЯ ГРУППА В РОЛИ ОБСТОЯТЕЛЬСТВА". Кроме правильный "год", "неделя" и прочих там встречаются артефакты:
Read more...Collapse )

Предварительная статистика употребляемости словосочетаний ПРЕДЛОГ+(СУЩ+СУЩ[род.п.])
kelijah
Продолжение темы http://kelijah.livejournal.com/168795.html.
По части tree bank собраны предложные словосочетания ПРЕДЛОГ+СУЩ+СУЩ[род.п.], которые синтаксический парсер объединил в дереве разбора.
Интересно, что в отличие от паттернов ПРЕДЛОГ+(ПРИЛАГАТЕЛЬНОЕ+СУЩЕСТВИТЕЛЬНОЕ), данный тип паттернов дает намного менее идеоматичные словосочетания:
TOP 100 словосочетаний...Collapse )
Видно некоторое количество артефактов типа "на|груди|руки".

Сбор коллокаций предлог+(прилагательное+существительное) из tree bank
kelijah
Продолжение темы http://kelijah.livejournal.com/166962.html.
Из части tree bank собраны предложные паттерны ПРЕДЛОГ+(ПРИЛ+СУЩ).
TOP 200 с сортировкой по mutual information:

Коллокации...Collapse )

Интересно, что значительная часть из них имеет оттенок идеоматичности ("на моих глазах") и соответствуют обстоятельству "как", хотя много и просто частотных "аналитических локативов" (в нижегородской области) и "директивов" (в свою комнату).

Статистика по сочетаемости глаголов и предложных паттернов
kelijah
Продолжаем обработку статистики. Собираем сочетания глагола (сказуемое или деепричастный оборот) с группой предлог+существительное.
У существительного могут быть атрибуты и дополнения, их в данной статистике мы не учитываем.
Top-100  по абсолютной частоте:

TOP-100 глагол+предлог+существительноеCollapse )