?

Log in

No account? Create an account

Компьютерная лингвистика

Новостная лента www.solarix.ru

Entries by tag: лексикон

Генерация деепричастных форм из инфинитивов - SQL словарь + Python + xgboost
kelijah
Read more...Collapse )

Выложена полная актуальная словарная база русского языка
kelijah
В репозитории https://github.com/Koziev/GrammarEngine обновлены исходники русской словарной базы.

Новая версия содержит увеличенный примерно на 10% лексикон, множество исправлений в морфологической разметке слова, а также доработки в синтаксическом анализаторе.

Сборка из C++ исходников проверена под MS Windows с VisualStudio 2015 и под Ubuntu v16.04.

Английская, французская, японская, китайская словарные базы на github
kelijah
В дополнение к русской словарной базе, в репозиторий выложены словарная база (лексика, морфология, синтаксис) для английского языка.

Для французского, японского и китайского языков словарная база содержит морфологические модели и лексику, синтаксическая модель для них не реализована.

Сборка нужной словарной базы выполняется соответствующим скриптом в папке .../src/scripts/dictionary

english.cmd или english.sh
french.cmd
japanese.cmd
chinese.cmd

Морфологическая модель японского языка сделана в расчете на использование с парсерами типа Cabocha или KNP.

Особенности лексики в отзывах
kelijah
Бросается в глаза невероятная, статистически выраженная склонность авторов отзывов к усилительным/уменьшительным вариантам слов. Интересно, что же побуждает людей менять свой активный лексикон? Ведь обычно мы так не говорим (под катом краткий перечень несловарных производных):
Смещенная лексика в отзывах...Collapse )

В качестве гипотезы предположу, что при написании отзыва желание дать оценку заставляет ту часть коры, которая подбирает слова при синтезе, выдавать преимущественно не-нейтральную лексику, порождая забавности типа "штормик" (маленький шторм? брр).

Текущая русская и английская словарные базы
kelijah
После добавки порции сырья имеем на борту:

английский лексикон: 274955 entries, 531761 wordforms, 426486 unique lexemes
английский синтаксический парсер: 980 правил

русский лексикон: 275531 статья, 2,308,964 уникальных форм
русский синтаксический парсер: 2,864 правила

Изменения в английской морфологической модели
kelijah
Делаю ревизию английской морфологии в словарной базе. Первое изменение было задумано очень давно, но большой нужды до последнего момента не было.

Теперь, начиная с версии словаря 179, окончание притяжательных форм существительных 's выделено в отдельный "притяжательный постфикс". Таким образом, токенизатор теперь не делает отдельные ветки в графе токенизации, чтобы правильно учесть альтернативный вариант с формой глагола is.
Притяжательные формы убраны из парадигмы английского существительного. Вместо них введен тег "HAS_POSSESSIVE_FORM", чтобы синтаксический парсер мог связать постфикс с существительным.

Дальнейшие планы по анлийскому словарю:

1. Проверить возможность обучить вероятностную морфологическую модель (part-of-speech tagger) на той же алгоритмической базе, которая использована в русской частеречной разметке. Для этого я сейчас выбираю оптимальный вариант получения обучающего корпуса.

2. Проверить возможность обучения синтаксического парсера. В DESR и других аналогичных парсерах есть готовые обученные модели, но возможность самостоятельно дообучить модель на своих примерах может быть важна.

Новая версия русского лексикона
kelijah
Исправлены парадигмы и грамматические признаки нескольких десятков словарных статей.
Добавлено примерно 700 новых слов, преимущественно существительных.
Текущая статистика по лексикону:  220695 entries, 2858471 wordforms, 1750654 unique lexemes

Добавка деепричастий на -ся в русский лексикон
kelijah
По результатам частотного анализа 45 Гб корпуса в словарную базу будет добавлено примерно 1000 деепричастных форм возвратных глаголов на -ся, в том числе жаргонные типа подконнектившись.

Добавка инфинитивов на -оваться
kelijah
В русскую словарную базу версии 150 войдет примерно 1800 инфинитивов на -оваться (балканизироваться, транскрибироваться и т.д.), которые найдены при частотном анализе 45 Гб корпуса.

Планы по русской словарной базе: машиностроительная и конструкторская добавка
kelijah
В русский лексикон добавлю несколько сотен слов машиностроительной тематики. Всякие фланцы, припои и т.д.

Также хочу сделать частотную обработку 15 Гб корпуса, полученного добавлением русской википедии к ранее собранным текстам.