?

Log in

No account? Create an account

Компьютерная лингвистика

Новостная лента www.solarix.ru

Entries by tag: SDK грамматического словаря

Текущая сборка русской словарной базы с грамматическим движком win64
kelijah
Неофициальная сборка в виде набора файлов словаря, dll и exe: https://yadi.sk/d/t8ltQr4Z3F2F4Y

За год с момента последнего релиза над словарной базой проделана большая работа - чистка опечаток, ненужных словарных статей, добавка новых слов, правки в наборах грамматических признаков.

В DLL движка также сделана одна правка, потребовавшаяся в .net утилите конвертации корпусов при подготовке к MorphoRuEval 2017. Теперь функция sol_ProjectWord для несловарных токенов возвращает не просто часть речи, но и все остальные грамматические признаки, полученные в ходе работы правил несловарной морфологии.

Обращаю внимание, что это полная словарная база, без каких-то ограничений ознакомительной версии.

Использование API грамматического движка с Python через ctypes
kelijah
К сожалению, принесенный из садика ежегодный ротавирус убивает время, поэтому выложу просто пример на питоне для создания движка, загрузки словаря и распознавания слова под 64-битной виндовой Анакондой:
Python ctypes + solarix grammar engine...Collapse )

Релиз версии 14.01 SDK Грамматического Словаря и Парсера для win
kelijah
Обучение модели синтаксического парсера закончилось.
Актуальная русская словарная база скомпилирована для win32 и 64.
Ссылки на скачивание тут: http://www.solarix.ru/for_developers/news/developing-en.shtml

План по SDK: приведение в порядок сборки
kelijah
Поднялась наверх такая задача: привести в порядок (autoconf) сценарии сборки утилит и демонстрационных программ в составе SDK.
Сейчас там некрасивый винегрет из makefilе'ов и bash-скриптов.

Релиз SDK грамматического словаря для Linux 64
kelijah
Текущая русская словарная база и последная морфологическая модель (для part-of-speech tagger'а) для x64.
В отличие от предыдущих релизов, эти бинарники собраны в свежем ALT Linux'е.
Архив, 108 Мб: libgren64-demo.tar.bz2

Релиз SDK грамматического словаря v.13.26 для Linux 32/64
kelijah
Дистрибутивы SDK

Linux x86: http://solarix.ru/for_developers/download/lin/libgren-demo.tar.bz2 (83 Мб)
Linux x64: http://solarix.ru/for_developers/download/lin/libgren64-demo.tar.bz2 (86 Мб)

В состав архива входит русская словарная база и вероятностная модель русской морфологии (см. папки bin-linux и bin-linux64), поэтому никакие дополнительные компоненты скачивать не нужно.
Как использовать и компилировать...Collapse )

Обновление русского синтаксического shift-reduce парсера
kelijah
Обе модели пересчитаны по текущему корпусу.
Для модели частеречной разметки использован новый, усложненный набор признаков, что позволило снизить ошибаемость до 1.37% на тестовом наборе.
Архив с парсером под Win (русская словарная база и файлы моделей в комплекте) доступен на сайте http://www.solarix.ru/for_developers/download/win/parser-ru-win32.7z.
После распаковки архива можно запустить тестовый парсинг run.cmd.

Релиз русского словаря, парсера и SDK 13.32
kelijah
Подробности тут: http://www.solarix.ru/for_developers/news/developing-en.shtml

Дистрибутив альфа-версии парсера под Win32, батарейки в комплекте: http:/www.solarix.ru/for_developers/download/win/parser-ru-win32.7z
SDK под Win32: http:/www.solarix.ru/for_developers/download/win/sdk-grammar-engine-demo.exe
SDK под Win34: http:/www.solarix.ru/for_developers/download/win/sdk-grammar-engine-demo-x64.exe

Обновился SDK грам. словаря под Win32 и 64 до 13.22
kelijah
Описание релиза здесь: http://www.solarix.ru/for_developers/news/developing-en.shtml

Список (неполный) накопившихся изменений в версии 13.20:

changelog.13.20Collapse )

Плюс к этому в версии 13.22 проведена большущая чистка исходников. Из транка убраны некоторые малоиспользуемые алгоритмы, в результате многие exe'шники похудели на 10-15%.

подсчет баланса + и - при использовании вероятностной модели русского pos tagger'а
kelijah
Для воспроизведение всего нижеописанного можно взять последнюю сборку SDK грамматического словаря.

Скрипт morphology-ru.cmd в этой версии SDK выполняет разбор 100 предложений и сравнивает результаты с эталонными. В опциях запуска exe'шника можно увидеть

-maxalts 20

Эта опция задает beam size - максимальное количество альтернативных вариантов разбора, которое тэггер оставляет на каждом шаге. Из-за особенностей русской морфологии мы не можем указать 1, так как в этом случае алгоритм не сможет перебрать варианты в таких словах, как 'все' или 'надо'.

Текущий выбор 20 - результат компромисса, полученного экспериментально. Если поставить меньше, то появятся ошибки из-за недостаточной ширины просмотра вариантов. Если поставить больше, то очень сильно растет время разбора.

При таком выборе =20 время разбора получается 233 секунды.

Теперь включим в тэггере вероятностную модель. Она для каждого слова выбираем наиболее достоверный вариант морфологического разбора и выносит его на первое место. Таким образом, даже при небольших значениях beam size тэггер в первую очередь видит самые достоверные варианты.

В итоге, при задании опций -maxalts 5 и -model получаем правильный разбор всех эталонных предложений за 83 сек.

То есть, не смотря на относительно большие накладные расходы на вероятностную модель, итог получается положительным.