?

Log in

No account? Create an account

Компьютерная лингвистика

Новостная лента www.solarix.ru

Previous Entry Share Next Entry
PHP Лемматизатор
kelijah
Сгенерировал и обновил PHP лемматизатор по текущей версии русского словаря. Он доступен в онлайне на странице

http://solarix.ru/for_developers/api/lemmatization.shtml

Хочу переделать его на использование DLL/SO лемматизатора, с минимальной обвязкой на PHP. Сейчас этот лемматизатор доступен на ASP.NET страничке http://178.64.252.139:8080/Lemmatization.aspx, вызывается через простой .NET враппер.

Что меня сейчас смущает в PHP лемматизаторе?

Самое главное - он плохо вписывается в автоматизированную проверку качества. Для DLL/SO есть консольная демо-программа (ее исходники  включены в SDK), которая проверяет, что все слова из лексикона правильно приводятся к базовым формам. Включая все исключения, то есть слова с беглыми гласными, чередованием, образованием форм с помощью приставок хороший-лучший-наилучший.

Для PHP лемматизатора единственный путь - вручную повбивать в поле на веб-страничке слова и посмотреть результаты. Учитывая, что сейчас в русском лексиконе примерно 1.3 миллиона уникальным слов, этого явно недостаточно.