?

Log in

No account? Create an account

Компьютерная лингвистика

Новостная лента www.solarix.ru

Previous Entry Share Next Entry
Перекройка веб-морды для словаря
kelijah
По дефолту начальной страницей онлайн-словаря  сделал Morphology.aspx

Помимо собственно морфологического разбора, на этой же странице теперь выводятся и результаты стемминга и лемматизации, чтобы дать полное представление об основных алгоритмах.

Конечно, выглядит это несколько переусложненным, так что потом может снова переформатирую. Будет также хорошо вписать всю эту портянку в 1024*768 и проверить под Safari.

Хотел сделать вызов анализаторов через ajax-запросы из клиента, но времени на такую красоту нет, поэтому все делается в postback обработчике.

Что еще хотелось бы сделать: предугадывание слов по мере их ввода через базу N-грамм и таблицы быстрого поиска в лексиконе.

Но это наверняка уже после того, как новый синтаксический анализатор начнет разбирать полные предложения, с подлежащим и сказуемым. Сейчас он в самом начале - сделана работа с наречиями и различными паттернами, распознаваемыми как наречия, например

работать быстро, точно и аккуратно

Размер русского словника вырос до примерно 162 тысяч словарных статей, даже немного больше прогноза, так что на какое-то время задача внесения новых слов потеряла высокий приоритет. Хотя это не отменяет мелких правок по мере обнаружения ошибок и неточностей. К примеру, вчера при проверке английского морфоанализатора на фразе A delegate will have a void return type обнаружилось, что return не распознается как прилагательное - только существительное или глагол.