?

Log in

No account? Create an account

Компьютерная лингвистика

Новостная лента www.solarix.ru

Entries by tag: онлайн-словарь

ФИО в паттернах для морфологического разбора
kelijah
1. Доделал большую группу правил морфологического и синтаксического анализа, в частности для работы с ФИО и для конструкций с безличными глаголами.

2. На тестовом сервере онлайн-словаря вместо MySQL словаря теперь подключен SQLite-словарь.

3. Сейчас собираются все компоненты и утилиты проекта под все платформы. В том числе синонимизатор. Думаю, успею сделать финальный релиз до конца года.


Скриншоты с результатами синтаксического разбора...Collapse )

Полный список тестов синтаксического анализатора в онлайне
kelijah
Сейчас файл с тестами для русского морфологического анализатора содержит примерно 3400 предложений, для синтаксического анализатора примерно 800 предложений.

Весь список тестов для синтаксического разборщика в кликабельном виде доступен по указанной далее ссылке, каждое предложение оформлено как гиперссылка на страницу с результатами морфологического и синтаксического разбора:

http://178.64.252.139:8080/SyntacticAnalyzerTests.aspx

Краткие формы прилагательных
kelijah
Добавил некоторые союзные конструкции с краткими прилагательными:

Судьи были строги, но неподкупны и справедливы

Антонио вчера был либо глуп, либо наивен

Антонио был хотя и строг, но справедлив

Правила синтаксического анализа для прилагательных
kelijah
Кратенько:
  1. В основном завершено добавление всех правил разбора с прилагательными из старого анализатора.
  2. Начато добавление паттернов для имен существительных.
  3. Визуализатор синтаксических деревьев теперь использует цветовое оформление. Фон узлов зависит от части речи - существительное, прилагательное и так далее.
Далее - как выглядят новые "елки с игрушками", то есть синтаксические деревья с дополнительным оформлением.

Read more...Collapse )


Синтаксическое дерево на HTML 5 canvas
kelijah
Это третья попытка сделать отрисовку синтаксических деревьев средствами HTML.

Первая версия использовала символы псевдографики └├ и т.д.

Вторая версия использовала CSS и набор элементарных изображений линий.

Теперь новая попытка на основе механизма canvas, появившегося в HTML 5.

Что же там с canvas...Collapse )

PHP Лемматизатор
kelijah
Сгенерировал и обновил PHP лемматизатор по текущей версии русского словаря. Он доступен в онлайне на странице

http://solarix.ru/for_developers/api/lemmatization.shtml

Хочу переделать его на использование DLL/SO лемматизатора, с минимальной обвязкой на PHP. Сейчас этот лемматизатор доступен на ASP.NET страничке http://178.64.252.139:8080/Lemmatization.aspx, вызывается через простой .NET враппер.

Что меня сейчас смущает в PHP лемматизаторе?

Самое главное - он плохо вписывается в автоматизированную проверку качества. Для DLL/SO есть консольная демо-программа (ее исходники  включены в SDK), которая проверяет, что все слова из лексикона правильно приводятся к базовым формам. Включая все исключения, то есть слова с беглыми гласными, чередованием, образованием форм с помощью приставок хороший-лучший-наилучший.

Для PHP лемматизатора единственный путь - вручную повбивать в поле на веб-страничке слова и посмотреть результаты. Учитывая, что сейчас в русском лексиконе примерно 1.3 миллиона уникальным слов, этого явно недостаточно.






Отображение всех форм слова в онлайн словаре
kelijah
В результатах морфологического анализа, в popup-диалоге, который выводится при клике на слове.

Вместо вывода форм слова по клику на ссылке в отдельном окне браузера, теперь таблица склонения/спряжения выводится внутри диалога. Изменения в javascript коде небольшие, по сути вместо window.open() используется jQuery(...).html(...)., который просто меняет для div'а его inner html на <iframe>, а он в свою очередь тянет формы слова с http://178.64.252.139:8080/GetParadigma.aspx.

Read more...Collapse )

После клика на ней



Мы пашли на коток
kelijah
Переписал некоторые части алгоритма морфологического анализа слов с опечатками, теперь анализатор лучше справляется с вынесенным в название предложением. Спасибо Сергею за фидбек.

Можно проверить прямо в онлайне:

мы пашли на коток

Read more...Collapse )

Еще пара изменений в веб-морде словаря: гармошка и дерево
kelijah
Переделал страничку http://178.64.252.139:8080/Morphology.aspx

Подтяжка веб-морды словаря...Collapse )




Перекройка веб-морды для словаря
kelijah
По дефолту начальной страницей онлайн-словаря  сделал Morphology.aspx

Помимо собственно морфологического разбора, на этой же странице теперь выводятся и результаты стемминга и лемматизации, чтобы дать полное представление об основных алгоритмах.

Конечно, выглядит это несколько переусложненным, так что потом может снова переформатирую. Будет также хорошо вписать всю эту портянку в 1024*768 и проверить под Safari.

Хотел сделать вызов анализаторов через ajax-запросы из клиента, но времени на такую красоту нет, поэтому все делается в postback обработчике.

Что еще хотелось бы сделать: предугадывание слов по мере их ввода через базу N-грамм и таблицы быстрого поиска в лексиконе.

Но это наверняка уже после того, как новый синтаксический анализатор начнет разбирать полные предложения, с подлежащим и сказуемым. Сейчас он в самом начале - сделана работа с наречиями и различными паттернами, распознаваемыми как наречия, например

работать быстро, точно и аккуратно

Размер русского словника вырос до примерно 162 тысяч словарных статей, даже немного больше прогноза, так что на какое-то время задача внесения новых слов потеряла высокий приоритет. Хотя это не отменяет мелких правок по мере обнаружения ошибок и неточностей. К примеру, вчера при проверке английского морфоанализатора на фразе A delegate will have a void return type обнаружилось, что return не распознается как прилагательное - только существительное или глагол.