?

Log in

No account? Create an account

Компьютерная лингвистика

Новостная лента www.solarix.ru

Previous Entry Share Next Entry
Мы пашли на коток
kelijah
Переписал некоторые части алгоритма морфологического анализа слов с опечатками, теперь анализатор лучше справляется с вынесенным в название предложением. Спасибо Сергею за фидбек.

Можно проверить прямо в онлайне:

мы пашли на коток

Получится такая картина:



Если кликнуть на желтом блоке для слова коток, то можно увидеть, что анализатор распознал его как каток, применив соответствующее фонетическое правило-эвристику для русского языка:



Пока делал эти изменения в движке, придумалась еще пара вещей для морфоанализатора:

1. использование алгоритма soundex для английского раздела, с реализацией для поиска по реляционной БД с парой-тройкой миллионов словоформ, то есть без полного перебора.

2. нейросеть, обучаемая на лексиконе, и выполняющая нечеткий анализ. Пока не знаю, будет ли это хорошо работать, и даже будет ли обучение проходить в разумное время, но в теории препятствий нету.