?

Log in

No account? Create an account

Компьютерная лингвистика

Новостная лента www.solarix.ru

Previous Entry Share Next Entry
Обновления в грамматическом словаре (GrammarEngine и ruword2tags)
kelijah
В проектах GrammarEngine, ruword2tags и rulemma в ходе разработки и отладки чатбота сделаны следующие изменения:
1) Пара сотен новых словарных статей, преимущественно из домена химии, металлургии, технологии.
2) Добавлена информация о малоупотребимости некоторых кратких форм прилагательных. На этом остановлюсь поподробнее - см. под катом.

Если взять SQL вариант грамматического словаря и сделать выборку таким запросом:

select E1.name as 'лемма прил', F1.name as 'форма_прил', E2.name as 'лемма_глаг', F2.name as 'форма_глаг'
 from sg_class C1 -- прилагательные
 join sg_entry E1 on E1.id_class=C1.id
 join sg_form F1 on F1.id_entry=E1.id
 join coord_pairs P1 on P1.id=F1.id_dims and P1.str_pairs like '% КРАТКИЙ %' and P1.str_pairs like '%ЧИСЛО:ЕД%'
 join sg_class C2 on C2.name='ГЛАГОЛ'
 join sg_entry E2 on E2.id_class=C2.id
 join sg_form F2 on F2.id_entry=E2.id and F2.name=F1.name -- совпадающие формы глагола и прилагательного
 join coord_pairs P2 on P2.id=F2.id_dims and P2.str_pairs like '%ЛИЦО:1%'
 where C1.name='ПРИЛАГАТЕЛЬНОЕ' 



То можно увидеть, что более почти две тысячи кратких форм прилагательного совпадают с формой глагола 2 лица множественного числа. При этом форма прилагательного практически не употребляется:

удовлетворимый   удовлетворим    --------   удовлетворить   удовлетворим

Есть и обратные примеры, когда краткая форма прилагательного более употребима и экранирует омонимичную форму глагола - "различим". Иногда оба варианта употребляются примерно равночастотно - "видим".

Наличие таких омонимов в словаре обычно не мешает, например, выполнять частеречную разметку, так как языковая модель неплохо выбирает правильную часть речи на основе контекста. Но для генеративной модели в чатботе наличие этих форм заставляет код проверять дополнительные варианты создаваемых фраз, при том что многие из этих слов достаточно частотны и просто исключить их из лексикона чатбота нельзя.

В общем, такие малоупотребимые формы слов вносятся в специальную таблицу словарной базы. Исходный список можно увидеть в файле rus_wordform_frequency.sol.

А теперь про соответствующее изменение в библиотечке ruword2tags (это питоновский вариант грамматического словаря для быстрого прототипирования в NLP). В новой версии из словарной базы исключены такие малоупотребимые формы слов.

Аналогичные изменения сделаны также в библиотеке rulemma.