?

Log in

No account? Create an account

Компьютерная лингвистика

Новостная лента www.solarix.ru

Entries by category: политика

sequence2sequence лемматизатор на 3 миллионах паттернах: текущие результаты
kelijah
Запустил ранее описанную модель русской лемматизации на основе двух рекуррентных нейросетей на 3 миллионах пар словоформа-лемма, взятых из моего SQL словаря русского языка.

Без GPU дело идет, конечно, медленно, но даже первые эпохи обучения показывают неплохие результаты. Под катом - лемматизации слов, которые модель не видела в ходе обучения:
результаты тестовой лемматизации...Collapse )

Есть любопытные примеры с беглыми гласными:

самозванцах                  ==> самозванец

Но так бывает не всегда, что, впрочем, характерно и для детской речи:

костры                       ==> костр

Или то, как сеть придумывает лемму, следуя найденным закономерностям:

брюки                        ==> брюка

Хотя иногда результаты ставят в тупик, например:

НАТО                         ==> Сюха

А в некоторых ошибках при желании увидеть и подтверждение некоторых фонетических закономерностей:

Нестором                     ==> Местор 

Словосочетания сущ + сущ в род. падеже
kelijah
Продолжение статистики по корпусу из http://kelijah.livejournal.com/165490.html.
Собраны словосочетания с существительными, к которым присоеденены существительные в родительном падеже.
Сортировка по абсолютной частоте:
TOP 100 словосочетаний по частотеCollapse )

Сортировка по mutual information:
TOP 100 словосочетаний по mutual information...Collapse )

Видны артефакты парсинга. Например, Юрий|лужок - это ошибочный разбор для "Юрий Лужков". Упрощенная морфологическая модель считает "Лужков" только формой существительного "лужок", отсюда и результат в парсере. На это накладывается еще и склонность mutual information выносить в топ всякие опечатки, которые встречаются очень редко, соответственно дают малый знаменатель в формуле MI.

Вопросы по лексикону
kelijah
Есть некоторые вещи, которые входят за грамматические рамки, и их приходится как-то решать на основе других соображений.

Read more...Collapse )