?

Log in

No account? Create an account

Компьютерная лингвистика

Новостная лента www.solarix.ru

Previous Entry Share Next Entry
Изменения в грамматическом словаре касательно составных прилагательных
kelijah
В "грамматическом словаре русского языка" закончена большая чистка русского лексикона. Из словарной базы убраны почти все составные прилагательные такого вида "ярко-зеленый", "багрово-красный" и т.д. В итоге словарь стал меньше, но мощность описываемой им лексики - больше. Далее - пояснения мотивации и последствия.

Русский язык, конечно, далек от немецкого или некоторых скандинавских в плане свободы словообразования с помощью слияния. Но есть отдельные очень продуктивные и частотные способы, среди них - образование составных прилагательных с помощью присоединения частиц-модификаторов к базовому прилагательному: "ярко-зеленый". Чтобы учесть в словаре это словообразование, можно добавлять все частотные варианты составных прилагательных. Так делается, например, в Викисловаре - см. страничку ярко-зеленый, и в некоторых других русских лексических системах описания. Проблема с этим подходом очевидна - распухание лексикона, проблема с заданием семантики для составных прилагательных. Одно только сочетание с "ярко-" дает несколько десятков формально новых прилагательных!

Другой путь, на котором я остановился - отдельное определение списка частиц, и рассмотрение составных прилагательных как multiword units. В грамматическом словаре они вынесены в отдельную часть речи с названием ПРЕФИКС_СОСТАВ_ПРИЛ (см. файл sg_rus_main.sol). Сделано это, кстати, судя по changelog'у, в 2015 году. Сейчас таких частиц менее двух тысяч, но лексикографический анализ 80-Гб корпуса (быстренько сделанный скриптик на питоне) дает список из ~40 тысяч частиц. Полученный список с частотами и примерами составных прилагательных прикреплен к гисту. Надо заметить, что отнюдь не все сочетания префиксов и прилагательных употребимы, например частицы типа "сине" используются только для цветовых прилагательных и т.д. Поэтому нельзя оценивать количество потенциальных формально как декартово произведение двух подмножеств. Тем не менее, введенный в грамматическом словаре способ потенциально более эффективен.

Сопутствующие изменения будут в ближайшее время в остальных проектах, включая ruword2tags, rupostagger, rulemma и rutokenizer.