?

Log in

No account? Create an account

Компьютерная лингвистика

Новостная лента www.solarix.ru

Entries by tag: лексика

Большое обновление русского лексикона, морфологии и синтаксических правил в грамматическом движке
kelijah
Закомитил в https://github.com/Koziev/GrammarEngine накопившиеся изменения:

1) Добавлено много новых словарных статей
2) Убраны некоторые составные слова типа "мотор-генератор"
3) Исправлены различные ошибки, обнаруженные при тестировании - неверные формы слов etc.
4) Для некоторых слов уточнены морфологические теги (модальность, падежная валентность etc.)
5) В синтаксический анализатор добавлена пара правил разбора.

Также есть некоторые вещи, которые могут быть добавлены в словарь по результатам экспериментов в рамках соревнования ClassicAI, в том числе - списки ударений для нескольких сотен тысяч форм слов. Но это произойдет, наверное, в лучшем случае в сентябре.

Генерация деепричастных форм из инфинитивов - SQL словарь + Python + xgboost
kelijah
Read more...Collapse )

Английская, французская, японская, китайская словарные базы на github
kelijah
В дополнение к русской словарной базе, в репозиторий выложены словарная база (лексика, морфология, синтаксис) для английского языка.

Для французского, японского и китайского языков словарная база содержит морфологические модели и лексику, синтаксическая модель для них не реализована.

Сборка нужной словарной базы выполняется соответствующим скриптом в папке .../src/scripts/dictionary

english.cmd или english.sh
french.cmd
japanese.cmd
chinese.cmd

Морфологическая модель японского языка сделана в расчете на использование с парсерами типа Cabocha или KNP.

Неожиданные нюансы отличия литературного русского языка от обыденного
kelijah
Смотрю на частоты слов из описаний лотов в датасете авито:

СЕРТИЦИФИРОВАНЫ                403  

То есть 403 раза слово "сертифицированы" написано с одинаковой ошибкой, делающей этот вариант совершенно непроизносимым...

Как как, Холмс?

Особенности лексики в отзывах
kelijah
Бросается в глаза невероятная, статистически выраженная склонность авторов отзывов к усилительным/уменьшительным вариантам слов. Интересно, что же побуждает людей менять свой активный лексикон? Ведь обычно мы так не говорим (под катом краткий перечень несловарных производных):
Смещенная лексика в отзывах...Collapse )

В качестве гипотезы предположу, что при написании отзыва желание дать оценку заставляет ту часть коры, которая подбирает слова при синтезе, выдавать преимущественно не-нейтральную лексику, порождая забавности типа "штормик" (маленький шторм? брр).

Женоненавистница и подкаблучница
kelijah
Примерно 500-1000 существительных на -ЦА войдут в русскую словарную базу примерно через 1 или 2 релиза.
Семантические франкенштейны из названия тоже, наверное.

Группа изменений в русском лексиконе и парсере
kelijah

Частица ТЕМ в роли модификатора компаратива наречия и прилагательного:

Тем выше будет занятость населения.
Тем сильнее он ненавидел зиму

Read more...Collapse )


Порция изменений в синтаксическом парсере и в русском лексиконе
kelijah
Весь список текущих изменений:

  • Добавлен разбор для отрицания местоимения-подлежащего, стоящего справа от сказуемого:


Так думал не я один.

Read more...Collapse )


Заготовка для китайского словаря
kelijah
Делал этот словарь для проверки корректной обработки юникода несколько лет тому назад.

Попробовал сегодня собрать его - а он шельмец возьми и соберись. Объем конечно не очень впечатляющий, около 125 тысяч слов, включая торговые марки и прочее.

Выверка английского лексикона
kelijah
Все попавшие в английский раздел прилагательные на -all, кроме образованных от small и ball, убрал и перенес в правила корректора опечаток. Всего таких прилагательных нашел (пока) около 50:

personall
generall
naturall
и т.д.

Также убрал из прилагательных попавшие туда порядковые числительные на -th.
В ближайшем релизе ГСРЯ все изменения уже будут видны.