Козиев Илья (kelijah) wrote,
Козиев Илья
kelijah

Category:

Генерация OOV лексики

Есть вот такой побочный результат небольшого ресеча в области русского словоизменения и словообразования. Относительно небольшой код генерирует словоформы в любых количествах, позволяя получить "out-of-vocabulary грамматический словарь" любого объема. Процесс unsupervised, то есть никаких ручных правил не требуется, псевдокорни и флексии берутся из имеющегося грамматического словаря. Без GPT-2 :).
Для примера - некоторые формы существительных:

Номинатив (кто? что?), единственное число:

труженолюбец
алхимчанин
весельчанин
служничек
мазонопятник
распрысенок
автовордист
коротрейдер

Инструменталис (кем? чем?), единственное число:

недержантом
буденоносом
исцеядцем
руководилой
аргационером

Датив (кому? чему?), единственное число:

наркомутнику
совещатнику
трилобалисту
сухоносчику
насептикону

Интересный, и возможно умный вопрос возникает при просмотре этого безобразия. Многие формы забавны для русскоязычного нейтива, при том, что вот именно эти слова точно не входят ни в активный, ни в пассивный словарный запас. Должен быть какой-то объективный процесс из области когнитивной лингвистики, который обеспечивает эту самую "забавность".

PS: еще немного забавных номинативов:


соисканчик
соображатель
мурлыкастик
химист
судоводник
пастолюбец
гаражечник
ходитель
медработчик
лирушка
скупченец
стайщик
пофинушка
чинукченок
кубанчик
папочник
завивчик
мамонщик
продюсерист
виноградец
второкурсант
артритолог
москвичист
подкционер
бутболист
погонниколог
общелыга
задолюбец
услужитель
нажимщик
цыганчанин
сатанец
халтурист
профанец
богоноситель
стройлесхоз
электропоход
кожзаводишко
компиляторий
фейсбулятор
карьергард
червятильник
хлороценоз
протохлорит

Tags: генеративная грамматика, генерация текста, лексика, морфология, существительное
Subscribe
  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your reply will be screened

  • 0 comments