Козиев Илья (kelijah) wrote,
Козиев Илья
kelijah

Category:

Новый набор с русскоязычными паттернами noun+NP,gen

Побочный результат подготовки датасета для генеративной модели - список из почти миллиона словосочетаний Noun+NP,gen:

комплекс неполноценности
массаж тела
окно браузера
течение дня
укус медведки
изюминка такой процедуры
суть декларации
рецепт вкусного молочного коктейля
музыка самого высокого уровня
спутник жизни


Архив выложен в репозиторий NLP Datasets. Паттерны собирались автоматически без модерации и предобработки спеллчеком, поэтому там есть некоторое количество мусора типа "кожа лица кофе".
Tags: датасеты
Subscribe
  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your reply will be screened

  • 0 comments