Козиев Илья (kelijah) wrote,
Козиев Илья
kelijah

Category:

Новый набор с русскоязычными паттернами noun+NP,gen

Побочный результат подготовки датасета для генеративной модели - список из почти миллиона словосочетаний Noun+NP,gen:

комплекс неполноценности
массаж тела
окно браузера
течение дня
укус медведки
изюминка такой процедуры
суть декларации
рецепт вкусного молочного коктейля
музыка самого высокого уровня
спутник жизни


Архив выложен в репозиторий NLP Datasets. Паттерны собирались автоматически без модерации и предобработки спеллчеком, поэтому там есть некоторое количество мусора типа "кожа лица кофе".
Tags: датасеты
Subscribe

  • Релиз 0.0.20.0 чатбота

    В репозитории выложен докер-образ со сборкой чатбота, в которую вошли следующие изменения. 1) Доработки концепции профилей - правила и факты…

  • Тест на сознание: практический подход

    Коллега alexander-xom написал интересный материал Тест на сознание. В целом, это очень неплохое функциональное представление плана для…

  • а ruGPT2 хорош, да

    Даже после переобучения на небольшом кусочке (~10%) датасета читчата модель ruGPT2Large начала выдавать вполне годные реплики, хорошо попадающие в…

  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your reply will be screened

  • 0 comments