Козиев Илья (kelijah) wrote,
Козиев Илья
kelijah

Categories:

Датасет с сэмплами подлежащее+глагол+предлог+существительное

Обнаружил у себя датасет (файл в репе 3 Мб) с большим списком сэмплов такого вида:

Они сражались за Родину
Я до сих пор нахожусь под впечатлением
Куваев набрал на клавиатуре
Они всю ночь колотили в дверь
Ганс приступил к экранизации
Мы не спешим с представлением
Я расскажу с позиции
Я столкнулся с моделью
Я спросил у ясеня
Макс столкнулся с проблемами
Мы связались с Владимиром
Я купил через Интернет
Я приехал в Тайвань
Грэм представил на суд


Сэмплы были собраны автоматически из 10Гб корпуса текстов. Некоторые сэмплы содержат неполные предложения ("Я расскажу с позиции"). Я планирую использовать их для обучения модели валидации синтаксиса для чатбота, но, возможно, они будут кому-то полезны и для других языковых моделей.
Tags: dataset, русский язык, синтаксис, сказуемое
Subscribe
  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your reply will be screened

  • 0 comments