Козиев Илья (kelijah) wrote,
Козиев Илья
kelijah

Categories:

Датасет с 70,000 вопросами к боту/собеседнику

В репозитории NLP Datasets выложен файл questions_2s.txt с вопросами, содержащими финитный глагол в форме 2 лица единственного числа. Эти вопросы собраны из большого корпуса с текстами, наскрапленными с форумов, субтитрами и так далее.

Для удобства сэмплы отсортированы по финитному глаголу:



А что ты шьешь?
Какие шьешь вещи?
Ух ты, а кому шьешь?


Класс а что шьёшь?
ооо, слушай, а ты случайно не шьёшь для котиков?


Опять не щадишь себя?
Почему ты никогда не щадишь меня?


О чём ты там щебечешь?



Сэмплы собраны с помощью POS Tagger'а автоматически, поэтому там иногда попадаются опечатки такого вида:


Сколько ъххочешь то за него?

Tags: датасеты, чатбот
Subscribe
  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your reply will be screened

  • 0 comments