?

Log in

No account? Create an account

Компьютерная лингвистика

Новостная лента www.solarix.ru

Previous Entry Share Next Entry
Новый датасет для чат-бота - смена грамматического лица
kelijah
Данные представляют собой пары предложений:

Я не проверял .    ты не проверял .
Я ищу работу !    ты ищешь работу !
Что я умею ?    Что ты умеешь ?
Чем я занимаюсь ?    Чем ты занимаешься ?
Ранее я писала ...    Ранее ты писала ...



Все предложения имеют похожую синтаксическую структуру - подлежащие в виде местоимения "я", глагол-сказуемое согласован.
Каждая запись содержит 2 предложения, разделенных символом табуляции. Второе предложение получено из первого сменой лица подлежащего и пересогласованием глагола.

Планирую использовать эти данные для обучения сеточной модели, которая будет поддерживать режим "вовлеченности" для чат-бота, в частности - запоминать факты о собеседнике, которые он сам сообщает.

Данные будут выкладываться здесь: https://github.com/Koziev/NLP_Datasets/tree/master/ChangePerson