Category: дача

Датасет для раскрытия анафоры в русскоязычном тексте

В репозитории https://github.com/Koziev/NLP_Datasets/tree/master/Anacoref выложен питоновский код, который обрабатывает датасет из соревнования http://www.dialog-21.ru/evaluation/2014/anaphora/.

Результат работы этого скрипта имеет такой вид:

1 159 Кругом кругом R 
1 166 она она P-3fsnn одинокую дачу
1 170 была быть Vmis-sfa-e 
1 175 обнесена обнесена Vmps-sfpsp 
1 184 высоким высокий Afpmsif 
1 192 забором забор Ncmsin 



Местоимение "она" раскрывается в словосочетание "одинокая дача", которое есть где-то в предшествующем тексте. Я не стал пока делать пересогласование раскрытых ссылок, оставил это на второй этап.

Вместе с датасетом из соревнования AGRR-2019 (детектирование и раскрытие гэппинга) эти данные могут быть очень полезны для тренировки чатбота, для модуля интерпретации (понимания) реплик собеседника в свободном стиле общения. Код моего решения для AGGR-2019 лежит в отдельном репе, там чисто нейросетевые модели с использованием рекуррентных языковых моделей и CRF.