July 1st, 2019

Еще датасеты со словосочетаниями, короткими и неполными предложениями

В добавок к этому, залил в репозиторий старые (2015 год) залежи. В то время они были собраны для проверки синтаксияеского парсера. Например, S+V+INSTR.zip содержит сэмплы типа "Я вертел ими", в которых творительный падеж актанта однозначен, то есть эти сэмплы однозначно определяют соответствующий слот у глаголов. Еще любопытный пример - конструкции с  местоимениями "я" и "ты" в роли подлежащего и личным глаголом свидетельствуют о том, что глагол употребляется с одушевленным субъектом.

Сейчас хочу использовать эти данные для обучения языковых моделей чатбота, но, возможно, они кому-то еще пригодятся.
Collapse )