?

Log in

No account? Create an account

Компьютерная лингвистика

Новостная лента www.solarix.ru

RASA, spacy, русский язык и NER
kelijah
После трех дней осады и борьбы, у меня заработала связка из текущей версии RASA и spacy (я взял готовые модели для русского языка, спасибо Юрию за помощь :) ).

Кроме того, я сделал конвертор для своего NER датасета в формат для обучения Spacy NER. После пары часов получилось дообучить спейсовский NER, взяв за основу код отсюда:
Read more...Collapse )

NER датасет из каггла "text-normalization-challenge-russian-language"
kelijah

Вот эти данные для entity типа DATA содержат огромное количество строк типа

Проверено 1 января 2016 . International Renaissance Foundation.
Проверено 16 января 2016 . Смотрим телевизор . | 16 января 2016
Проверено 21 февраля 2016 . Текмаш отметил 160 летие . | 21 февраля 2016


Уверен на 100%, что данные получены простой конвертацией викиданных из русской Википедии. Возможно, для некоторых моделей NER перекос в статистике паттернов будет снижать немного их качество. Ну и мусора там, конечно, прилично:

People ( 27 августа 2001 ) .
Deadline.com ( 17 ноября 2014 ) .
ESCToday ( 19 марта 2012 ) .


и т.д.