Козиев Илья (kelijah) wrote,
Козиев Илья
kelijah

NER датасет из каггла "text-normalization-challenge-russian-language"

Вот эти данные для entity типа DATA содержат огромное количество строк типа

Проверено 1 января 2016 . International Renaissance Foundation.
Проверено 16 января 2016 . Смотрим телевизор . | 16 января 2016
Проверено 21 февраля 2016 . Текмаш отметил 160 летие . | 21 февраля 2016


Уверен на 100%, что данные получены простой конвертацией викиданных из русской Википедии. Возможно, для некоторых моделей NER перекос в статистике паттернов будет снижать немного их качество. Ну и мусора там, конечно, прилично:

People ( 27 августа 2001 ) .
Deadline.com ( 17 ноября 2014 ) .
ESCToday ( 19 марта 2012 ) .


и т.д.


Tags: dataset, kaggle, ner
Subscribe
  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your reply will be screened

  • 0 comments