?

Log in

No account? Create an account

Компьютерная лингвистика

Новостная лента www.solarix.ru

Entries by category: кино

Частеречная разметка с CRF на корпусе из 120,000 предложений
kelijah
Обновление русского корпуса добралось до отметки в 120 тысяч предложений (почти 60% от планируемого конечного размера), и это приятное событие было тут же отмечено пересчетом вероятностной модели Part-Of-Speech Tagger'а.

Итак, ошибка определения тегов (а каждый тег - это часть речи как таковая плюс вектор прочих грамматических признаков, так что для слова Женя в добавок к омонимии существительное-деепричастие получается еще разрешение омонимии мужской-женский род, а для "кино" - единственное-множественное число) уменьшилась до 2.58%

Тестирование, как и ранее, организовано так: из 120 тысяч предложений каждое десятое исключается из тренировки модели и используется при проверке качества. Таким образом, размер heldout'а в данном эксперименте составил ~10000 предложений.

Если посмотреть теперь на показатель качества по мере увеличения размера корпуса, то можно аппроксимировать падение ошибки где-то до 2% (оптимистично, всё-таки падение происходит с экспоненциальным замедлением наклона) при планируемом итоговом корпусе в 200 тысяч предложений.

Кастелянша и директриса
kelijah
В контексте родовых пар оба эти слова заставили покопаться в словарях, и вот почему.

Усатый нянь, кастеляны и Грамматиков ...Collapse )