Козиев Илья (kelijah) wrote,
Козиев Илья
kelijah

Categories:

Новая модель лемматизации, заточенная под задачу Named Entry Recognition

Новая модель лемматизации работает поверх морфологической модели, и поэтому лучше приспособлена к работе с несловарными элементами - всякими фамилиями, названиями и так далее.

Эта модель будет включена в следующую версию Парсера.

Простой (отладочный) пример. На входе - предложение "Я встретил В.И.Ленина".

На выходе парсера имеем такую частеречную разметку:
<tokens>
<token>
<word>Я</word>
<position>0</position>
<lemma>я</lemma>
<part_of_speech>МЕСТОИМЕНИЕ</part_of_speech>
<tags>ЛИЦО:1|ПАДЕЖ:ИМ|ТИП_МЕСТОИМЕНИЯ:АВТОНОМ|ЧИСЛО:ЕД</tags>
</token>
<token>
<word>встретил</word>
<position>1</position>
<lemma>встретить</lemma>
<part_of_speech>ГЛАГОЛ</part_of_speech>
<tags>НАКЛОНЕНИЕ:ИЗЪЯВ|ВРЕМЯ:ПРОШЕДШЕЕ|ЧИСЛО:ЕД|РОД:МУЖ|МОДАЛЬНЫЙ:0|ПЕРЕХОДНОСТЬ:ПЕРЕХОДНЫЙ|ПАДЕЖ:ВИН|ПАДЕЖ:ТВОР|ВИД:СОВЕРШ|ВОЗВРАТНОСТЬ:0</tags>
</token>
<token>
<word is_unknown='true'>В.И.Ленина</word>
<position>2</position>
<lemma>В.И.Ленин</lemma>
<part_of_speech>СУЩЕСТВИТЕЛЬНОЕ</part_of_speech>
<tags>ЧИСЛО:ЕД|ПАДЕЖ:ВИН|РОД:МУЖ|ОДУШ:ОДУШ|CHARCASING:FirstCapitalized</tags>
</token>
</tokens>


Обратим внимание на следующий элемент:

<token>
<word is_unknown='true'>В.И.Ленина</word>
<position>2</position>
<lemma>В.И.Ленин</lemma>
<part_of_speech>СУЩЕСТВИТЕЛЬНОЕ</part_of_speech>
<tags>ЧИСЛО:ЕД|ПАДЕЖ:ВИН|РОД:МУЖ|ОДУШ:ОДУШ|CHARCASING:FirstCapitalized</tags>
</token>
Tags: named entry recognition, part-of-speech tagging, Морфологический анализ, вероятностная модель, вероятностная русская морфология, лемматизатор, морфологический разбор текста, статистический парсер
Subscribe
  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your reply will be screened

  • 0 comments