?

Log in

No account? Create an account

Компьютерная лингвистика

Новостная лента www.solarix.ru

Previous Entry Share Next Entry
Новая модель лемматизации, заточенная под задачу Named Entry Recognition
kelijah
Новая модель лемматизации работает поверх морфологической модели, и поэтому лучше приспособлена к работе с несловарными элементами - всякими фамилиями, названиями и так далее.

Эта модель будет включена в следующую версию Парсера.

Простой (отладочный) пример. На входе - предложение "Я встретил В.И.Ленина".

На выходе парсера имеем такую частеречную разметку:
<tokens>
<token>
<word>Я</word>
<position>0</position>
<lemma>я</lemma>
<part_of_speech>МЕСТОИМЕНИЕ</part_of_speech>
<tags>ЛИЦО:1|ПАДЕЖ:ИМ|ТИП_МЕСТОИМЕНИЯ:АВТОНОМ|ЧИСЛО:ЕД</tags>
</token>
<token>
<word>встретил</word>
<position>1</position>
<lemma>встретить</lemma>
<part_of_speech>ГЛАГОЛ</part_of_speech>
<tags>НАКЛОНЕНИЕ:ИЗЪЯВ|ВРЕМЯ:ПРОШЕДШЕЕ|ЧИСЛО:ЕД|РОД:МУЖ|МОДАЛЬНЫЙ:0|ПЕРЕХОДНОСТЬ:ПЕРЕХОДНЫЙ|ПАДЕЖ:ВИН|ПАДЕЖ:ТВОР|ВИД:СОВЕРШ|ВОЗВРАТНОСТЬ:0</tags>
</token>
<token>
<word is_unknown='true'>В.И.Ленина</word>
<position>2</position>
<lemma>В.И.Ленин</lemma>
<part_of_speech>СУЩЕСТВИТЕЛЬНОЕ</part_of_speech>
<tags>ЧИСЛО:ЕД|ПАДЕЖ:ВИН|РОД:МУЖ|ОДУШ:ОДУШ|CHARCASING:FirstCapitalized</tags>
</token>
</tokens>


Обратим внимание на следующий элемент:

<token>
<word is_unknown='true'>В.И.Ленина</word>
<position>2</position>
<lemma>В.И.Ленин</lemma>
<part_of_speech>СУЩЕСТВИТЕЛЬНОЕ</part_of_speech>
<tags>ЧИСЛО:ЕД|ПАДЕЖ:ВИН|РОД:МУЖ|ОДУШ:ОДУШ|CHARCASING:FirstCapitalized</tags>
</token>