Козиев Илья (kelijah) wrote,
Козиев Илья
kelijah

Categories:

Датасет для тренировки NP chunker'а

В репозиторий "NLP Datasets" выложен датасет для тренировки NP чанкера.

NP chunker - это вариант shallow parser'а, извлекающего из предлождений группы существительного (noun phrases). Вот результаты разметки нескольких предложений для иллюстрации идеи:

« ⟦ Школа злословия » ⟧ учит прикусить ⟦ язык

Сохранится ли ⟦ градус дискуссии в новом сезоне ⟧ ?

Великолепная « Школа злословия » ⟧ вернулась в ⟦ эфир ⟧ после ⟦ летних каникул ⟧ в ⟦ новом формате

Потом ⟦ проект ⟧ переехал с ⟦ « Культуры » ⟧ на ⟦ НТВ


Скобочки ⟦ и ⟧ добавлены при разметке для визуальной отбивки границ смежных чанков.

Тренировочный датасет получен автоматической конвертацией tree bank'а из проекта Грамматического Словаря. Выглядит датасет примерно так:

0 Но
1 справедливый
2 судья
0 обязан
0 выслушать
1 разные
2 стороны
2 и
2 все
2 точки
2 зрения
0 .


Записи для разных предложений разделяются пустой строкой. Первое поле каждой записи содержит числовую пометку 0, 1 или 2:

0 - слово не входит в именную группу
1 - слово начинает новый NP chunk
2 - слово продолжает ранее начатый NP chunk

Таким образом, смежные чанки разделяются меткой 2.

По задумке модель NP чанкера будет использоваться в чатботе в новых диалоговых правилах как эффективный механизм извлечения информации из реплик собеседника, например:

- Что такое [NP виртуальная реальность], скажи мне.
Tags: chatbot, chunker, chunking, dataset, nlp, существительное
Subscribe
  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your reply will be screened

  • 3 comments