?

Log in

No account? Create an account

Компьютерная лингвистика

Новостная лента www.solarix.ru

Entries by tag: английский язык

Английская, французская, японская, китайская словарные базы на github
kelijah
В дополнение к русской словарной базе, в репозиторий выложены словарная база (лексика, морфология, синтаксис) для английского языка.

Для французского, японского и китайского языков словарная база содержит морфологические модели и лексику, синтаксическая модель для них не реализована.

Сборка нужной словарной базы выполняется соответствующим скриптом в папке .../src/scripts/dictionary

english.cmd или english.sh
french.cmd
japanese.cmd
chinese.cmd

Морфологическая модель японского языка сделана в расчете на использование с парсерами типа Cabocha или KNP.

Новое NLP соревнование на Кагле
kelijah

Personalized Medicine: Redefining Cancer Treatment

Чуточку экстремальное. В тренировочном наборе 3321 сэмпл, в тестовом - 5668. То есть вроде как совсем не густо.

Но каждый сэмпл содержит текст в несколько тысяч (максимум 81 тысячу) слов с неким описанием на английском языке.


Перефразировки и глубинная категория определенности в русском языке
kelijah
Если смотреть на некоторые перефразировки, то можно заметить торчащие уши некой категории "определенности/количества", которая в английском языке и некоторых других выражается артиклями:

Слышен собачий лай. (одна собака или несколько? собака известна слушателю или это некая абстрактная собака?)
Слышен лай собаки.
Слышен лай собак.

И прилагательное собачий, и существительное собака в этих случаях называет одно и тоже качество, но есть вышеупомянутая разница в определенности (confidence?). Не удивлюсь, если эта категория замечена и как-то умно называется в "текст<=>смысл" и т.д.

Релиз версии 14.10 синтаксического парсера с ru/en базами и моделями
kelijah

Для скачивания и свободного использования подготовлены два варианта синтаксического парсера под 32-битную Windows:

Русская словарная база объемом 275,136 статей, 3,718,970 словоформ

Английская словарная база объемом 274,982 статьи, 473,971 словоформа

RU парсер 79.5 Мб

EN парсер 19.6 Мб

В состав архива русского парсера входит вероятностная модель русской морфологии (part-of-speech tagger), русского синтаксиса, обученная на текущем эталонном корпусе, и новая модель лемматизатора.

В состав английского парсера входят вероятностные модели английской морфологии и синтаксиса.

Оба парсера включают в себя все необходимое, не требуют установки и регистрации в системе каких-либо компонентов, и не оставляют следов в реестре и системных папках.

Пример запуска парсера с правильным набором параметром - файл run.cmd


Обновление английской языковой модели
kelijah
Сделаны седующие упрощения в парадигме английского глагола.

1. Глагол TO BE  ( и отрицательные варианты isn't etc.) выделен в отдельную часть речи ENG_BEFERB. Обладающий самой развесистой парадигмой глагол раньше вынуждал для обычных глаголов тоже хранить формы для первого лица и различать единственное и множественное число для прошедшего времени. Это нагружало парсер излишними омонимичными вариантами. Теперь для обычных глаголов (класс ENG_VERB) хранятся только: начальная форма, она же инфинитив GO, S-форма для 3-го лица настоящего времени GOES, причастие прошедшего времени GONE, форма прошедшего времени WENT, причастие настоящего времени GOING.

2. Модальные глаголы с усеченной парадигмой (CAN, MUST etc) выделены в отдельную часть речи ENG_AUXVERB. У них нет отдельных вариантов S, PP и ING форм, а употребляются они достаточно часто. Поэтому для парсера лучше, если для MUST выдается единственный вариант (неопределенная форма).

Первый бенчмарк английского Парсера
kelijah
Собрана морфологическая модель (part-of-speech tagger) и синтаксическая модель (восходящий парсер) для английского языка по относительно небольшому корпусу.
Эти модели подключены в Парсере, который ранее бегал с русской словарной базой. Теперь, значит, он умеет работать и с английскими текстами.
Итог тестового забега с морфологическим и синтаксическим разбором:

Done, sentence_count=10000, elapsed_time=207 sec, rate=484.353 words/sec

В принципе, близкие цифры у меня получаются и для русских языковых моделей.

Божественная английская рекурсия
kelijah
Разбираемое предложение: "I think you know what I mean."
Получаемое дерево зависимостей:
dependency tree...Collapse )

Английский part-of-speech tagger и парсер: текущая оценка
kelijah
Ошибаемость на частеречной разметке: 1.36% (против ~1.13% у русского варианта)

Синтаксический парсер DeSR, обученный на полученном tree bank, дал такие оценки ошибаемости:

Parent mismatch error level=5,650102%
Edge type error level=3,948264%

Это примерно на уровне русского варианта.

Текущие работы над английским парсером
kelijah
1. Еще одно давно запланированное изменение в модели английской морфологии: из лексикона убраны статьи для фразовых глаголов. Решение описывать эти сущности жесткими словарными статьями, конечно, было неверным, и вот я исправился. Теперь будем разбирать их примерно так же, как это делает Link Grammar Parser. Какие-то фразовые глаголы будут формально разбираться с предложными дополнениями, какие-то с наречными. Отдельную категорию частиц-постфиксов вводить не буду, резона в этом не вижу.

Кстати, интересный нюанс. Английские фразовые глаголы - это полное и безоговорочное уничтожение любой попытки описывать смысл предложения через формальное сложение "смыслов" слов. Потому что to look out это, конечно, не есть сумма значения to look и наречия out. И в отличие от русского языка с идиоматическими "бить баклуши" и "дать деру", в английском эти фразовые глаголы употребляются очень интенсивно. Так вот я почему-то ни разу не встречал, например, у Сочера в его работах по векторной модели предложения упоминания о каких-то особенностях в связи с этими штуками. А по идее-то вопрос очень важный, так как часть фразовых глаголов, которые конструируются с постфиксом, нужно считать MWU и обрабатывать в word2vector модели как единое целое, даже если постфикс отделен от глагола другими словами:

You should think it over.

2. Разбор с притяжательным постфиксом теперь выглядит так.

Исходное предложение: Aeneas's forces prevailed.

Неслованая форма Aeneas в нем обрабатывается так же, как в русском синтаксисе. Итоговый вид синтаксического дерева:

Изменения в морфологической и синтаксической модели английского языка...Collapse )

Изменения в английской морфологической модели
kelijah
Делаю ревизию английской морфологии в словарной базе. Первое изменение было задумано очень давно, но большой нужды до последнего момента не было.

Теперь, начиная с версии словаря 179, окончание притяжательных форм существительных 's выделено в отдельный "притяжательный постфикс". Таким образом, токенизатор теперь не делает отдельные ветки в графе токенизации, чтобы правильно учесть альтернативный вариант с формой глагола is.
Притяжательные формы убраны из парадигмы английского существительного. Вместо них введен тег "HAS_POSSESSIVE_FORM", чтобы синтаксический парсер мог связать постфикс с существительным.

Дальнейшие планы по анлийскому словарю:

1. Проверить возможность обучить вероятностную морфологическую модель (part-of-speech tagger) на той же алгоритмической базе, которая использована в русской частеречной разметке. Для этого я сейчас выбираю оптимальный вариант получения обучающего корпуса.

2. Проверить возможность обучения синтаксического парсера. В DESR и других аналогичных парсерах есть готовые обученные модели, но возможность самостоятельно дообучить модель на своих примерах может быть важна.