Category: it

Category was added automatically. Read all entries about "it".

Опыт использования hyperopt для оптимизации весов правил синтаксического парсера

Вот так выглядит процесс подбора >500 параметров для синтаксического парсера с помощью hyperopt:
Collapse )Подробности эксперимента - под катом.
Collapse )

Учебный NLP и NLP в реальной жизни

Учебный NLP - это когда разбираем хорошо написанный текст:

"Ещё при жизни Пушкина сложилась его репутация величайшего национального русского поэта"

Красота синтаксического разбора, подкрепленная всей мощью технологий и достижениями computer science и machine learning:

Collapse )

25 тысяч корней в викисловаре

К вопросу о генеративных языковых моделях.

Если распарсить русский викисловарь и собрать инфу о морфологическом разборе (секция Морфологические и синтаксические свойства), то выясняется, что всего есть ~25 тысяч уникальных корней.

Некоторые корни весьма продуктивны. Например корень "дв" упомянут для 521 слова, включая составные:
Collapse )

Полный список слов и корней лежит в репозитории NLP Datasets

Датасет с 70,000 вопросами к боту/собеседнику

В репозитории NLP Datasets выложен файл questions_2s.txt с вопросами, содержащими финитный глагол в форме 2 лица единственного числа. Эти вопросы собраны из большого корпуса с текстами, наскрапленными с форумов, субтитрами и так далее.

Для удобства сэмплы отсортированы по финитному глаголу:
Collapse )

NLP pipeline в чатботе - текущее состояние и задачи

NLP pipeline включает несколько отдельных питоновских пакетов. Эти пакеты реализуют часть типовой функциональности для NLP - токенизация, лемматизация, частеречная разметка и т.д. Эта группа может использоваться (и используется) независимо от чатбота.

Кроме того, несколько алгоритмов "растворено" в кодовой базе чатбота. Например, машобучаемый NER, модели синонимичности и релевантности и т.д.

Далее - текущее состояние для пакетов из первой группы.
Collapse )

Датасет для тренировки NP chunker'а

В репозиторий "NLP Datasets" выложен датасет для тренировки NP чанкера.

NP chunker - это вариант shallow parser'а, извлекающего из предлождений группы существительного (noun phrases). Вот результаты разметки нескольких предложений для иллюстрации идеи:
Collapse )

Небольшое исследование качества корпуса PARUS на гитхабе

По поводу вот этого корпуса https://parus-proj.github.io/PaRuS/

Архив с корпусом в формате Conll после распаковки имеет размер около 130 Гб. То есть данных много. Закономерный вопрос - насколько качественны эти данные, учитывая, что ручной модерации они не подвергались в силу объема.

Я сделал небольшой лексический анализ. Искал словоформы, которые отсутствуют в лексиконе Грамматического Словаря. Видно, что данные в какой-то степени грязные. Например, есть "существительные" (лемма + слово):
Collapse )

Читая логи чатбота

Пробежался глазами по логам чатбота одной очень, очень крупной компании. И вот что бросается в эти самые глаза. Процентов 15 сообщений сводится к "мне нужен специалист а не робот".

Ну понятно, что чатбот несовершенен, иногда тупит и отвечает вариантами "я есть Грут". Но это временные, устранимые недостатки. Лет через пять, по мере улучшения чатботов и параллельного сокращения затрат на живые колл-центры, неизбежно появится и платная услуга "Поговорить с живым оператором".

Второе следствие взросления технологии - взломы корпоративного чатбота через вербальный канал, а-ля "Белая трость калибра 7.62". Найдется умная голова, которая придумает грамматический эксплойт для махины из парсеров, нейросеток и регулярок, пролезет через микросервисы и доберется до БД.