?

Log in

No account? Create an account

Компьютерная лингвистика

Новостная лента www.solarix.ru

Entries by tag: статистика

Сравнение оптимизаторов "Follow The Moving Leader" и "Nesterov moment + Adam"
kelijah
Для задачи посимвольной генерации теста ответа в чатботе сравниваю два алгоритма оптимизации:

1) штатный keras.optimizers.nadam, описанный тут http://cs229.stanford.edu/proj2015/054_report.pdf
2) FTML из https://github.com/keras-team/keras-contrib/blob/master/keras_contrib/optimizers/ftml.py, описанный тут.

Сравнивается значение per instance accuracy, достигаемое при обучении нейросетки, то есть успехом считается генерация всей цепочки символов ответа без единой ошибки.
Read more...Collapse )

Сравнение оптимизаторов nadam и rmsprop с помощью F-теста
kelijah
Еще одна серия экспериментов с моделью для векторизации символьного представления слов.
Сравним две штатных реализации оптимизаторов в Keras - rmsprop и nadam. Фиксируем batch_size значением 250, делаем несколько запусков обучения модели для каждого варианта оптимизатора (см. строку 356 в файле wordchar2vector_trainer.py).
ANOVA для сравнения алгоритмов оптимизации...Collapse )

Коэффициент Пирсона для корреляции между batch_size и достигаемой точностью нейросетевой модели
kelijah
Коэффициент Пирсона получается около -0.5, то есть о линейной корреляции между размером батча и максимальной достигаемой точностью нейросетки говорить очень трудно.

Расчет добавлен в тетрадку, в самом конце.

Визуально зависимость тоже почти не видна, есть только некий тренд на понижение, о чем говорит и знак коэффициента:
Read more...Collapse )
Предыдущее сообщение по теме - тут
PS: добавлена визуализация регрессии полиномом второй степени

Датасеты по сочетаемости слов в группах из 2, 3 и 4 слов (mutual information)
kelijah
В репозитории https://github.com/Koziev/NLP_Datasets/tree/master/MutualInfo выложены датасеты со статистикой по устойчивым сочетаниям слов. Датасеты получены с помощью C# кода, выложенного тут (см. описание) и урезаны до 100,000 первых записей, так как выложить полные файлы размером более 2 Гб на гитхаб невозможно.

Внутри файлов можно увидеть такие данные:
Read more...Collapse )

Первый опыт использования KenLM для оценки валидности предложения
kelijah
Програмный пакет для построения и использования языковых моделей KenLM лежит на гитхабе: https://github.com/kpu/kenlm
Read more...Collapse )

Статистика по словосочетаниям НАРЕЧИЕ+ГЛАГОЛ и ГЛАГОЛ+НАРЕЧИЕ по tree bank
kelijah
[Продолжение]
Объем использованного tree bank: 317,780,920 слов
Собирались ребра с глаголом (инфинитив, глагол, деепричастие) и наречием.
Отдельно учитывались наречия справа и слева от глагола, так как для русского языка есть определенные нормы в этом плане.
Результаты отсортированы по mutual information.

ТОП для adv+v:
Статистика по сочетаемости v+advCollapse )

ТОП для v+adv:
Статистика по сочетаемости adv+vCollapse )

Статистика по предикатам SBJ+V+PREP+OBJ: по воскресеньям пресс-служба не работает
kelijah
Подоспела статистика по указанным предикатам, собранная по 317,780,920-словному tree bank'у. Общий обзор статистики сделаю позже, а пока просто отмечу забавный факт, который просто бросился в глаза при визуальной оценке. Вот частоты 4-грамм с подлежащим ПРЕСС-СЛУЖБА и сказуемым СООБЩИТЬ:

пресс-служба|сообщить|в|среду|156
пресс-служба|сообщить|в|понедельник|150
пресс-служба|сообщить|в|вторник|147
пресс-служба|сообщить|в|пятницу|140
пресс-служба|сообщить|в|четверг|111
пресс-служба|сообщить|в|субботу|33
пресс-служба|сообщить|в|воскресенье|4

Интересно, что четверг по каким-то причинам выделается по активности пресс-службы, там явно больше трех сигм отклонение от верхушки. К пятнице готовятся, наверное... В среду - абсолютный пик. А воскресенье они не работают, ага.

Предварительная статистика употребляемости словосочетаний ПРЕДЛОГ+(СУЩ+СУЩ[род.п.])
kelijah
Продолжение темы http://kelijah.livejournal.com/168795.html.
По части tree bank собраны предложные словосочетания ПРЕДЛОГ+СУЩ+СУЩ[род.п.], которые синтаксический парсер объединил в дереве разбора.
Интересно, что в отличие от паттернов ПРЕДЛОГ+(ПРИЛАГАТЕЛЬНОЕ+СУЩЕСТВИТЕЛЬНОЕ), данный тип паттернов дает намного менее идеоматичные словосочетания:
TOP 100 словосочетаний...Collapse )
Видно некоторое количество артефактов типа "на|груди|руки".

Сбор коллокаций предлог+(прилагательное+существительное) из tree bank
kelijah
Продолжение темы http://kelijah.livejournal.com/166962.html.
Из части tree bank собраны предложные паттерны ПРЕДЛОГ+(ПРИЛ+СУЩ).
TOP 200 с сортировкой по mutual information:

Коллокации...Collapse )

Интересно, что значительная часть из них имеет оттенок идеоматичности ("на моих глазах") и соответствуют обстоятельству "как", хотя много и просто частотных "аналитических локативов" (в нижегородской области) и "директивов" (в свою комнату).

Статистически устойчивые пары прилагательное+существительное
kelijah
Исходный материал - tree bank размером 143,139,298 слов, полученный синтаксическим разбором примерно 1.4 Гб русского текста в utf-8.

Из синтаксических деревьев брались именные группы прилагательное+существительное. Если прилагательное отсутствовало, то в статистике такая пара отражалась с подстановочным маркером прилагательного ((null)). Слова приводились к леммам.

Далее результат был загружен в MS SQL в табличку с тремя столбцами adj, n и freq. С помощью запроса

select A_N.adj + REPLICATE(' ', 20-LEN(A_N.adj) ), A_N.n + REPLICATE(' ', 20-LEN(A_N.N)), A_N.freq
 from adj_n A_N, adj_n NULL_N
 where NULL_N.n=A_N.n
       and A_N.adj!='((null))'
       and NULL_N.adj='((null))'
       and A_N.freq>NULL_N.freq
 order by A_N.freq desc
    
выведены такие пары adj+n, для которых частотность ((null))+n ниже, чем частотность adj+n. Другими словами, в выборку попали такие существительные, которые употребляются без определения реже, чем с ним. Первые 100 записей выглядят так:

Read more...Collapse )