Category: финансы

Category was added automatically. Read all entries about "финансы".

Соревнование от SAS - банковский скоринг кредитных заявок (бинарная классификация)

Страничка конкурса: http://sascompetitions.ru/competitions/forecasting-the-probability-of-non-repayment-of-loan
Конкурс появился и в списке текущих соревнований http://mltrainings.ru/?filter=active.
Описание задачи немного мутное, но вроде бы все сводится к бинарной классификации без особых заморочек.
Важный нюанс, который я выяснил в первом пробном сабмите, заключается в правильном форматировании файла сабмита. Записи в нем должны быть СТРОГО в порядке возрастания ID, иначе при сабмите получается нулевая оценка без каких-либо пояснений.
Тренировочный датасет содержит более миллиона сэмплов, так что можно поиграть с разными моделями. Я планирую попробовать стэкинг из brew и mlxtend.

Skip-gram и открой окно пошире...

Продолжая http://kelijah.livejournal.com/167972.html.
В word2vector модели при генерации поставил cbow=0 и слелал размер окна 10.
Плюс изменил порядок сравнения близости контекстов.
Итог - неточность снятия омонимии и определения нужного смысла для многозначных слов упала в 3 раза, до ~8%:
Collapse )

Черновое сравнение tf-idf и word2vector как основы для word-sense disambiguation

Сравниваем два алгоритма для word-sense disambiguation (продолжение http://kelijah.livejournal.com/167784.html) Оба сводятся к вычислению cosine similarity, хотя строят векторы документов и предложений по-разному.
Расчет tf-tdf делался с лемматизацией. Стратегическая задумка - сделать еще и глубокую нормализацию, с приведением к "лучшему общему синониму", к нормальной форме для уменьшительно-ласкательных и к глагольному прототипу для словообразовательных гнезд.

Итоги:

tf-idf: Error count=16 (26,2295081967213%)
word2vector: Error count=13 (21,3114754098361%)

Подробный листинг с тестовыми примерами:
Collapse )

Финальная оценка грязного алгоритма разрешения полисемии и снятия омонимии на основе контекста

Для векторов длиной 50.
В качестве обучающего взят 6Гб корпус (utf-8).
Омонимия и полисемия:
Collapse )
Error count=13 (21,3114754098361%)

Словосочетания сущ + сущ в род. падеже

Продолжение статистики по корпусу из http://kelijah.livejournal.com/165490.html.
Собраны словосочетания с существительными, к которым присоеденены существительные в родительном падеже.
Сортировка по абсолютной частоте:
Collapse )

Сортировка по mutual information:
Collapse )

Видны артефакты парсинга. Например, Юрий|лужок - это ошибочный разбор для "Юрий Лужков". Упрощенная морфологическая модель считает "Лужков" только формой существительного "лужок", отсюда и результат в парсере. На это накладывается еще и склонность mutual information выносить в топ всякие опечатки, которые встречаются очень редко, соответственно дают малый знаменатель в формуле MI.

Перекройка веб-морды для словаря

По дефолту начальной страницей онлайн-словаря  сделал Morphology.aspx

Помимо собственно морфологического разбора, на этой же странице теперь выводятся и результаты стемминга и лемматизации, чтобы дать полное представление об основных алгоритмах.

Конечно, выглядит это несколько переусложненным, так что потом может снова переформатирую. Будет также хорошо вписать всю эту портянку в 1024*768 и проверить под Safari.

Хотел сделать вызов анализаторов через ajax-запросы из клиента, но времени на такую красоту нет, поэтому все делается в postback обработчике.

Что еще хотелось бы сделать: предугадывание слов по мере их ввода через базу N-грамм и таблицы быстрого поиска в лексиконе.

Но это наверняка уже после того, как новый синтаксический анализатор начнет разбирать полные предложения, с подлежащим и сказуемым. Сейчас он в самом начале - сделана работа с наречиями и различными паттернами, распознаваемыми как наречия, например

работать быстро, точно и аккуратно

Размер русского словника вырос до примерно 162 тысяч словарных статей, даже немного больше прогноза, так что на какое-то время задача внесения новых слов потеряла высокий приоритет. Хотя это не отменяет мелких правок по мере обнаружения ошибок и неточностей. К примеру, вчера при проверке английского морфоанализатора на фразе A delegate will have a void return type обнаружилось, что return не распознается как прилагательное - только существительное или глагол.