Category: кино

Category was added automatically. Read all entries about "кино".

Как будет выглядеть восстание машин на самом деле

На заметку любителям "сингулярности", поклонникам историй про скайнет и прочей "science fiction". Об этом Голливуд не снимет блокбастер, японцы не нарисуют мангу. Потому что такая правда незрелищна. И от этого будет еще обиднее, когда ЭТО начнется на самом деле.

Сегодня имел удовольствие поймать в логах работы веб-сервиса, работающего с СУБД Oracle, ошибку с текстом (текст чесслово не мой, он такой из ораклового клиента прилетел в C# код):

ORA-01460: затребовано нереализованное или неразумное преобразование

Вот именно так, скучно, по-канцелярски, и будет выглядеть восстание машин в реале. Вставляете карточку в банкомат, а он в ответ  "затребована неразумная операция".

Частеречная разметка с CRF на корпусе из 120,000 предложений

Обновление русского корпуса добралось до отметки в 120 тысяч предложений (почти 60% от планируемого конечного размера), и это приятное событие было тут же отмечено пересчетом вероятностной модели Part-Of-Speech Tagger'а.

Итак, ошибка определения тегов (а каждый тег - это часть речи как таковая плюс вектор прочих грамматических признаков, так что для слова Женя в добавок к омонимии существительное-деепричастие получается еще разрешение омонимии мужской-женский род, а для "кино" - единственное-множественное число) уменьшилась до 2.58%

Тестирование, как и ранее, организовано так: из 120 тысяч предложений каждое десятое исключается из тренировки модели и используется при проверке качества. Таким образом, размер heldout'а в данном эксперименте составил ~10000 предложений.

Если посмотреть теперь на показатель качества по мере увеличения размера корпуса, то можно аппроксимировать падение ошибки где-то до 2% (оптимистично, всё-таки падение происходит с экспоненциальным замедлением наклона) при планируемом итоговом корпусе в 200 тысяч предложений.