1. Если/когда заработает вторая модель получения
word embeddings - то для нее проверка будет аналогичная нижеописанной.
2. Получение кластеров и просмотр их содержимого является только предварительной, грубой оценкой. Практического применения этим кластерам я пока не вижу. Если смутные мысли по поводу использования для machine translation, но смутность и необходимость получения еще и японских векторов пока меня расстраивает.
3. Сделаем POS Tagger на
Support Vector Machine классификаторе, на входе - только полученные вектора для слов, на выходе - целевые теги (часть речи + падеж + число + ....). Сравнение с разметкой эталонного корпуса сразу покажет числовую оценку качества, от которой уже можно отталкиваться при подборе гиперпараметров модели.
4. Если вдруг POS Tagger на векторах окажется на уровне текущего варианта, то встанет вопрос о введении в него работы с неизвестными словами. Это будем решать по факту.
5. Если качество будет хорошим, то, к.м.к, можно будет добавить марковскую модель и получить
MEMM со всеми плюшками глобальной оптимизации цепочки тегов.
6. Отдельная проверка - через использование векторов для
shift-reduce парсера. С этой штукой будем возиться только после окончания проверки на pos tagging модели.