Козиев Илья (kelijah) wrote,
Козиев Илья
kelijah

Category:

Размещение многозначных слов в векторном пространстве

Это вторая задача, которую хотелось бы решить в следующем году. Надо научиться автоматически разделять многозначные слова в векторном пространстве, чтобы "затопить"  имело два вектора, один рядом с "зажечь", а другой рядом с "утопить".

Задача имеет некоторое общее сходство с такими задачами, как поиск корней уравнений (могут быть кратные корни), поиск собственных значений (аналогичная ситуация), но более точную формулировку, на основе которой можно построить алгоритм, я пока придумать не могу.

Предварительно для решения задачи может потребоваться инкрементный построитель векторной модели, который будет брать небольшие порции слов и размещать их на основе критерия минимума общей энергии, например. Само собой, надо прошерстить текущую литературу по vector space model, так как задача настолько явная, что кто-то уже должен был предложить способ решения, как мне кажется.

PS: по поводу этой задачи крутится в голове "мультимодальные распределения" , "gaussian mixture model" и упрощенный подвид GMM aka "k-means". Но это может быть ложный след :)
Tags: vector space model, word embedding, word2vec, семантика
Subscribe
  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your reply will be screened

  • 2 comments