Козиев Илья (kelijah) wrote,
Козиев Илья
kelijah

Categories:

С генерацией изображений в DALL-E не ахти

После недели экспериментов с моделью DALL-E остались такие впечатления.

1. Обучить DALL-E на своем датасете картинок с текстовыми описаниями без вычислительного кластера нереально. Все мои попытки обучиться на MSCOCO не давали ничего, кроме мешанины мазков или очень странных узоров при генерации изображения по простым словосочетаниям.

2. Если использовать предобученные модели, получается немного лучше, но все равно результат скорее разочаровывает. Я попробовал модели отсюда. Например, эта модель для текста "smiling child" выдает:


или:


В принципе, это недалеко от некоторых образцов "современного изобразительного искусства", но хочется чего-то более фотографичного.

В итоге, продолжим поиски работающих подходов для text 2 image в рамках бюджета.
Tags: text2image, генеративная модель
Subscribe

  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your reply will be screened

  • 0 comments