Category: искусство

Category was added automatically. Read all entries about "искусство".

Генерация "примет" и "умных советов"

Забавы ради собрал небольшой датасет с приметами и причим фольклором, и обучил на нем ruGPT, чтобы модель для заданной темы выдавала релевантную "примету".

Увы, качество генерации получилось не ахти, хотя cherry-picking'ом можно найти забавные вещи.

Например, приметы касательно программирования:

"Чтобы программист хорошо учился, надо, садясь за работу, туловищем сделать на столе крестное знамение."

Collapse )

Про деньги:

"Деньги, взятые в долг, не возвращай, иначе будешь должен еще больше."


Collapse )
Шедевр дедукции:

"не надо думать что ты самый умный в мире если ты не самый умный в мире"


И еще всякое:

Collapse )

С генерацией изображений в DALL-E не ахти

После недели экспериментов с моделью DALL-E остались такие впечатления.

1. Обучить DALL-E на своем датасете картинок с текстовыми описаниями без вычислительного кластера нереально. Все мои попытки обучиться на MSCOCO не давали ничего, кроме мешанины мазков или очень странных узоров при генерации изображения по простым словосочетаниям.

2. Если использовать предобученные модели, получается немного лучше, но все равно результат скорее разочаровывает. Я попробовал модели отсюда. Например, эта модель для текста "smiling child" выдает:
Collapse )

В принципе, это недалеко от некоторых образцов "современного изобразительного искусства", но хочется чего-то более фотографичного.

В итоге, продолжим поиски работающих подходов для text 2 image в рамках бюджета.

Немного "шедевров" от генератора стихов для чит-чата

Чатбот не картошка, не выбросишь в окошко.

Чатбот дурака видит издалека.

Чатбот спать не даёт: хорошо живет.

Язык чешется, чатбот тешится.

(Предыдущие нетленки - тут)

Новая версия датасета с русскоязычными диалогами (130 Мб)

Выложил в репозиторий архивчик с текстовым файлом - 130 Мб русскоязычных диалогов, извлеченных из большого корпуса (художественная литература всех жанров, документалистика и еще всякое):

- Андрюха! Да чего же теперь будет?
- Что надо, Арбузик, то и будет!

- Мне бы Шиповника...
- Какого еще Шиповника?


Каждый диалог содержит от 2 реплик, отделяется пустой строкой. Чистка выполнялась автоматически, некоторое количество мусора в диалогах осталось.

Эрративы и распространенные опечатки

Сначала таблица со статистикой. Обработано 2 млрд. слов в художественных текстах общим объемом ~20 Гб в кодировке utf-8. Интересовала частотность одного из самых употребимых "эрративов" ТЫЩА:
Collapse )

Предлоги и неопределенная форма глагола - черновая статистика

Выборка не очень статистически достоверная, всего 2 Гб текстов, русская художественная проза. Обработка с помощью программы Empirika. Частоты пар сохраняются в SQLite, затем с помощью обычных SQL запросов к базе данных делаю выборки.

Collapse )