‎Google представила нейронну мережу Imagen, яка генерує зображення з текстового опису‎

  • 26.05.2022

Компанія Google представила власну нейронну мережу, яка генерує зображення з опису. Її розробила команда дослідницького проекту Google Brain, яка спеціалізується на вивченні штучного інтелекту на основі глибокого навчання.

Для розпізнавання текстового запиту нейронна мережа використовує великі мовні моделі – на них базуються природні алгоритми обробки мовлення типу GPT-3. Система працює в три етапи. На першому генерується зображення 64х64 пікселів, яке завершується до тих пір, поки нейронна мережа не зможе змінити його, щоб краще відповідати початковому запиту. Потім розмір зображення збільшується до 256х256 пікселів. На третьому етапі повторюється те ж саме із зображенням кінцевого розміру 1024х1024 пікселів.

Google зазначив, що Imagen робить кращу роботу з розуміння складних запитів, ніж DALL-E 2. Компанія запросила групу тестувальників для порівняння ілюстрацій, створених за допомогою Imagen, DALL-E 2 та інших моделей перетворення. Експеримент показав, що люди найчастіше віддають перевагу зображенням, створеним нейронною мережею Google.

Однак нейронна мережа від OpenAI випереджає аналогічну від Google, так як вже з’являється повноцінна, хоча і закрита бета-версія, і люди використовують її для виконання повсякденних завдань і розваг.

Проект Google все ще знаходиться в експериментальній фазі, але компанія запропонувала протестувати нейронну мережу в обмеженому технодемо. Користувачі зможуть вибирати слова тільки з запропонованих.

Раніше OpenAI представила DALL-E 2: нейронна мережа навчилася редагувати готові знімки і поліпшила якість зображення. Компанія надала доступ до свого сервісу обмеженій кількості користувачів.