DeepMind випустила систему штучного інтелекту «загального призначення», яку можна навчити виконувати багато різних типів завдань. Дослідники навчили систему під назвою Gato виконувати 604 завдання, включаючи додавання підписів до зображень, участь у діалогах, укладання блоків роботизованою рукою та гру в ігри Atari.

Досягненням в індустрії штучного інтелекту є створення системи зі штучним загальним інтелектом (AGI) або вміння розуміти і вивчати будь-яке завдання, яке людина може виконати. AGI повинна була створити системи, здатні мислити, планувати, вчитися, представляти знання і спілкуватися природною мовою.

При розгортанні Gato підказка, наприклад демонстрація, токенізується, щоб сформувати початкову послідовність. Потім навколишнє середовище видає перше спостереження, яке також токенізується і додається до послідовності. Система автоматично вибирає вектор дії, по одному токену за раз.

Джек Хессель, науковий співробітник Алленського інституту штучного інтелекту, зазначає, що єдина система штучного інтелекту, здатна вирішувати багато проблем, не нова. Наприклад, Google нещодавно почав використовувати багатозадачну уніфіковану модель, або MUM, у своїй пошуковій системі, яка може обробляти текст, зображення та відео для виконання завдань, починаючи від пошуку міжмовних варіацій у написанні слів до співвіднесення пошукового запиту із зображенням.

Після того, як підбираються всі маркери, що входять до вектора активності, активність розшифровується і відправляється в навколишнє середовище, яке виконує кроки і дає нове спостереження. Потім процедуру повторюють. Модель завжди бачить всі попередні спостереження і дії в своєму контекстному вікні з 1024 токенів.

Однак Гессель відзначає різноманітність завдань і методів навчання Гато. “Ми бачили докази раніше, що окремі моделі можуть обробляти дивно різноманітні набори вхідних даних”, – сказав він. На мій погляд, головне питання, коли мова йде про багатозадачність, полягає в тому, доповнюють завдання один одного чи ні. Ви можете собі уявити більш нудний випадок, якщо модель неявно відокремить завдання перед їх вирішенням, наприклад: «Якщо я знайду завдання А як вхідне, я буду використовувати підмережу A. Якщо замість цього я знайду завдання Б, я буду використовувати іншу підмережу B». Аналогічні результати можна було б отримати шляхом навчання А і В окремо, що не вражає. Навпаки, якщо спільне навчання А і В призводить до поліпшення одного з них (або обох!), то все стає більш захоплюючим.

Гато вчиться на великій кількості наборів даних, які включають досвід агентів як в імітованих, так і в реальних середовищах. Він показує кількість завдань, в яких виконання попередньо підготовленої моделі Gato перевищує відсоток експертної оцінки.

Гато вчили прикладам мільярдів слів, образів з реального світу і змодельованих середовищ. Система не завжди добре справляється з поставленими завданнями. Наприклад, при спілкуванні з людиною вона часто відповідає поверхнево або навіть неправильно (наприклад, називає Марсель столицею Франції). При підписанні фотографій Gato неправильно визначає стать людей. Система правильно укладає блоки за допомогою справжнього робота тільки в 60% випадків.

Попередньо навчена модель Gato підписує зображення.

Але DeepMind стверджує, що в 450 з 604 завдань, згаданих вище, Gato виконує краще, ніж людський експерт, що більше половини випадків.

“Якщо ви думаєте, що нам потрібні спільні системи, і це багато людей в області штучного інтелекту і машинного навчання, то Гато має велике значення”, – говорить Метью Гуздіал, доцент кафедри комп’ютерних наук в Університеті Альберти. – “Я думаю, що люди, які кажуть, що це важливий крок до ШІ, дещо перебільшують, тому що ми все ще не на рівні людського інтелекту і, ймовірно, не будемо там найближчим часом. Однак ці поширені моделі, безумовно, мають переваги з точки зору їх продуктивності в завданнях, що виходять за рамки їх навчальних даних».

Цікаво, що з архітектурної точки зору Gato мало чим відрізняється від багатьох сучасних систем штучного інтелекту. Він поділяє характеристики з GPT-3 OpenAI в тому сенсі, що це «трансформатор». Починаючи з 2017 року, трансформер став архітектурою вибору для складних логічних завдань, демонструючи здатність узагальнювати документи, генерувати музику, класифікувати об’єкти в зображеннях, аналізувати білкові послідовності. Можливо, навіть більш примітний, Gato на кілька порядків менше, ніж окремі системи. Gato має лише 1,2 мільярда параметрів, тоді як GPT-3 має понад 170 мільярдів.

Дослідники DeepMind навмисно зробили Gato невеликою системою, щоб вона могла керувати рукою робота в режимі реального часу. Але вони припускають, що при масштабуванні система зможе впоратися з будь-яким «завданням, поведінкою і втіленням інтересу».

Тим не менш, є кілька перешкод, щоб зробити Gato краще, ніж передові однозадачні системи в конкретних завданнях. Як і більшість трансформаторних систем, знання Gato про світ засновані на навчальних даних і залишаються незмінними. Таким чином, система не здатна постійно вчитися. Gato також має обмеження у своєму «вікні контексту» або кількості інформації, яку система може «запам’ятати» в контексті заданого завдання. Навіть кращі мовні моделі на основі Трансформера не можуть написати довге есе, а тим більше книгу, не забуваючи про ключові деталі і, таким чином, не втрачаючи з поля зору сюжет. Забуття відбувається в будь-якому завданні, будь то написання вірша або управління роботом, і деякі експерти називають його «ахіллесовою п’ятою» машинного навчання.

Майк Кук, член дослідницької групи Knives & Paintbrushes, застерігає від припущення, що Гато – це шлях до справді універсального ШІ: «Це звучить захоплююче, що ШІ може виконувати всі ці завдання … Але насправді це не надто відрізняється від розуміння різниці GPT-3 між простим англійським текстом і кодом Python. Gato отримує спеціальні навчальні дані про ці завдання, як і будь-який інший ШІ такого типу, і вивчає, як закономірності в даних пов’язані один з одним, включаючи навчання, як пов’язувати певні типи вхідних даних з певними виходами. Це непросто, але це не означає, що штучний інтелект також може заварити чашку чаю або легко вивчити десять або п’ятдесят інших завдань. Ми знаємо, що сучасні підходи до масштабного моделювання дозволяють вивчати кілька завдань одночасно. Я думаю, що це хороша робота, але це не здається важливим кроком ні до чого”.