Як Штучний Інтелект допомагає історикам розшифровувати пошкоджені тексти з Стародавньої Греції

  • 21.03.2022

Фахівці DeepMind багато разів реалізовували унікальні технологічні проекти, які дивували своїми можливостями. Один з таких проектів, AlphaGo був доказом того, що технологія може буквально зламати шаблони. Так, протягом багатьох років вважалося, що комп’ютер не здатний вигравати ігри там, де потрібна інтуїція. Але виявилося, що це можливо – і доказом цього стала неодноразова перемога алгоритму в чемпіонатах в Го.

Зараз DeepMind розробила технологію, яка вражає не яскравими перемогами над людиною, а своїми можливостями в науковій галузі – якщо бути точніше, то в історії. Система, названа Ітака, допомагає історикам читати стародавні тексти, які пошкоджені. У коморах музеїв зберігається велика кількість різних артефактів минулого, які дуже сильно пошкоджені часом. І якщо зброю, обладунки, одяг можна відновити, то тексти, які наносяться на пошкоджений папірус, пергамент та інші «носії», відновити не так-то просто. Але Ітака з цим справляється.

Проблемою для істориків є не тільки пошкоджені тексти, а й їх походження – час і місце. Для історії важливе місце написання текстів, будь то довгий документ або щось на зразок бухгалтерського звіту. Але дізнатися це не завжди вдається – просто тому, що такі документи часто переміщуються на сотні і навіть тисячі кілометрів від місця їх створення. Ну і третій важливий фактор для істориків – це час, коли текст був написаний. Завдяки радіовуглецю та іншим видам аналізу вік документа можна визначити досить точно. Але ось проблема – для будь-якого виду аналізу потрібна вибірка носія, на яку наноситься текст. А у випадку з древніми матеріалами досить невеликого удару, а безцінний артефакт може сильно пошкодитися або повністю знищити.

Технологія, розглянута в матеріалі, здатна вирішити практично всі ці проблеми. Звичайно, інструмент не ідеальний, але він здатний на багато речей, які вчений-історик навіть дуже високої кваліфікації не може зробити.

Пошкоджені тексти і піфія

Часто документи, які збереглися до нашого часу, неповні. Неможливо або дуже складно відновити сенс втраченого сайту в нормальній ситуації. У більшості випадків втрачені ділянки, а точніше, їх значення, відновлюються за допомогою збереженого тексту, а також можливих підказок, які можуть бути в інших джерелах, історичному контексті і т.д.

Кілька років тому група вчених і розробників створила систему, здатну значно прискорити цей процес. Так, Янніс Ассаель з DeepMind, Теа Соммершильд і Джонатан Прага разом з дослідниками з Оксфордського університету розробили Піфію. Це технологія реконструкції стародавніх текстів, яка названа на честь жриці-віщунки в храмі Аполлона в Стародавній Греції.

Спочатку вчені почали працювати з базою даних Гуманітарного інституту Паккарда. Це найбільша цифрова колекція давньогрецьких написів. Було вирішено перетворити його в машинозчитуваний текст, базу даних під назвою PHI-ML. База даних, до речі, містила близько 35 000 написів і близько 3 мільйонів слів – від 7 століття до нашої ери до 5 століття нашої ери. Після того, як все це було перетворено в текст, дружній до штучного інтелекту, Піфію вчили передбачати відсутні літери навмисно неповними або пошкодженими словами. В основі всього цього лежить складна система нейронних мереж.

Зіткнувшись з проблемним словом або реченням, Піфія запропонувала до 20 різних варіантів букв і слів, які могли б бути в оригінальній версії тексту. Крім того, система відображала рівень «правдоподібності» для всіх запропонованих варіантів. Після серії тестів розробники системи протестували його на практиці на реальних текстах з відомою стенограмою. І Піфія, і аспіранти з епіграфії працювали над цими текстами одночасно. Команда протестувала систему, порівнявши результати Піфії в розборі 2949 написів. У виході Pythia було 30,1% помилок у порівнянні з 57,3% помилок для аспірантів. Піфія також змогла виконати завдання набагато швидше: для розшифровки 50 написів знадобилося всього кілька секунд, в порівнянні з двома годинами для початківців вчених.

Новий етап роботи – Ітака вступає в гру

Як згадувалося на початку, остаточна система, яка працює над розшифровкою текстів, називалася Ithaca. Вона займається не тільки відновленням пошкоджених ділянок, але і допомагає з’ясувати, де і коли були створені відновлені тексти. Група авторів проекту розмістила результати роботи в своєму блозі, де, крім усього іншого, показала на інтерактивній карті можливі місця для створення стародавніх текстів. Датування – від 800 років до нашої ери до 800 років нашої ери

Як виявилося, точність нового алгоритму становить близько 62%. Тоді як середня оцінка точності відновлення текстів з оцінкою дати і місця їх походження вченими становить всього 25%. Але є і цікавий нюанс. Якщо система працює разом з людиною, епіграфічним фахівцем, то точність ще вище – вона підвищується до 72%. Поширення дат, тобто часу виникнення текстів – плюс-мінус 30 років. Не так вже й багато, якщо врахувати часовий інтервал, з яким ведеться робота – понад 1500 років.

Після того, як правильність роботи була підтверджена вченими, було вирішено використовувати можливості Ітаки для вирішення проблеми з датуванням певного пулу афінських текстів. Кілька експертів стародавньої Греції мали різні погляди на їх датування. Наприклад, деякі вчені вважали, що тексти були написані близько 446 р. н.е. Інші стверджували, що вони були створені пізніше – близько 420 р. до н.е..C. Алгоритм, проаналізувавши спірний пул матеріалів, показав, що тексти були написані близько 421 р. н.е.

Різниця здається не такою великою, але для фахівців Стародавньої Греції вона величезна, так як важлива для визначення перебігу політичної історії в стародавньому стані.

Що далі

Наскільки експерти можуть судити, алгоритм працює правильно, і, як зазначено вище, результат роботи Ітаки вище результату роботи вчених. Зараз систему планується адаптувати для роботи з іншими текстами іншими мовами, включаючи аккадську, іврит і майя.

Кілька вчених, аналізуючи результати алгоритму, створеного DeepMind, заявили, що з нетерпінням чекають застосування можливостей технології в інших областях історії. Так, в музеях багато текстів, про походження яких практично нічого не відомо – просто тому, що вони стали жертвами «мисливців за старожитностями». Тобто люди, які купували і продавали тексти, отримані по невідомих каналах заради збагачення.

В результаті ні точні дати створення таких документів, ні місце походження вченим невідомі. Зайве говорити, що ми також з нетерпінням чекаємо результатів роботи Ітаки в найближчому майбутньому.