Сучасні системи штучного інтелекту стають все більш потужними і здатними – комп’ютери самостійно приймають рішення, засновані на логічних міркуваннях і наближаються до моделі “людськоъ” взаємодії з тими, хто ними керує. Алгоритми комп’ютерного зору також стають досконалішими, але здатність машин до ідентифікації об’єктів все одно обмежена.

Навіть найновіші програми комп’ютерного зору, побачивши тільки деякі частини предмета, не можуть відтворити повну картину об’єкта. Поки що будь-який розумний комп’ютер можна “обдурити”, якщо представти йому зображення вже знайомого об’єкта в незвичній обстановці. Інженери прагнуть створити такі інтелектуальні сервіси, які навіть по одній видимої частини цілого зможуть вірно визначити, що або хто знаходиться перед ними.

Існуючі AI-машини, що володіють комп’ютерним зором, не призначені для самостійного навчання. Вони програмуються на розпізнавання зображень і навчаються так: комп’ютеру демонструють тисячі картинок з будь-яким об’єктом, і з часом нейронна мережа розуміє, що той чи інший предмет або жива істота виглядають певним чином. Система не вміє імпровізувати і вибудовувати образ так, як це роблять люди – творчо, а іноді і нелогічно.

Три етапи навчання: як можна навчити машину “дивитися очима людини”

З самого народження люди бачать безліч прикладів взаємодії об’єктів з навколишнім світом. Контекстне навчання (в рамках певних ситуацій або умов) є ключовою особливістю людського мозку, воно допомагає створювати моделі предметів, пов’язувати їх з особистим досвідом і дійсністю.

Інженери Стенфордського університету і Каліфорнійського університету в Лос-Анджелесі запропонували використовувати методи контекстного навчання AI для розвитку розумних ПК, щоб навчити його “бачити як людина”. Навчання складалося з трьох етапів. На першому етапі система розбивала зображення на маленькі фрагменти (вьюлети). На другому комп’ютер дізнавався, як вьюлети поєднуються один з одним, формував образ даного об’єкту. І, нарешті, на третьому етапі АІ вивчав, які ще предмети знаходяться в навколишньому просторі, яка їх зв’язок з досліджуваним об’єктом.

Інженери створили системі навчальну інтернет-копію середовища, подібну до тієї, в якій живуть люди, і помістили її в це середовище. Такий спосіб навчання був обраний з двох причин. По-перше, в інтернеті безліч відео та зображень одних і тих же об’єктів з різних ракурсів, по-друге, вони показані в різних умовах, зі зміною навколишнього оточення і т.д.

Метод приніс відмінні результати: під час навчання AI вчені продемонстрували системі понад 9 тисяч знімків, на кожному з яких була зображена людина і будь-яка річ або істота. Нейронна мережа змогла вибудувати модель тіла людини, зібравши фрагменти з різних фото. Аналогічні результати були отримані при вивченні інших зображень – мотоциклів, автомобілів, літаків. У всіх випадках система працювала краще, ніж всі раніше розроблені АІ-моделі, що володіють “комп’ютерним зором”.

Метод контекстного навчання AI-систем недавно презентувала і компанія Google: вчені Каліфорнійського Університету в Берклі розробили програму комп’ютерного зору Dense Object Nets (DON). Вона дозволяє штучного інтелекту оглядати об’єкти, маніпулювати ними і запам’ятовувати властивості предметів, які він бачить вперше.

Автор: Тетяна Козодой


Читайте також:

В Індії визначатимуть стан зернових за допомогою додатка Aerobotics

Університет Ньюкасла створив біонічний протез руки, який “бачить” об’єкти, що знаходяться перед людиною

Коментарi