Современные системы искусственного интеллекта становятся всё более мощными и способными – компьютеры самостоятельно принимают решения, основанные на логических рассуждениях и приближаются к модели “человеческого” взаимодействия с теми, кто ими управляет. Алгоритмы компьютерного зрения также становятся совершеннее, но способность машин к идентификации объектов всё равно ограничена.

Даже самые новые программы компьютерного зрения, увидев только некоторые части предмета, не могут воссоздать полную картину объекта. Пока что любой умный компьютер можно “обмануть”, если представить ему изображение уже знакомого объекта в непривычной обстановке. Инженеры стремятся создать такие интеллектуальные сервисы, которые даже по одной видимой части целого смогут верно определить, что или кто находится перед ними.

Существующие AI-машины, обладающие компьютерным зрением, не предназначены для самостоятельного обучения. Они программируются на распознавание изображений и обучаются так: компьютеру демонстрируют тысячи картинок с любым объектом, и со временем нейронная сеть понимает, что тот или иной предмет или живое существо выглядят определенным образом. Система не умеет импровизировать и выстраивать образ так, как это делают люди – творчески, а иногда и нелогично.

Три этапа обучения: как можно научить машину “смотреть глазами человека”

С самого рождения люди видят множество примеров взаимодействия объектов с окружающим миром. Контекстное обучение (в рамках определенных ситуаций или условий) является ключевой особенностью человеческого мозга, оно помогает создавать модели предметов, связывать их с личным опытом и действительностью.

Инженеры Стэнфордского университета и Калифорнийского университета в Лос-Анджелесе предложили использовать методы контекстного обучения AI для развития умных ПК, чтобы научить его “видеть как человек”. Обучение состояло из трех этапов. На первом этапе система разбивала изображение на маленькие фрагменты (вьюлеты). На втором компьютер узнавал, как вьюлеты сочетаются друг с другом, формировал образ рассматриваемого объекта. И, наконец, на третьем этапе ИИ изучал, какие еще предметы находятся в окружающем пространстве, какова их связь с изучаемым объектом.

Инженеры создали системе обучающую интернет-копию среды, подобную той, в которой живут люди, и поместили ее в эту среду. Такой способ обучения был выбран по двум причинам. Во-первых, в интернете множество видео и изображений одних и тех же объектов с разных ракурсов, во-вторых, они показаны в различных условиях, с изменением окружающей обстановки и т.д.

Метод принес отличные результаты: во время обучения AI ученые продемонстрировали системе более 9 тысяч снимков, на каждом из которых был изображен человек и какая-либо вещь или существо. Нейронная сеть смогла выстроить модель тела человека, собрав фрагменты с разных фото. Аналогичные результаты были получены при изучении других изображений – мотоциклов, автомобилей, самолетов. Во всех случаях система работала лучше, чем все ранее разработанные ИИ-модели, обладающие “компьютерным зрением”.

Метод контекстного обучения AI-систем недавно презентовала и компания Google: ученые Калифорнийского Университета в Беркли разработали программу компьютерного зрения Dense Object Nets (DON). Она позволяет искусственному интеллекту осматривать объекты, манипулировать ими и запоминать свойства предметов, которые он видит впервые.

Автор: Татьяна Козодой


Читайте также:

В Индии будут определять состояние зерновых с помощью приложения Aerobotics

Университет Ньюкасла создал бионический протез руки, который “видит” объекты, находящиеся перед человеком

Комментарии