Умный город

Угрозы эффективности больших данных

В современной цифровой экономике нет более ценного актива, чем данные. Появилось даже устоявшееся выражение для big data – «новая нефть». Сегодня данные ценятся так высоко, поскольку они важны для создания решений для машинного обучения и искусственного интеллекта. Обучение «умных» систем (от пользовательских рекомендаций Netflix до самоуправляемых автомобилей Google) требует огромных массивов информации. В результате крупные компании борются за самые качественные данные, чтобы сформировать самый «умный» ИИ. Даже IBM и General Electric стремятся заслужить репутацию «компаний данных», а фонд Vision SoftBank – крупнейший и наиболее влиятельный инвестор в технологии, не скрывает, что big data – основной его интерес и мотивация при поиске и поддержке стартапов.

Но прогресс не стоит на месте, и в мире технологий появляются способы разработки улучшенных форм ИИ, не требующие огромных массивов данных. Эти технологии, по мнению экспертов, изменят понимание понятия искусственного интеллекта и, возможно, нанесут серьёзный ущерб ранее разработанным технологическим решениям.

Синтетические данные
Сегодня для обучения моделей deep learning практикующим специалистам необходимо собрать тысячи, миллионы или даже миллиарды точек данных. Затем они должны прикрепить ярлыки к каждой точке данных. Это дорогостоящий и, как правило, ручной процесс. И что, если бы исследователям не нужно было кропотливо собирать и маркировать данные из реального мира, а вместо этого они создали бы точный набор данных с нуля?

Ведущие технологические компании – от Nvidia до стартапов, таких как Applied Intuition – разрабатывают методы создания высококачественных данных, полностью цифровых, практически без затрат. Эти искусственно созданные наборы данных адаптируются к потребностям исследователей и содержат миллиарды альтернативных сценариев. Поскольку синтетические данные приближены к реальным, они демократизируют ИИ, подрывая конкурентное преимущество собственных данных. Если компания может быстро сгенерировать миллиарды байт реалистичных данных о вождении с помощью моделирования, насколько ценными являются несколько миллионов миль реальных данных о вождении? В мире, в котором data можно получить по запросу, конкурентная динамика отрасли будет меняться. И поскольку в ближайшие годы AI станет ещё умнее, ему потребуется меньшее количество информации для дальнейшего обучения.

Поэтапное обучение
В отличие от современного ИИ, людям не нужно изучать тысячи примеров, чтобы понять новую концепцию. Например, ребенок может запомнить понятие «жираф» всего по одной картинке в книге, но даже самым лучшим системам глубокого обучения нужны сотни или тысячи примеров.

Чтобы машинный интеллект действительно приблизился к человеческому по своим возможностям, он должен уметь учиться и рассуждать так, как это делают люди. Этот процесс инженеры называют «few-short learning» (дословно «обучение в несколько выстрелов» или же поэтапное). Прогресс в методике был достигнут в сфере компьютерного зрения, когда учёные открыли обучение в режиме «нулевого выстрела» (с использованием только одной, нулевой точки данных).

По мере перехода метода малых данных из научного в коммерческое применение изменится и способ обучения И, следовательно, важность big data в целом снизится.

Обучение с подкреплением
Последний метод ИИ, позволяющий добиться значительных успехов без необходимости использовать реальные данные – это обучение с подкреплением. При таком виде обучения ИИ узнаёт новое путем самообучения, методом проб и ошибок: системе позволяют свободно экспериментировать с различными действиями в любой среде, и она постепенно оптимизирует свое поведение, получая отзывы о том, какие действия правильны, а какие нет. Одним из ярких примеров прогресса этого вида обучения стал выигрыш AlphaGo Zero в го у человека. Система выучила игру лучше, чем кто-либо из людей или машин и даже победила версию AlphaGo в поединке.

Обучение с подкреплением используется в робототехнике, химической инженерии, рекламе и т.д. Вместо того, чтобы требовать огромных ранее созданных наборов данных, ИИ генерирует свои собственные данные, обучаясь в процессе действия.