В эпоху четвёртой индустриальной революции отсутствие очищенных от «мусора» данных оказывается главным препятствием для реализации проектов на базе AI.

Американская компания CrowdFlower, занимающаяся исследованиями в сфере искусственного интеллекта и machine learning, обнаружила явный недостаток данных, пригодных для использования в алгоритмах машинного обучения. Исследование, проведённое компанией в мае 2019 года показало, что только 21% респондентов уверены в том, что их данные организованы и доступны для ML. Еще 15% заявили, что данные упорядочены и доступны, но не используются в подобных целях.

Компания Alegion, специализирующаяся на сборе информации для машинного обучения, также провела собственное исследование и получила практически те же результаты. Оно показало, что вопросы качества и маркировки данных не решены в среднем в четырёх из пяти проектов по ML!

Возникновение корпоративного ИИ привело к тому, что более половины респондентов не допускают выхода данных за пределы страны или создали собственный инструмент аннотирования (детальной обработки) данных. Восемь из десяти компаний сообщают, что обучение алгоритмам AI/ML является гораздо более сложной задачей, чем они ожидали, и такое же количество респондентов сообщает о проблемах с запуском проектов, в которых фигурирует биг дата.

Некачественные данные не являются чем-то новым для компаний. В течение десятилетий ненужная информация была общей проблемой IT-специалистов, которые тратят большое количество рабочего времени на построение целостной базы данных и data-моделей и внедрение стандартов MDM (управление основными данными). Буквально 5 лет назад компаниям приходилось тратить огромные суммы на обработку информации, прежде, чем создавать MPP (архитектуру вычислительных систем).

В современном мире проблемы фильтрации информационного «мусора» никуда не делась. В разгар активного использования облачных хранилищ получить чистые и хорошо управляемые данные по-прежнему тяжело, и, на самом деле, это стало её сложнее, поскольку большая их часть не структурирована. Как сообщил директор Data Management Centre of Excellence, Джеймс Коттон (James Cotton), весомый процент мировых данных просто неверен. Низкое качество информации несёт прямую угрозу для ИИ – в перспективе она грозит неправильными решениями, которые примет нейросеть.

Аналитик Gartner, Ник Хойдекер (Nick Heudecker) заявил, что в прошлом году восемь из десяти проектов были неудачными. В 2018 году только 3% нововведений были реализованы и принесли положительную рентабельность инвестиций. Компания Databricks, поставщик решения Apache Spark, назвала эту ситуацию «проблемой 1%».

Очевидно, что рост масштабов ИИ и машинного обучения только акцентирует внимание на проблеме информации низкого качества. Международный рынок охватывают три мегатенденции: машинное обучение, искусственный интеллект и business intelligence (BI). Исходя из этого лучшее, что могут сделать компании, это не спешить с автоматизацией процессов и переосмыслить свою стратегию, полагают эксперты.

Автор: Марина Шост


Читайте также:

Schneider Electric представила решение EcoStruxure IT

В Китае аналитика больших данных будет регулироваться государством

Комментарии