В епоху четвертої індустріальної революції відсутність очищених від «сміття» даних є головною перешкодою для реалізації проектів на базі AI.

Американська компанія CrowdFlower, що займається дослідженнями у сфері штучного інтелекту і machine learning, виявила явний недолік даних, придатних для використання в алгоритмах машинного навчання. Дослідження, проведене компанією в травні 2019 року показало, що тільки 21% респондентів впевнені в тому, що їх дані організовані і доступні для ML. Ще 15% заявили, що дані впорядковані і доступні, але не використовуються в подібних цілях.

Компанія Alegion, яка спеціалізується на зборі інформації для машинного навчання, також провела власне дослідження і отримала практично ті ж результати. Воно показало, що питання якості та маркування даних не вирішені в середньому в чотирьох з п’яти проектів по ML!

Виникнення корпоративного ШІ призвело до того, що більше половини респондентів не допускають виходу даних за межі країни або створили власний інструмент аннотирования (детальної обробки) даних. Вісім з десяти компаній повідомляють, що навчання алгоритмам AI/ML є набагато складнішим завданням, ніж вони очікували, і така ж кількість респондентів повідомляє про проблеми з запуском проектів, в яких фігурує біг дата.

Неякісні дані не є чимось новим для компаній. Протягом десятиліть непотрібна інформація була спільною проблемою IT-фахівців, які витрачають велику кількість робочого часу на побудову цілісної бази даних і data-моделей і впровадження стандартів MDM (управління основними даними). Буквально 5 років тому компаніям доводилося витрачати величезні суми на обробку інформації, перш, ніж створювати MPP (архітектуру обчислювальних систем).

У сучасному світі проблеми фільтрації інформаційного «сміття» нікуди не поділася. У розпал активного використання хмарних сховищ отримати чисті і добре керовані дані як і раніше важко, і, насправді, це стало ще складніше, оскільки велика їх частина не структурована. Як повідомив директор Data Management Centre of Excellence, Джеймс Коттон (James Cotton), вагомий відсоток світових даних просто невірний. Низька якість інформації несе пряму загрозу для ШІ – в перспективі вона загрожує неправильними рішеннями, які приймає нейромережа.

Аналітик Gartner, Нік Хойдекер (Nick Heudecker) заявив, що у минулому році вісім з десяти проектів були невдалими. У 2018 році тільки 3% нововведень були реалізовані і принесли позитивну рентабельність інвестицій. Компанія Databricks, постачальник рішення Apache Spark, назвала цю ситуацію «проблемою 1%».

Очевидно, що зростання масштабів ШІ і машинного навчання тільки акцентує увагу на проблемі інформації низької якості. Міжнародний ринок охоплюють три мегатенденціі: машинне навчання, штучний інтелект і business intelligence (BI). Виходячи з цього найліпше, що можуть зробити компанії, це не поспішати з автоматизацією процесів та переосмислити свою стратегію, вважають експерти.

Автор: Марина Шост


Читайте також:

Schneider Electric представила рішення EcoStruxure IT

У Китаї аналітика великих даних буде регулюватися державою

Коментарi