Данные из Twitter могут стать отличным материалом для обучения систем искусственного интеллекта. Например, американская сеть быстрого питания Chick-fil-A недавно начала использовать информацию из постов в Твиттере, чтобы обнаружить случаи отравления в ресторанах сети. Ранее в этом году учёные Объединённого исследовательского центра (Joint Research Center) совместно со Службой науки и информации при Европейской комиссии описали прототип системы, анализирующей данные о наводнениях в реальном времени на основании публикаций в Twitter.

Недавнее исследование в сфере городской логистики (Unsupervised Machine Learning to Analyse City Logistics), возглавляемое командой специалистов Mines ParisTech показало, что анализ твитов с помощью алгоритмов машинного обучения позволяет отслеживать основные тенденции в логистической отрасли города. В особенности это касается зон с низкими уровнями выбросов и городских распределительных центров.

По мнению экспертов, основная роль логистики заключается в том, чтобы сделать товары и услуги доступными для потребителя и эффективными для предприятия с точки зрения затрат на обслуживание. Однако разработка эффективной стратегии действий требует диагностики отрасли и анализа. Чтобы проанализировать каждый логистический участок, потребуется много времени, при этом необходимо учитывать множество переменных (количество транспорта на отрезке пути в разное время суток, общую ситуацию на дорогах, наличие машин для доставки и т.д.). Здесь на помощь логистам приходит машинное обучение: программа анализирует переменные, а затем группирует данные так, чтобы специалисты могли понять, какой маршрут будет экономически выгодным, наиболее безопасным и прочее.

Далее искусственный интеллект ищет в социальное сети фразы по ключевым словам, например, «городская логистика», «логистика последней мили», «доставка», «транспорт», «городской транспорт», «перевозки» и другие. Собранные твиты фильтруются системой, удаляется нежелательный контент, в том числе ссылки на сторонние ресурсы, посторонние символы, а также дублированные записи, не несущие полезной информации.

Слова в оставшихся блоках текста лемматизируются – группируются так, чтобы их можно было анализировать, как единый элемент, и объединяются в карту признаков. Затем специалисты проводят анализ извлечённых данных с помощью набора инструментов Natural Language Toolkit (NLTK) и программы для обработки символьных и статистических данных на естественном языке. Показатель популярности каждого блока данных рассчитывается с помощью Valence Aware Dictionary и анализатора настроений VADER. Так, на основе 111265 твитов, опубликованных в период между 2007 и 2018 годами, содержащими ключевые термины городской логистики, эксперты обнаружили, что наиболее часто встречающиеся фразы были связаны с трудоустройством, а не с запросом на услуги («коммерческие водительские права», «работа», «CDL»). Помимо прочего, Канзас-Сити – ключевой транзитный пункт для торговли в США – вошел в пятерку самых активных регионов по объему деятельности, связанной с перевозками.

Также, по мнению перевозчиков, важны выявить неозвученные проблемы или так называемые «мёртвые зоны» отрасли. В настоящее время в США в достаточной мере раскрыты вопросы безопасности дорожного движения, расхода топлива, транспортной структуры в городах; в меньшей степени решена проблематика экологичных транспортных средств, рационального расхода ресурсов или обучения безопасному движению.

У метода анализа твитов есть свои минусы: он не учитывает уровень активности аккаунта и охват аудитории. Несмотря на недостатки, эксперты Joint Research Center считают Twitter пространством возможностей для городских логистических компаний из-за огромной популярности платформы.

Автор: Елена Семенчук


Читайте также:

Gatik AI и Wallmart запускают уникальный сервис доставки в сегменте «средней мили»

Роботизация автоматизированных процессов в логистике: как AI влияет на отрасль

Комментарии