В этой статье я кратко расскажу о некоторых возможностях Alteryx на примере данных о динамике эпидемии коронавируса.

Материал будет интересен тем, кто имеет начальный уровень знаний о платформе Alteryx, использовать которую может даже человек без специального образования. Прочитав статью, вы сформируете базовое представление о ситуации с коронавирусом на основе реальных данных, а не громких заголовков жёлтой прессы.

В качестве анализируемого датасета я выбрал данные, предоставляемые институтом Джона Хопкинса, которые выложены в свободном доступе на GitHub GitHub. Этот датасет включает в себя данные из дюжины источников и претендует на полноту информации об эпидемии.

Предоставляемые институтом данные агрегируются в csv-файлы и обновляются ежедневно. В конце дня создаётся новый файл, соответствующий этому дню. Структура данных такова:

В первую очередь, мне хотелось бы построить графики общего количества зарегистрированных случаев, выздоровевших и летальных исходов в зависимости от дней, а затем, видя эти графики, сделать обоснованные предположения о том, какой динамики развития эпидемии можно ожидать в будущем.

Итак, начнём с графиков. Чтобы построить их с помощью Alteryx, я выполняю следующую последовательность шагов.

Шаг 1. Вносим данные в Alteryx.

На первом же этапе возникает небольшая сложность, состоящая в том, что формат данных за февраль немного отличается от формата январских данных и поэтому мне нужно создать два блока Input Data:

Знак «?» в имени файла интерпретируется Alteryx’ом как «любой символ». Соответственно, в данном случае в первый блок считаются все файлы в указанной папке, имя которых начинается с «01-» и заканчивается «-2020.csv», т.е. все файлы за январь. Во второй Input Data попадут данные за февраль.

Затем я объединяю данные в одну таблицу с помощью блока Union. В результате получаем таблицу, состоящую из 2480 строк и содержащую все имеющиеся у нас данные:

Шаг 2. Приводим данные к единому формату.

В первую очередь, займёмся датами. После того как мы прочитали данные из csv-файлов, они находятся в текстовом формате. Чтобы с ними было удобно работать, я преобразую их в формат «Date». Кроме того, есть ещё один нюанс – формат дат за февраль отличается от январского формата.

Поэтому добавляю в Workflow два блока DateTime, чтобы пропарсить даты:

Продолжение статьи читайте на Medium

Автор: Полищук Денис


Комментарии