У цій статті я коротко розкажу про деякі можливості Alteryx на прикладі даних про динаміку епідемії коронавірусу. 

Матеріал буде цікавий тим, хто має початковий рівень знань про платформу Alteryx, використовувати яку може навіть людина без спеціальної освіти. Прочитавши статтю, ви сформуєте базове уявлення про ситуацію з коронавірусом на основі реальних даних, а не гучних заголовків жовтої преси.

У якості аналізованого датасету я обрав дані, надані інститутом Джона Хопкінса, які викладені у вільному доступі на GitHub. Цей датасет включає в себе дані з дюжини джерел і претендує на повноту інформації про епідемію.

Надані інститутом дані агрегуються в csv-файли і оновлюються щодня. В кінці дня створюється новий файл, що відповідає цьому дню. Структура даних така:

У першу чергу, мені хотілося б побудувати графіки загальної кількості зареєстрованих випадків, видужання і летальних випадків у залежності від днів, а потім, бачачи ці графіки, зробити обґрунтовані припущення про те, якої динаміки розвитку епідемії можна очікувати у майбутньому.

Отже, почнемо з графіків. Щоб побудувати їх за допомогою Alteryx, я виконую таку послідовність кроків.

Крок 1. Вносимо дані в Alteryx.

На першому ж етапі виникає невелика складність, яка полягає в тому, що формат даних за лютий трохи відрізняється від формату січневих даних і тому мені потрібно створити два блоки Input Data:

Знак «?» у імені файлу інтерпретується Alteryx’ом як «будь-який символ». Відповідно, в даному випадку у перший блок рахуються всі файли у цій папці, ім’я яких починається з «01-» і закінчується «-2020.csv», тобто всі файли за січень. У другій Input Data потраплять дані за лютий.

Потім я поєдную дані в одну таблицю за допомогою блоку Union. В результаті отримуємо таблицю, що складається з 2480 рядків і містить всі наявні у нас дані:

Крок 2. Зводимо дані до єдиного формату.

В першу чергу, займемося датами. Після того як ми прочитали дані з csv-файлів, вони знаходяться в текстовому форматі. Щоб з ними було зручно працювати, я перетворю їх в формат «Date». Крім того, є ще один нюанс – формат дат за лютий відрізняється від січневого формату.

Тому додаю в Workflow два блоки DateTime, щоб пропарсити дати:

Продовження статті читайте на Medium

Автор: Полищук Денис


Коментарi