С 4 по 15 декабря мы провели четвертую дата-экспедицию (ДЭ4). Специфика была в том, что она стала практической частью двухнедельного оффлайн-курса по основам работы с данными, который проводила в КарГТУ (Казахстан) Ирина Радченко. По итогам этого курса участники создали ряд проектов, и некоторые из них мы опубликуем здесь. Формальных требований к оформлению финальной работы не было. Это могла быть, например, просто визуализация данных, аналитический текст, использующий визуализации в качестве иллюстрации. Один из участников Асылбек Мубарак объединил в своей работе и визуализацию, и описание результатов, и пошаговое описание процесса работы с данными. Мы начинаем публикацию итоговых проектов именно с работы Асылбека. Первоначально текст опубликован в его блоге.

Открытые данные по теме “Промышленность в Казахстане” (Step by step)

Автор: Асылбек Мубарак (КарТГУ)

Эта статья есть продукт непрерывного развития информационного мира. Цель этой работы – показать, что всё сложное – это лишь кирпичики простого. Данный наглядный отчет спроектирован в рамках 4-ой дата-экспедиции. Ниже я пошагово опишу процесс для демонстрации ясности, простоты и прозрачности выполненной работы. Желаю всем, кто учится работать с данными, успехов в ваших начинаниях.

Первый шаг “Определение темы и цели”:

Тема: Промышленность.

Цель: Демонстрация развития промышленности Казахстана.

Второй шаг “Сбор данных”:

Мне повезло, что у нас в стране есть вполне порядочное агентство статистики. Данные взяты с сайта Комитета Республики Казахстан по статистике. Сейчас для наших целей нам необходимы данные “Объемы промышленного производства по видам экономической деятельности по Республике Казахстан”. Нажав по нужной строчке, сохраняем предложенный файл Excel.

Третий шаг “Определение полезности информации”:

Дальше уже работаем с самими данными: сортируем и удаляем лишнее так, как нам нужно.

В итоге у нас остаются сточки: Горнодобывающая промышленность, Обрабатывающая промышленность, Электроснабжение, Водоснабжение.

Отрасль 1990 1991 2012 2013
Горнодобывающая 7865 17712 10242052603 10696926187
Обрабатывающая 57209 143397 5446749104 5852591643
Электроснабжение 4578 9877 997799453 1119063440
Водоснабжение 507 973 165173540 165412873

Четвертый шаг “Обработка данных”:

Переводим в проценты все наши данные. Зачем? Нам необходимо показать изменение положения промышленности, а именно какая отрасль производства была больше в определенное время и каковы тенденции в развитии страны.

В проценты переводим, с помощью формулы:

X = (Одно из значений текущего года/сумма значений текущего года)*100

Получаем следующий результат:

Отрасль 1990г 1991г 2011г 2012г 2013г
Горнодобывающая 11,21 10,30 63,29 60,78 59,98
Обрабатывающая 81,54 83,39 30,14 32,32 32,82
Электроснабжение 6,53 5,74 5,56 5,92 6,27
Водоснабжение 0,72 0,57 1,01 0,98 0,93

Пятый шаг “Визуализация данных”:

Завершающим этапом будет изображение наших данных в виде графика. Для этого мы будем использовать инструменты на сайте infogr.am. Там можно зарегистрироваться или, если есть аккаунты Google или Facebook, то можно зайти через них, нажав на соответствующие символы справа вверху страницы.

1
Перед нами будут три кнопки, жмем на “Create”:

2
Выбираем дизайн, и нажимаем “Use desing”. После этого добавляем новый график с помощью кнопки “Add Chart”:

3

Перед нами появляется меню, в котором можно выбрать тип графика. Выбираем график, который, на наш взгляд, лучше всего отвечает цели продемонстрировать то, что мы хотим показать. В данном случае это ход развития, и для этого я выбрал “Линии”. Выбираем раздел “Line” и жмем кнопку “Add Chart”. Далее нам нужно заменить уже имеющиеся в шаблоне данные (они автоматически введены для примера) на наши данные. Для этого выделяем нашу таблицу и нажимаем на значок “редактировать” справа внизу.

4

Вставляем наши данные и жмем Done. В итоге получаем наш результат:
Далее я публикую ссылки на все источники, которые использовались для создания моего финального отчета по промышленности Казахстана (см. ниже).

В итоге, повторив весь цикл с каждым источником, мы пришли к такому виду: