С 4 по 15 декабря мы провели четвертую дата-экспедицию (ДЭ4). Специфика была в том, что она стала практической частью двухнедельного оффлайн-курса по основам работы с данными, который проводила в КарГТУ (Казахстан) Ирина Радченко. По итогам этого курса участники создали ряд проектов, и некоторые из них мы опубликуем здесь. Формальных требований к оформлению финальной работы не было. Это могла быть, например, просто визуализация данных, аналитический текст, использующий визуализации в качестве иллюстрации. Один из участников Асылбек Мубарак объединил в своей работе и визуализацию, и описание результатов, и пошаговое описание процесса работы с данными. Мы начинаем публикацию итоговых проектов именно с работы Асылбека. Первоначально текст опубликован в его блоге.
Открытые данные по теме “Промышленность в Казахстане” (Step by step)
Автор: Асылбек Мубарак (КарТГУ)
Эта статья есть продукт непрерывного развития информационного мира. Цель этой работы – показать, что всё сложное – это лишь кирпичики простого. Данный наглядный отчет спроектирован в рамках 4-ой дата-экспедиции. Ниже я пошагово опишу процесс для демонстрации ясности, простоты и прозрачности выполненной работы. Желаю всем, кто учится работать с данными, успехов в ваших начинаниях.
Первый шаг “Определение темы и цели”:
Тема: Промышленность.
Цель: Демонстрация развития промышленности Казахстана.
Второй шаг “Сбор данных”:
Мне повезло, что у нас в стране есть вполне порядочное агентство статистики. Данные взяты с сайта Комитета Республики Казахстан по статистике. Сейчас для наших целей нам необходимы данные “Объемы промышленного производства по видам экономической деятельности по Республике Казахстан”. Нажав по нужной строчке, сохраняем предложенный файл Excel.
Третий шаг “Определение полезности информации”:
Дальше уже работаем с самими данными: сортируем и удаляем лишнее так, как нам нужно.
В итоге у нас остаются сточки: Горнодобывающая промышленность, Обрабатывающая промышленность, Электроснабжение, Водоснабжение.
Отрасль | 1990 | 1991 | … | 2012 | 2013 |
Горнодобывающая | 7865 | 17712 | … | 10242052603 | 10696926187 |
Обрабатывающая | 57209 | 143397 | … | 5446749104 | 5852591643 |
Электроснабжение | 4578 | 9877 | … | 997799453 | 1119063440 |
Водоснабжение | 507 | 973 | … | 165173540 | 165412873 |
Четвертый шаг “Обработка данных”:
Переводим в проценты все наши данные. Зачем? Нам необходимо показать изменение положения промышленности, а именно какая отрасль производства была больше в определенное время и каковы тенденции в развитии страны.
В проценты переводим, с помощью формулы:
X = (Одно из значений текущего года/сумма значений текущего года)*100
Получаем следующий результат:
Отрасль | 1990г | 1991г | … | 2011г | 2012г | 2013г |
Горнодобывающая | 11,21 | 10,30 | … | 63,29 | 60,78 | 59,98 |
Обрабатывающая | 81,54 | 83,39 | … | 30,14 | 32,32 | 32,82 |
Электроснабжение | 6,53 | 5,74 | … | 5,56 | 5,92 | 6,27 |
Водоснабжение | 0,72 | 0,57 | … | 1,01 | 0,98 | 0,93 |
Пятый шаг “Визуализация данных”:
Завершающим этапом будет изображение наших данных в виде графика. Для этого мы будем использовать инструменты на сайте infogr.am. Там можно зарегистрироваться или, если есть аккаунты Google или Facebook, то можно зайти через них, нажав на соответствующие символы справа вверху страницы.
Перед нами будут три кнопки, жмем на “Create”:
Выбираем дизайн, и нажимаем “Use desing”. После этого добавляем новый график с помощью кнопки “Add Chart”:
Перед нами появляется меню, в котором можно выбрать тип графика. Выбираем график, который, на наш взгляд, лучше всего отвечает цели продемонстрировать то, что мы хотим показать. В данном случае это ход развития, и для этого я выбрал “Линии”. Выбираем раздел “Line” и жмем кнопку “Add Chart”. Далее нам нужно заменить уже имеющиеся в шаблоне данные (они автоматически введены для примера) на наши данные. Для этого выделяем нашу таблицу и нажимаем на значок “редактировать” справа внизу.
Вставляем наши данные и жмем Done. В итоге получаем наш результат:
Далее я публикую ссылки на все источники, которые использовались для создания моего финального отчета по промышленности Казахстана (см. ниже).
В итоге, повторив весь цикл с каждым источником, мы пришли к такому виду: