Подготовка данных к обработке в Google Таблицах. Азы

Инструменты Экспедиции данных

Инструмент: Google Таблицы

Требуемые навыки: Разве что некоторое представление о том, как работать в Интернете

Нижеследующее представляет собой прохождение одного из простых заданий, которые давали во время онлайн Экспедиции данных (совместный проект School of Data и P2P University). С одной стороны, в качестве иллюстрации, с другой стороны, есть вероятность, что кому-то пригодится как руководство к действию. При всей простоте, сам тот факт, что нужно взаимодействовать с таблицей, некоторых участников приводил в смятение. Даже слово придумали: Dataphobia (фобия данных).

Сразу скажу, в применении к Экспедиции оптимальным вариантом было использование таблиц Google, потому что плоды трудов надо было регулярно демонстрировать коллегам, а удобнее всего это делать как раз таки при помощи расшариваемых носителей. Соответственно, и прохождение ориентировано на работу с Google-таблицами.

Итак, для начала всем участникам разослали исходную таблицу с данными по выбросам углекислого газа по странам за период с 1980 по 2009 гг. И еще одну (вторая вкладка в таблице) – по выбросам углекислого газа на душу населения (с 2005 по 2009 гг.).

Вот ссылка: https://docs.google.com/spreadsheet/ccc?key=0AnCa4pymWsNNdGEtUV9kR3dZVktzVDhKQnRzNjJkY0E#gid=1

Вот сама таблица [1]:

[googleapps domain=”docs” dir=”spreadsheet/pub” query=”key=0AnCa4pymWsNNdGEtUV9kR3dZVktzVDhKQnRzNjJkY0E&output=html&widget=true” width=”500″ height=”300″ /]

Первое задание состояло в том, чтобы привести эту таблицу в такой вид, в котором нам с ней было бы удобно работать. В какой именно вид – зависит от того, какие данные нас интересуют. Любая большая отчетная таблица, претендующая на то, чтобы быть исчерпывающей, будет содержать заведомо больше данных, чем нужно для исследования частных вопросов. Допустим, мы хотим проанализировать данные, касающиеся только стран (не континентов, не регионов, а именно современных стран). В таком случае мы наблюдаем в таблице много лишнего:

World CO2 emissions INITIAL_1

Чтобы обработать то, что нам нужно, это лишнее надо удалить. И тут мы переходим к правилу номер один [2]:

Сначала нужно создать копию таблицы, и в ней уже всё удалять и менять.

Копии имеет смысл сразу дать какое-нибудь специфическое название, чтобы потом не путаться.

И еще очень хорошая практика для начала – создать параллельно документ, скажем, в блокноте и записывать туда все операции над таблицей – шаг за шагом.

Предположим, мы хотим удалить первую строку, в которой находится ссылка на источник (для обработки данных по странам она совершенно точно не нужна). Но прежде чем это сделать, её нужно убрать закрепление, иначе таблица не даст её удалить. Убрать закрепление можно двумя способами:

  1. Вид > Закрепить строки > Нет закрепленных строк (и то же самое имеет смысл сразу проделать и со столбцами на время обработки).
  2. Вручную – перетащив мышкой границы закрепленных областей:

3

4

Теперь можно щедро удалять всё ненужное. Для справки: столбцы в любой таблице обозначаются буквами, строки цифрами, а ячейки – сочетанием соответствующих буквы и цифры.

7

Для того чтобы удалить один столбец, нужно кликнуть правой кнопкой мыши по его буквенному обозначению. В выпадающем меню выбираем «удалить столбец».

Можно удалить сразу несколько столбцов подряд. Для этого нужно сначала их выделить: кликнуть левой кнопкой мыши по буквенному обозначению первого, затем, нажимая Shift, – по последнему. После этого надо правой кнопкой мыши кликнуть в любом месте выделенной области и в выпадающем меню выбрать «Удалить столбцы»:

6          8

Со строками всё аналогично.

Последовательно удаляем все строки и столбцы, которые не имеют отношения к странам: рейтинги (Rank), коды (ISO count code), подсчеты по тенденциям (последние три столбца), а также всё, что не современные страны (континенты, регионы, бывшие страны и строку World).

В результате должна получиться более упорядоченная, чем раньше, таблица, но в ней сразу заметен недостаток: некоторые данные отсутствуют.

https://docs.google.com/spreadsheet/ccc?key=0AnCa4pymWsNNdEVQR2kxaXFVQ0VXemRnOEVYcTFyX0E&usp=sharing

Здесь уже можно снова закрепить первый столбец (с названиями стран) и первую строку (с годами), чтобы они не прокручивались вместе со всей таблицей.

Например, нет данных по России с 1980 по 1992 гг. – по той причине, что данные за тот период находились в строке “Former U.S.S.R.”. А данные по Сербии появляются вообще только с 2006 г. [3]. Что делать с отсутствующими данными, остается на усмотрение того, кто их обрабатывает. Но делать что-то нужно: если этого отсутствия не учесть, а подсчеты проводить по всему массиву, то результаты окажутся ложными, так как таблица все ячейки без чисел будет считать как ноль.

Опять же, пока мы говорим об азах, поэтому и методы устранения таких проблем будем брать самые примитивные – исходя из того, что наша цель – получить некий набор данных, с которыми можно будет работать. Тут два пути: построчный и постолбцовый. В первом случае удаляем страны, у которых есть отсутствующие данные. Но тогда мы не сможем посмотреть весь срез данных за те периоды, в которых есть информация обо всех странах. Во втором случае мы удаляем столбцы с теми годами, где есть отсутствующие данные. В нашем случае у нас останутся данные с 2006 по 2009 гг.

9

Сортировка данных

Теперь, когда у нас готова рабочая таблица, мы можем организовать её так, как нам удобнее – с помощью сортировки.

Важно:

Перед тем как сортировать, необходимо выделить ВСЕ столбцы и строки в том диапазоне,  который мы хотим рассортировать.

Например, мы хотим выстроить все страны в алфавитном порядке. Для этого выделяем весь диапазон – с первой страны и до конца таблицы (щелчок левой кнопкой мыши по первой ячейке, содержащей название страны – перемотать страницу до конца – при нажатом Shift’е щелчок левой кнопкой мыши по правой нижней ячейке таблицы). Данные первой строки, где слово “Countries” и годы, в диапазон включать, разумеется, не будем, а то ведь и их рассортирует [4].

В меню «Данные» выбираем «Диапазон сортировки…»

12

В открывшимся меню выбираем столбец, на который мы хотим ориентировать данные. Исходя из поставленной задачи, в нашем случае это столбец A – тот, в котором содержатся названия стран. И выбираем в каком порядке сортировать – в прямом алфавитном или в обратном. Обозначения весьма прозрачны.

13

Почему тут, собственно, надо проявлять бдительность при выделении. Потому что если выделить не все столбцы, то данные рассортируются только в выделенных, а во всех остальных останутся на прежнем месте. Иными словами – перепутаются.

14
Правильно: был выделен весь диапазон, поэтому данные, относящиеся, например, к Афганистану, остались в той же строке, что и Афганистан.
15
Неправильно: при сортировке был выделен только столбец с названиями стран, в результате чего страны выстроились по алфавиту, а остальные строки остались в прежнем порядке (то есть Афганистану оказались приписаны данные по Китаю)

Мы также можем рассортировать данные по размеру выбросов – например, на 2008 г. Скажем, от большего к меньшему. Опять выделяем весь диапазон, потом Данные > Диапазон сортировки. 2008 г. – это столбец D. От большего к меньшему в применении к числам – это от Я до А.

16

Получаем результат:

https://docs.google.com/spreadsheet/ccc?key=0AnCa4pymWsNNdHZlcGNXWEE1Sl9razBUTXhQb0ZUMGc#gid=1

Теперь можно переходить к дальнейшим шагам обработки.

______________________________

Примечания:

[1] Сразу оговорим, что уровень заданий и, как следствие, результатов, очень низкий, ибо для начинающих. Таблицы сравнительно маленькие и практически «чистые» (то есть не содержат лишних пробелов, фатальных опечаток и пр.). [обратно]

[2] На самом деле в гугл-документах есть удобная функция – там сохраняется история изменений: Файл > Просмотреть историю изменений. Но это не панацея. Работать всё равно лучше с копией, чтобы при случае можно было обращаться к исходному файлу. [обратно]

[3] О том, как автоматизировать процесс нахождения ячеек, содержащих не числовые данные, пустых ячеек, невидимок и прочих подозрительных вещей, речь пойдет в другой раз. [обратно]

[4] На самом деле если в диапазон сортировки не должна быть включена только первая строка, то достаточно выделить всю таблицы, нажав на волшебную клеточку в её верхнем левом углу:

10

И потом поставить галочку напротив «Данные со строкой заголовка»:

11
[обратно]