Что такое данные?

Журналистика данных

В основе этого текста лежит первая часть вводного курса «Школы данных». В ходе этого курса рассматриваются азы подготовки данных к анализу (data wrangling) и визуализация данных. Цель курса в том, чтобы показать, с какой стороны подступиться к данным и что это вообще такое. В частности, вводятся базовые понятия, рассказывается о некоторых простых (но полезных) инструментах и приемах, даются задания с пошаговыми инструкциями. Этот курс мы будем постепенно переводить и публиковать здесь.

Обычно всё начинается с вопроса

Большинство людей не занимается обработкой данных просто так. У них либо уже есть замысел какой-то истории, либо им нужно решить какую-то задачу.

В большом количестве случаев, когда вы будете иметь дело с данными, у вас уже будет готовый вопрос. Например: «Насколько часто в моем городе светит солнце?» или «Как правительство расходует деньги? И откуда эти деньги берутся?». Вопрос – это хорошая отправная точка для исследования данных: он заставляет сосредоточиться и помогает выявлять интересные закономерности в данных. Кроме того полезно понимать, кому еще интересен ваш вопрос: благодаря этому вам будет проще определиться с аудиторией, для которой вы будете работать, и это поможет вам в оформлении вашей истории.

А что если у вас нет вопросов? Тогда вы просто исследуете. Если вы найдете в данных что-то, что покажется вам интересным, вы можете начать присматриваться к этому, и таким образом у вас появится вопрос. Иногда, чтобы понять закономерности в данных, нужно исследовать причины этих закономерностей. И часто плодами этих исследований имеет смысл поделиться с другими.

Независимо от того, есть ли у вас готовый вопрос, когда вы начинаете работать с данными, всегда нужно быть начеку. Неожиданные закономерности, необычные результаты и прочие удивительные вещи могут встретиться где угодно. Часто бывает так, что самые интересные истории обнаруживаются вовсе не там, где вы рассчитывали их найти.

Что же такое данные?

Данные везде вокруг нас. Но что именно они собой представляют? Данные – это значение, которое отнесено к предмету. Посмотрите, например, на картинку с мячиками:

OLYMPUS DIGITAL CAMERA
Golf balls at a market (CC) by Kaptain Kobold on Flickr.

Что мы можем о них сказать? Прежде всего, это мячики для гольфа. Таким образом, один из первых параметров у нас есть: они используются для гольфа. Гольф – это вид (категория) спорта, и это позволяет нам расположить этот мячик в определенной системе. Но есть и другие данные. У них есть цвет: «белый», состояние «б/у». У них всех есть размер, некоторые из них, вероятно, можно как-то оценить в денежном эквиваленте – и так далее.

Даже самые незначительные объекты обладают большим количеством параметров, по которым их можно описать. То же самое с нами: у нас есть имя (у большинства людей есть имя собственное и фамилия), дата рождения, вес, рост, национальность и т.д. Всё это – данные.

Уже в вышеприведенном примере мы видим несколько типов данных. Есть две большие категории: качественные и количественные данные.

Качественные данные (qualitative data) – это всё, что относится к качеству какого-нибудь предмета. Они описывают цвет, текстуру, физические свойства объекта.

Количественные данные (quantitative data) – это данные, сообщающие о числовых характеристиках. Например, количество мячиков для гольфа, размер, цена, количество баллов, полученных во времятестирования и т.д.

Однако есть и другие категории, с которыми вы, скорее всего, столкнетесь:

Категориальные данные (Categorical data) – это данные, которые помещают описываемый объект в определенную категорию. В нашем примере состояние «б/у» будет категориальным значением (в ряду других категорий, например «новые», «б/у», «сломанные» и т.п.).

Дискретные данные (Discrete data) – это численные данные, в которых обязательно есть промежутки. Например, количество мячиков для гольфа может быть выражено только целым числом (не бывает, например, 0,3 мячиков). Сюда же относятся результаты тестов (где получают, скажем, 7 баллов из 10) или размеры обуви.

Непрерывные данные (Continuous data) – это числовые данные, которые составляют непрерывный числовой ряд. Например, размер мячиков для гольфа может быть разным (10,53 мм или 10,54 мм, а также 10,536 мм). Непрерывными данными будут цифры, описывающие размер вашей ноги (в отличие от размера ваших ботинок, это уже дискретные данные). В ряду непрерывных данных возможны любые значения, без каких-либо промежутков.

Данные – информация – знание

Когда данные собраны и структурированы, они сразу становятся более наглядными, см. таблицу:

Цвет Белый
Категория Спорт – Гольф
Состояние б/у
Диаметр 43мм
Цена (за мячик) $0.50

Но чтобы превратить данные в информацию, нужно их проинтерпретировать.

Возьмем, к примеру, размер. Диаметр 43 мм малоинформативен. Он станет более значимым, если мы сопоставим его с другими объектами. В спорте размер оборудования часто регламентирован. Минимальный размер мячика для соревнований по гольфу – 42,67 мм. Отлично, мы можем использовать этот мячик в соревнованиях. Это информация. Но это еще не знание. Знание получается тогда, когда информация изучена, применена и понята.

Неструктурированные vs. структурированные данные

Данные для людей

«У нас есть 5 белых б/ушных мячиков для гольфа диаметром 43 мм по 50 центов за штуку».

Это предложение легко понять человеку, но компьютеру его понять непросто. Это предложение и есть пример того, что называется неструктурированными данными. Неструктурированный – значит не обладающий никакой определенной и неизменной структурой. Это предложение можно с легкостью изменить, и непонятно, что к чему именно относится. Сходным образом файлы PDF, отсканированные изображения могут содержать информацию, которая ласкает человеческий взор, но непонятна компьютеру. Это не машиночитаемые форматы.

Данные для компьютеров

Компьютеры в корне отличаются от людей. Заставить компьютер извлечь информацию из некоторых источников очень трудно. Некоторые задачи, которые человек с легкостью решает, бывает затруднительно решить автоматически с помощью компьютера. Например, например, компьютеру всё еще трудно интерпретировать текст, который представлен в виде изображения. Если вы хотите, чтобы компьютер обрабатывал и анализировал ваши данные, важно, чтобы он мог прочитать и обработать эти данные. Это значит, что они должны быть структурированы и представлены в машиночитаемом формате.

Один из наиболее распространенных форматов обмена данными – это CSV. CSV расшифровывается как comma separated values (значения, разделенные запятой). Вышеприведенное «человеческое» предложение в формате CSV будет выглядеть примерно так:

“количество”, “цвет”, “состояние”, “предмет”, “категория”, “ диаметр (мм)”, “ цена за единицу ($)”,5,“белый”, “б/у”, “мячик”,“гольф”,43,0.5

В таком виде данные становятся гораздо более понятными для компьютера, и он может прочитать их напрямую при помощи программ-таблиц. Обратите внимание, что слова заключены в кавычки: это определяет их как текст (строковые значения), – в то время как у числовых значений кавычек нет. Отметим, что существуют и многие другие форматы, представляющие данные в структурированном и машиночитаемом виде.