Хакатон по дата-журналистике

ХДЖ

25-26 июня в Точке кипения прошел хакатон по дата-журналистике, организованный магистерской программой «Журналистика данных», Школой дизайна при участии факультета компьютерных наук НИУ ВШЭ, SociaDataHub, АНО «Информационная культура» и Аналитическим центром при Правительстве РФ.

В хакатоне приняли участие более 90 человек. Работа над медиаматериалами (исследованием, расследованием или инфографикой) проходила 2 дня в командах из 1-5 человек, объединяющих журналистов, программистов и дизайнеров.

Участникам были предложены темы:

  • «ДЕНЕГНЕТ» — «В стране финансовый кризис». Нужно опровергнуть или подтвердить этот тезис, используя открытые данные портала “ГосЗатраты” (https://clearspending.ru/).
  • «Понятная медицина и коммуникации с государством” — нужно визуализировать официальные документы Министерства здравоохранения.
  • «Открытые данные единого портала бюджетной системы budget.gov.ru и Минфина России» — нужно визуализировать информацию бюджетов.

Также можно было выбрать свободную тему.

На протяжении всего хакатона помощь участникам оказывали менторы-практики (Максим Осовский, Британская высшая школа дизайна; Надежда Андрианова, ведущий дизайнер Студии интерактивных проектов МИА «Россия Сегодня», преподаватель Школы дизайна НИУ ВШЭ; Мария Пильгун, руководитель магистерской программы «Журналистика данных» НИУ ВШЭ; Елена Никитина, эксперт по Открытым данным Аналитического центра при Правительстве Российской Федерации; Баркова Мария, руководитель Департамента разработки аналитических систем НПО Криста; Александр Исавнин, Ассоциация “Открытая Сеть”; Артур Хачуян, генеральный директор SocialDataHub).

В течении обоих дней можно было послушать лекции и мастер-классы Ивана Бегтина, Артура Хачуяна, Алексея Новичкова, Даниэля Новичкова, Артема Светлова, которые помогли создать захватывающие проекты, которые были представлены на суд строго жюри:

  • Василий Пушкин, заместитель руководителя Аналитического центра при Правительстве Российской Федерации.
  • Андрей Жулин, проректор НИУ ВШЭ.
  • Татьяна Ривчун, руководитель программы «Коммуникационный дизайн» НИУ ВШЭ.
  • Арсений Мещеряков, руководитель Школы дизайна НИУ ВШЭ.
  • Мария Пильгун, руководитель магистерской программы «Журналистика данных» НИУ ВШЭ.
  • Иван Бегтин, директор АНО «Информационная культура»;
  • Роман Анин, редактор отдела расследований «Новой газеты».
  • Артур Хачуян, генеральный директор SocialDataHub.
  • Алексей Новичков, эксперт Школы дизайна НИУ ВШЭ, Яндекс.
  • Всеволод Пуля, главный редактор Russia Beyond The Headlines, сооснователь Media Toolbox.
  • Руслан Артамонов, аналитик Дирекции по экспертно-аналитической работе НИУ ВШЭ.
  • Роман Лаба, заместитель генерального директора Группы «Интерфакс», генеральный директор проекта СПАРК.
  • Ирина Львовна Андреева, помощник Министра здравоохранения Российской Федерации.

После обсуждения были объявлены победители:

  • 1 место – команда проекта “Где деньги, Зин?” (Kukushkin Alexander, Софья Савина, Елена Темченко) о том, как учреждения исполнения наказаний расходуют бюджетные средства.
    http://gdedengi.tilda.ws/
  • 2 место – “Пациенты vs врачи” (Андрей Галяткин, Алеся Мароховская, Ира Долинина, Никита Сапунов, Софья Феоктистова, Елизавета Цыбулина) о том, почему работа медиков так опасна.
    http://project62960.tilda.ws/doctor
  • 3 место – “Цифровой патруль” (Аня Корженко, Toma Shcheglova, Ивашкин Владимир, Карим Искаков) о распределении грантов в некоммерческом секторе.
    http://grants.tilda.ws/

Ссылки на остальные проекты:
http://rr2016.tilda.ws/
http://russiantreasures.tilda.ws/
http://project64902.tilda.ws/
https://cntrs-mithron.c9users.io/web/index.html
http://project64827.tilda.ws
http://project61927.tilda.ws/page214708.html
http://project64662.tilda.ws/
http://datetime.tilda.ws
https://www.dropbox.com/sh/5eanbsbadtvva7b/AAB7Az31oBR1pKoSOOmn2Wova?dl=0
http://project12905.tilda.ws/page214712.html

 

Дипломы победителей и участников хакатона будут учитываться в конкурсе портфолио при поступлении на магистерские программы «Журналистика данных» «Дизайн», «Коммуникационный дизайн» НИУ ВШЭ.

Победители в номинации Минздрава России, получили благодарственные письма Министра здравоохранения В.И. Скворцовой.

 

 

Хакатон медиапроектов по открытым государственным финансовым данным «Budget Stories»

budget_stories

 

 

25-26 июня 2016, Санкт-Петербург
Интеллектуальный кластер «Игры разума»
(Ул. Достоевского, 19/21 Б)
Budget Stories – образовательное мероприятие нового формата, участники которого в течение двух дней будут создавать медиапроекты (текстовые публикации, инфографику, приложения, анимацию и т.д.) на основе открытых государственных финансовых данных т.е. информации о бюджетах, расходах, закупках, имуществе, предоставленной в открытом доступе. Главная цель проекта – сделать сухие финансовые данные интересными, доступными и понятными широкой аудитории. А также:

– повысить уровень информационной культуры и финансовой грамотности среди журналистов, медиа-специалистов и потребителей их продуктов;

– cоздать удобную площадку для наведения мостов между техническими и творческими специалистами для дальшейшей работы над медиапроектами;

К участию в Budget Stories приглашаются творческие и технические специалисты: журналисты, программисты, дизайнеры, разработчики. Подать заявку на хакатон можно в составе команд или в качестве индивидуального участника. Работа будет проходить под руководством «менторов», среди которых главные специалисты по открытым данным в России и практикующие журналисты:

– Майя Стравинская, креативный директор студии «Рамблер Инфографика», журналист и медиаменеджер;
– Иван Бегтин, директор и соучредитель некоммерческого партнерства «Информационная культура», инициатор создания «Открытого правительства»;
– Юрий Синодов, основатель и издатель Roem.ru, интернет-журналист;
– Роман Романюк, главный редактор журнала «Эксперт Северо-Запад»;
– Ирины Радченко, главный координатор российского отделения Фонда Открытых знаний;
– Михаил Карягин, ведущий эксперт проекта «Инфометр»
и другие эксперты.

Участие в хакатоне бесплатное. От участников потребуется наличие ноутбука и желание работать и учиться на протяжении двух дней. На площадке будет предоставлено питание.

Авторы лучшего проекта хакатона получат денежный приз в размере 30.000 руб., обладатели второго места – 20.000 руб., а вся тройка лидеров – редкие книги по инфографике. Кроме того, всем участникам Budget Stories будет оказана поддержка для подачи своего медиапроекта на конкурс «BudgetApps» (сентябрь 2016 г.) с призовым фондом 500.000 руб.

Организаторы хакатона: АНО «Информационная культура» при поддержке Министерства финансов РФ.

Хакатон — формат мероприятия, зародившийся в среде программистов. Хакатон призван стимулировать появление новых идей с доведением их до реализации непосредственно в рамках меропрития. Динамичный формат позволяет объединить участников из различных областей знаний и дать им возможность познакомиться с новой предметной областью под руководством специалистов-практиков.
Сайт хакатона: www.budgetstories.ru
Группа VK: https://vk.com/budgetstories
Facebook: https://www.facebook.com/events/993448634096455/

budget_stories

По всем вопросам:
Ксения Макарова (Москва)
+7 (964) 704-00-33
Серафим Романов (Санкт-Петербург)
+7 (911) 250-49-10
E-mail: mybudgetstory@gmail.com

Магистерская программа «Журналистика данных»

Скриншот 2016-06-10 18.08.27

 

Первая для российского образования программа подготовки современных медиа-профессионалов, обладающих актуальными компетенциями для создания востребованного, качественного и эффектного журналистского продукта.

Программа рассчитана на выпускников как гуманитарных, так и технических факультетов, а также на практикующих журналистов, желающих расширить свои профессиональные возможности. Для того, чтобы нивелировать стартовый потенциал студентов, будут введены два адаптационных курса: для студентов в гуманитарным бэкграундом, и для тех, кто ранее обучался на технических и экономических направлениях.

Уникальность новой магистерской программы состоит в том, что студенты обучаются не только журналистским, но и технологическим навыкам, что позволит им свободно ориентироваться в стремительно меняющемся профессиональном ландшафте, и комфортно себя чувствовать в любых, в том числе интегрированных (конвергентных) редакциях. Во время обучения вы в том числе изучите основы программирования и языки программирования, историю, теорию и экономику медиа, технологии дата-журналистики и особенности современного контента, основы коммуникационного дизайна, визуализацию данных и инфографику. Таким образом, выпускники будут обладать как компетенциями в области обработки и производства информации, так и навыками работы с новыми технологическими инструментами и технологиями.

Важное преимущество программы — включенность студентов в профессиональную индустрию уже на этапе обучения: они будут принимать участие в реальных проектах партнеров из профессиональной индустрии. У студентов будет возможность стажироваться, участвовать в проектах и мастер-классах таких компаний, как

При подготовке учебного плана был учтен опыт ведущих университетов мира, где обучение журналистике данных уже ведется: университета Мельбурна (Австралия), университета Гонконга, университета Сёдертёрн (Швеция), университета Королевского колледжа (Канада), университета Тилбурга (Нидерланды), университета Амстердама (Нидерланды), университета Рей Хуан Карлос (Испания), Лондонского университета (Великобритания), Бирмингемского университета (Великобритания), Колумбийского университета (США), Нью-Йоркском университете (США) и др.

Ведущие преподаватели:

Роман Анинредактор отдела расследований «Новой газеты», сотрудник Organized Crime and Corruption Reporting Project (OCCRP),  International Consortium if Investigative Journalists (ICIJ), Reuters’ investigative team.Награжден премиями Артема Боровика,  Юлиана Семенова, Андрея Сахарова и Knight International Journalism Award

Николя Кайзер-Бриль — соучредитель и генеральный директор дата-журналистикого агентства «Journalism++». Призер конкурса Data Journalism Awards 2014

Иван Бегтин — директор АНО «Информационная культура», один из ведущих российских экспертов в области открытых данных и открытого государства, член Комитета гражданских инициатив, посол российского отделения «Open Knowledge International», представитель «ClarityInternational» в России

Ирина Радченко — канд. техн. наук, доцент университета ИТМО, главный организатор российского отделения «Open Knowledge International»,  сооснователь проекта «DataDrivenJournalism.ru»

Елена Никитина — эксперт Управления организации мониторинга Аналитического центра при Правительстве РФ

Артур Хачуян — генеральный директор SocialDataHub

Василий Пушкин — заместитель руководителя Аналитического центра при правительстве РФ

Алексей Новичков — графический дизайнер, эксперт в области инфографики, cотрудничал с журналами «Русский Репортёр», «Вокруг Света», «Сноб», «Артхроника», «ADWEEK» (США) и др., до 2014 г. занимал должность замруководителя студии инфографики «РИА Новости», является сотрудников компании Яндекс и преподавателем Школы дизайна НИУ ВШЭ

Андрей Кармацкий — руководитель Urbica Design

Всеволод Пуля — управляющий редактор Russia Beyond The Headlines, сооснователь Media Toolbox

Роман Шлейнов — обозреватель газеты «Ведомости»

Стремительное развитие медиасреды значительно расширяет область профессиональной деятельности будущих магистров, ведь сегодня массовый контент производят не только СМИ, но и корпоративные блоги, тематические интернет-порталы и др. Таким образом, выпускники программы смогут найти себя:

  • — в печатных, ТВ-, радио-, интернет-СМИ, информационных агентствах
  • — на интернет-порталах, в производственных телевизионных подразделениях и компаниях, предполагающих наличие структур, производящих контент и управляющих производством контента
  • — в экспертных, отраслевых и государственных исследовательских организациях, занимающихся анализом отрасли массовых коммуникаций, в первую очередь журналистского их сегмента
  • — в научных и образовательных структурах, готовящих специалистов в сфере массовых коммуникаций и ведущих прикладную и фундаментальную научную деятельность в этой сфере

— в государственные структурах, нуждающихся в специалистах по работе с открытыми данными, способных найти, выбрать обработать и корректно презентовать необходимый материал

Для поступления на магистерскую программу «Журналистика данных» абитуриенту необходимо успешно пройти конкурс портфолио, а также сдать квалификационный экзамен (тестирование + аудирование) по иностранному языку.

Сайт программы https://www.hse.ru/ma/datajourn/

Автор анонса: Кристина Крутилина

 

 

 

 

Хакатон по журналистике данных

Скриншот 2016-06-09 19.36.31

25-26 июня состоится хакатон, который организован магистерской программой «Журналистика данных», Школой дизайна, SociaDataHub, АНО «Информационная культура», Агентством стратегических инициатив при участии факультета компьютерных наук НИУ ВШЭ.

Хакатон по журналистике данных предоставляет уникальную возможность получить новые знания и навыки создания медиапроекта, познакомиться с талантливым и яркими людьми, поработать в хорошей команде и открыть в себе способности, о которых  раньше не знал.
Работа будет проходить в командах  3-5 человек, которые будут  объединять  журналистов, программистов и дизайнеров.

В течение всего конкурса участникам будут  помогать менторы – специалисты  различных профилей.

Во время мероприятия спикеры будут рассказывать о технологиях  журналистики данных, визуализации и пр.

Результатом работы может быть журналистский материал, мультимедийная публикация на платформе типа Tilda (https://tilda.cc/ru/), визуализация, исследование и пр.

Завершится хакатон публичным представлением проектов, по результатам которого жюри выберет победителей.
Приглашаем к  участию сотрудников СМИ, программистов, дизайнеров, технических и творческих специалистов, а также студентов гуманитарных и технических специальностей.
Подать заявку могут как индивидуальные участники, так и команды.

Номинации:

  • «ДЕНЕГНЕТ» – «В стране финансовый кризис». Проект должен подтверждать, опровергать этот тезис или предлагать решения по выходу из кризиса на основе открытых данных портала “ГосЗатраты”.
  • «Понятная медицина и коммуникации с государством” – участники должны будут визуализировать официальные документы Министерства здравоохранения.
  • Свободные темы, выбранные участниками самостоятельно, будут оцениваться по номинациям:
    • лучший дизайн;
    • лучший дата-журналист .

Дипломы победителей и участников хакатона будут учитываться в конкурсе портфолио при поступлении на магистерские программы «Журналистика данных» «Дизайн», «Коммуникационный дизайн» НИУ ВШЭ.

Победители в номинации, представленной Минздравом России, получат благодарственные письма Министра здравоохранения В.И. Скворцовой.

Подать заявку: https://leader-id.ru/event/2331/

Место проведения:  г. Москва, Малый Конюшковский переулок, д. 2, Точка кипения.

 

Анонс антикоррупционного хакатона в Петербурге

Скриншот 2016-06-08 16.34.45
11-12 июня в Петербурге пройдет антикоррупционный хакатон.
Организатором хакатона является Трансперенси Интернешнл Россия.
Участникам мероприятия будут предложены данные, которые собираются и обрабатываются в рамках проекта “Декларатор”. При помощи этих данных можно будет решить задачи, связанные с обработкой и визуализацией наборов данных со сведениями о доходах и имуществе публичных должностных лиц.
Призовой фонд хакатона — 110 тыс. рублей.
В конце второго дня хакатона (в 17 часов) состоится Демофест, на котором будут выбраны лучшие проекты.

Зарегистрироваться на хакатон можно здесь: http://hack.declarator.org/signup/

Дата-экспедиция №5: введение

GosZatraty

С 25 по 29 апреля будет проводиться экспедиция данных в онлайн-формате. Организаторы экспедиции – проект “Госзатраты” и проект “Журналистика данных”. 

Участие в экспедиции бесплатно.

Для участия необходима регистрация по ссылке: https://docs.google.com/forms/d/13Mq-RmPQaZhIow29Mvxu1hSKwWupd75wOCzUsaucVCQ/viewform

Подробнее об организационных моментах можно прочитать здесь.

В рамках этой экспедиции будет проведено исследование базы данных по государственным закупкам.

 

Введение в тему исследования

Что такое база Госзакупок?

База Госзакупок – это данные о государственных контрактах, находящиеся в соответствии с законодательством (44-ФЗ и 223-ФЗ) в открытом доступе в машиночитаемом формате. Правда, Официальный портал государственных закупок (собственно Госзакупки для краткости) публикует все эти данные в формате XML. И к этим данным нет прямого машинного доступа, то есть они выкладываются архивными файлами, которые нужно скачивать.

Что такое Госзатраты?

Не путать с Госзакупками. Госзатраты – это сервис, созданный (АНО “Информационная культура” при поддержке Комитета гражданских инициатив) на основе данных, которые публикуют Госзакупки. Только в отличие от Госзакупок, Госзатраты предоставляют прямой доступ к этим данным (через API). Данные представлены в формате JSON. И еще один бонус: Госзатраты не уходят по ночам на профилактику и соответственно доступны постоянно. А данные – те же, что на Госзакупках.

Что есть в базе?

Контракты, заключенные между госзаказчиками и подрядчиками, подписанные с 2011 года и до  момента (база постоянно обновляется). Сейчас (на момент написания этого текста) их больше 18 миллионов.

Какая информация содержится в контрактах?

Это зависит от того, по какому закону он проходит. Есть 223-ФЗ: по нему в основном заключают контракты госкорпорации (например, РЖД). А есть 44-ФЗ. По нему заключают контракты госучреждения и органы государственной власти (госкорпорации иногда тоже, но гораздо реже).

Законодательство по прозрачности деятельности госучреждений строже, чем в применении к госкорпорациям. Поэтому контракты по 44-ФЗ значительно подробнее.

Итак, какая информация может содержаться в контрактах по 44-ФЗ?

– Информация о контракте:

  • Регистрационный номер контракта
  • Дата подписания
  • Стадия исполнения
  • Дата публикации в базе
  • Общая стоимость
  • Валюта, в которой указана стоимость
  • Номер федерального закона, по которому он заключен
  • Уровень бюджетного финансирования

– Информация о заказчике:

  • Наименование организации
  • Регион, в котором она находится
  • ИНН и КПП заказчика
  • Юридический адрес заказчика
  • Контактная информация заказчика

– Информация о поставщиках (их может быть несколько в одном контракте, соответственно указывается отдельно по каждому поставщику)

  • Наименование организации или имя индивидуального предпринимателя
  • ИНН поставщика
  • КПП поставщика (если он не индивидуальный предприниматель)
  • Адрес поставщика

– Информация о закупленных продуктах или услугах (наименований может быть больше одного, соответственно указывается по каждому):

  • Код продукта/услуги по общероссийскому классификатору (ОКПД, ОКДП)
  • Описание продукта/услуги
  • Единица измерения (например, штука, упаковка, рулон, условная единица)
  • Количество закупленных единиц
  • Цена за единицу
  • Общая сумма за все эти продукты

Это только основная информация. На самом деле в контрактах еще больше подробностей. Полные описания полей есть в специальных справочниках, которые публикуются на Госзакупках и регулярно обновляются в соответствии с нововведениями. Пользоваться ими не очень удобно, потому что они в формате PDF, но это лучше, чем ничего. Описание нужного поля можно легко найти в справочнике методом <ctrl>+<F>.

Что еще есть в контрактах?

Еще в контрактах есть документы контрактов. Буквально документы, по которым они заключались. Это, пожалуй, самая информативная часть. Но она же и самая труднодоступная для машинной обработки. Потому что обычно эти документы прилагаются к контрактам в виде вордовских докуметов (DOC, DOCX) или сканов  (PDF, JPEG, TIFF). Эти документы хранятся только на серверах Госзакупок. Госзатраты дают только ссылку на ту страницу на Госзакупках, с которой соответствующий документ можно скачать. Поэтому когда Госзакупки уходят на профилактику, документы недоступны.

Какие могут быть проблемы в базе?

Проблем очень много. Это связано с тем, что база создается людьми фактически вручную. Это значит, что она неизбежно содержит в себе неточности. Это могут быть как злонамеренные неточности (чтобы скрыть информацию), так и обычные ошибки (опечатки, недоразумения, непонимание классификаций и т.д.).

Например:

  • в коде ИНН вместо цифры 0 может быть буква о;
  • в кириллическом описании продукта могут попадаться буквы латиницы, по виду совпадающие с кириллическими);
  • закупаемому принтеру может быть присвоен код продукции, который относится к электронным вычислительным машинам, а не к копировальным устройствам, как следовало бы ожидать;
  • продукт с кодом 15.42.12.111 (Масло пальмовое пищевое рафинированное в коробках, бочках, канистрах или бидонах массой нетто не более 200 кг) может иметь описание “чай черный нефасованный, мелколистовой, байховый, первый сорт“;
  • вместо количества закупленных продуктов может быть указана цена за единицу;
  • некоторые поля могут быть вообще не заполнены;
  • если посмотреть документ контракта, то может обнаружиться, что на самом деле состав закупленных товаров сильно отличается от того, что указано в базе.

И это только немногочисленные примеры “подводных камней”.

Пожалуй, некоторые из них можно было бы устранить, просто усовершенствовав систему, через которую вносятся данные, но пока факт тот, что данные очень “грязные”.

Что с этим делать?

Может сложиться впечатление, что при таком количестве непредсказуемых ошибок база контрактов в принципе неинформативна. Это не так.

Во-первых, чтобы обоснованно судить о ее информативности, нужно подробно изучить встречающиеся в ней погрешности и по возможности определить, насколько часто они встречаются и в какой степени искажают картину.

Над этим работает, в частности, команда “Госзатрат”, но надо этим могут заниматься и все, кому это интересно, потому что база открыта. Процесс, конечно, не быстрый, потому что он требует выработки подходящих методов.

Во-вторых, база представляет собой интерес и сама по себе – как данные, позволяющие исследовать и оценивать работу системы контрактирования, устанавливать ее недоработки и тем самым способствовать ее усовершенствованию. В этом смысле она, безусловно, информативна.

Идея исследования

Проблема

Допустим, мы хотим узнать, какое учреждение покупает самое дорогое постельное белье. Выгружаем из базы все данные с соответствующим кодами продукции (ОКПД, ОКПД-2, ОКДП) по 44-ФЗ и смотрим.

Для начала сортируем эти данные по цене за единицу продукции. И сразу видим странные цифры. Например, в одном контракте выясняется, что Администрация муниципального образования Крымского района (Краснодарский край) купила себе комплект постельного белья (одна штука) на сумму 59030 рублей (!).

Велик соблазн сделать из этого поспешный вывод о моральном облике госучреждений.

Но не все так просто. Если мы откроем документ этого контракта (он находится во вкладке “Документы”), то мы увидим там совсем другие цифры:

 

№ п/п Наименование и технические характеристики Ед. изм. Кол-во Цена за ед. в руб. с НДС Сумма (руб. с НДС)
1 Подушка шт 64 200,00 12 800,00
2 Одеяло полушерстяное шт 104 300,00 31200,00
3 Комплект постельного белья шт 47 310,00 14 570,00
4 Комплект постельного белья шт 1 460,00 460,60

 

Вопрос

А как часто вообще возникает ситуация такого несовпадения? Кстати, проблема, о которой мы сейчас говорим, характерна и для других продуктов. Но пока  для сужения задачи сосредоточимся на выбранном.

Чтобы узнать ответ на этот вопрос предельно точно, необходимо вручную сопоставить все наши данные по продукту с информацией в прилагающихся к ним документам. Но на практике это не получится, потому что данных слишком много.

 

Решение

Здесь на помощь приходит статистика. Чтобы получить представление обо всех данных по закупке постельного белья, можно взять простую случайную выборку и посмотреть, как обстоят дела в ней. На этом основании можно будет сделать вывод и обо всем продукте (с учетом уровня доверия и доверительных интервалов).

Конечно, и тут потребуется ручная работа. Но ее будет гораздо меньше, чем при сопоставлении всех полученных контрактов. И если распределить работу, то на сравнение контрактов и документов уйдет не так много времени.

Таким образом мы получим довольно точное представление о проценте расхождений между данными базы и документами хотя бы в этом продукте. Еще мы получим некоторую отправную точку, чтобы прикидывать процент расхождений по другим продуктам. И, конечно, что немаловажно, мы посмотрим на деле, насколько хорош этот метод и как его можно усовершенствовать.

 

Дата-экспедиция №5: анонс

Скриншот 2016-04-15 16.24.53

АНО “Информационная культура” и неформальный образовательный проект “Журналистика данных” организуют исследование на основе базы данных государственных закупок. Исследование будет проходить в формате дата-экспедиции (или экспедиции данных) под кодовым названием “ДЭ5”.

Тема экспедиции: Исследование репрезентативности официальных контрактных данных на основе анализа данных “Госзатрат”.

Цель исследования: Установить репрезентативность данных, которые вносятся в систему государственных закупок. Таким образом, мы получим более точное представление о базе и возможностях работы с ней.

Сроки и продолжительность ДЭ5: ДЭ5 начнется 25 апреля (понедельник) и продлится пять дней, то есть завершится 29 апреля (пятница) 2016 г.

Что такое экспедиция данных?

Она же дата-экспедиция. Это такой формат совместной работы онлайн. Собирается некоторое количество участников и, используя инструменты онлайн-взаимодействия, пытаются вместе решить поставленную задачу (исследовательскую или образовательную).

Почему ДЭ5?

Потому что это уже пятое мероприятие в таком жанре, запускаемое проектом “Журналистика данных”. О предыдущих экспедициях можно почитать здесь. Правда, в отличие от большинства предыдущих, ДЭ5 – это скорее исследовательское, чем образовательное мероприятие.

Сколько времени придется уделять ДЭ5?

Основная нагрузка по совместной работе придется на три первых дня ДЭ5. Мы рекомендуем в этот период выделить на работу в рамках ДЭ5 не менее одного-двух часов. Оставшиеся два дня будут менее требовательными, с точки зрения временных затрат, так как этот период отводится на самостоятельную исследовательскую работу.

Как будет проходить работа?

Все участники должны будут принять приглашение к вступлению в закрытую гугл-группу. Гугл-группа будет выглядеть и действовать как форум, а также в ней можно будет настроить отправку уведомлений на почтовый адрес. В гугл-группе будут публиковаться общие инструкции по работе.

Там же произойдет распределение участников на команды и корректировка этого распределение, если возникнут соответствующие пожелания. Кроме того, в гугл-группе можно (и нужно) будет задавать вопросы и делиться своими наблюдениями, пожеланиями и предложениями.

У экспедиции будет один общий модератор. Кроме того, в каждой команде будет выделен координатор, который будет отвечать за результаты работы своей команды. У каждой команды на форуме будет своя тема, где участники смогут обсуждать свою работу. Также участники каждой команды могут взаимодействовать друг с другом и с координаторами любыми удобными им способами.

Что требуется, чтобы стать участником ДЭ5?

Внимание: указанный при регистрации почтовый ящик Gmail будет постоянно использоваться в ходе экспедиции. Туда придет приглашение присоединиться к закрытой группе, в которой будет проходить работа. Туда же будут приходить уведомления об активности в группе. Это значит, что во время экспедиции этот ящик имеет смысл регулярно проверять.

Какие навыки обязательно потребуются в ходе ДЭ5?

Работа с Google-документами и Google-таблицами.

Некоторую информацию об использовании гугл-документов как инструмента онлайн-взаимодействия можно почерпнуть здесь.

Также можно посмотреть базовые инструкции по работе с гугл-таблицами.

 

#Panamapapers: как это было

1200-panamapapers

Ничего не предвещал тихий вечер воскресенья 3 апреля, когда международный консорциум журналистов-расследователей (ICIJ) вдруг опубликовал вот такой загадочный твит:


И ведь не обманул. В тот же вечер заработал вот этот сайт:

https://panamapapers.icij.org/

Это глобальное расследование об офшорных счетах мировых политиков и общественных деятелей. Над проектом около 400 журналистов из различных изданий  трудились больше года.  Такого раньше не было – Панамский архив войдет в историю мировой журналистики, его будут проходить на журфаках по всему миру.

Россию в этом масштабном расследовании достойно представляет команда “Новой Газеты”, “Ведомостей” и OCCRP (Центра по исследованию коррупции и организованной преступности):

Роман Анин, Олеся Шмагун, Дмитрий Великовский и Роман Шлейнов.

“Новая Газета” выпустила материал в виде спецпроекта: http://krug.novayagazeta.ru/

О том, как журналисты изучали “Панамский архив”, они рассказали в интервью Катерине Гордеевой из “Медузы”.

Основой для исследования стал leak – то есть утечка 11,5 миллионов документов панамской юридической фирмы Mossack Fonseca или 2.6 терабайт информации.

В начале 2015 года эти документы стали поступать к журналистам немецкой газеты Die Sueddeutsche Zeitung от анонимного сотрудника фирмы Mossak Fonseca, и довольно скоро журналисты поняли, что надо “звать на помощь”.

Big data обычно называется такой объем данных, который нельзя обработать на одном компьютере. 3 терабайта – все же допустимый объем для одной машины. Но если это и не big data, то совершенно точно big journalism data – слишком большой объем информации для одной редакции.

В итоге немецкие журналисты обратились в ICIJ, а те связались с журналистами по всему миру и координировали совместный процесс. Для работы над архивами была проделана огромная работа – весь объем данных надо было оцифровать, проиндексировать и перевести в читаемый компьютером формат.  Это дало возможность создать базу документов со встроенным поиском  – что-то вроде внутреннего гугла, а также форум, в котором журналисты могли обмениваться дополнительной информацией и обсуждать “героев”.

К слову, о героях. Среди них оказались  премьер-министры Исландии и Пакистана, король Саудовской Аравии, родственники председателя КНР Си Цзиньпина и президент Украины Петра Порошенко, а также звезды спорта (увы и ах, Лионель Месси!), преступники, мафиози…

Реакция политиков на публикации разнилась: кто-то пообещал провести расследование незаконных махинаций, а кто-то признал существование офшоров, но не их нелегальность.

Что касается российской части истории – если очень коротко, то состояние президента Путина оценили в 2 миллиарда долларов, которые нашли на счетах у его друзей, в частности, виолончелиста Сергея Ролдугина – пресс-секретарь Дмитрий Песков обвинил в непрофессионализме и лжи авторов расследования об офшорах.

Круче всех поступил исландский премьер-министр: он убежал с интервью, а потом подал в отставку!

 

Ключевые цифры #Panamapapers: инфографика в чистом виде

 

 

 

 

 

 

 

Первый городской хакатон по журналистике

Скриншот 2016-04-06 17.20.29

22-23 апреля в Санкт-Петербурге будет проводиться первый городской хакатон по журналистике.

На JourHack приглашаются студенты гуманитарных и технических специальностей, молодые журналисты и редакции СМИ, из которых формируются команды для участия в хакатоне.

Работа над журналистским проектом будет проводиться в течение двух дней под руководством менторов – специалистов по открытым данным и профессиональных редакторов городских СМИ.

Итогом участия каждой команды станет мультимедийная публикация на платформе Tilda.

В финале проект придется защищать перед аудиторией, в то время как авторитетное жюри выставит свои оценки.

В рамках JourHack также пройдут открытые лекции и мастер-классы по работе журналиста с современными веб-инструментами.

Узнать подробности и записаться на хакатон можно здесь: http://www.jourhack.ru/

 

Learno – новый и классный образовательный ресурс

Хочу обратить Ваше внимание на новую платформу с онлайн-курсами по дата-журналистике:

learno
LEARNO, созданная силами Европейского Центра по Журналистике (European Journalism Center).

Здесь Вы найдете и полюбившийся нам курс “Doing Journalism With Data” от дата-гуру и пионеров, и новые полезные “дисциплины”:

  • Поиск в Гугле для Журналистов
  • Основы верификации данных
  • Менеджмент журналистских проектов

К выходу готовятся и новые курсы, не пропустите.

Рекомендуем Вам зарегистрироваться на сайте!

Мурманск, олени и дата-журналистика

О ФОРУМЕ

Наконец добрались руки написать про германо-российский форум журналистов, который прошел в декабре 2015 года в Мурманске.

Murmansk-TV-825x510

Во-первых, если вы российский журналист, который учился или работал в Германии, или зарубежный журналист, который пишет о России, не упустите возможности подать заявку на этот форум в следующем году.

Это уникальная и очень счастливая возможность оказаться среди единомышленников, сделать професиональный “апгрейд” и поразмышлять о судьбе профессии, ну и конечно, посмотреть страну.

ДАТА-ЖУРНАЛИСТИКА

Несколько семинаров этого форума касались и дата-журналистики.  Их провел медиа-тренер из Германии, Бернд Освальд.

Начав с традиционного вступления о том, что же это такое, дата-журналистика, мы приступили к hands-on session. Тему взяли “горячую”, ну или “теплую” – в прямом смысле слова – в Париже вовсю шел всемирный саммит по климату.

Решили посмотреть, какая страна “лидирует” по количеству парниковых газов per capita, а также оценить мировой тренд с 1990 года.

Приглашаю всех читающих этот пост повторить наш семинар, следуя вот этой пошаговой инструкции. Даже если Вы не совсем владеете немецким, вы точно сможете это сделать – и мой пример тому доказательство.

РЕЗУЛЬТАТЫ

linechart_emissions

 

Heatmap in CartoDB

Ну и напоследок – наша статья на Russia Beyond The Headlines о том, как мы кормили оленей в тундре

 

 

 

Саммит “Открытые данные – 2015”

SummitOD

10 и 11 декабря 2015 года будет проходить Общероссийский саммит “Открытые данные – 2015”.

В рамках своего выступления Ирина Радченко будет рассказывать про наши дата-экспедиции, проводимые на базе совместного блога по дата-журналистике, а также о других образовательных проектах по обучению работе с открытыми данными.

iradche

Планируется также доклад  Анны Сакоян о том, с чем связан низкий спрос на открытые данные среди журналистов, как это расценивать и что по этому поводу можно сделать.

905720_1061027857262524_7318457867102694728_o

Узнать более подробную информацию о Саммите можно здесь: http://opendatasummit.ru/

 

 

Интерактивный встраиваемый таймлайн

Timeline – это удобный онлайн-инструмент, который позволяет легко и быстро создавать встраиваемые интерактивные таймлайны, в которые можно добавлять картинки и медиа (видео, гугл-карты, твиты, музыку).

Выглядит это примерно так:

(мы используем в качестве примера шаблон на Timeline.knightlab)

Чтобы создать аналогичный таймлайн, нужно:

  • иметь аккаунт в Google (будут использоваться гугл-таблицы)
  • выйти на сайт http://timeline.knightlab.com/

Прежде всего, нужно выйти на сайт Timeline и нажать на кнопку Make a timeline.

Затем нажимаем на кнопку Get the spreadsheet template.

После этого в новом окне откроется гугл-таблица с шаблоном. Чтобы использовать этот шаблон, его нужно сохранить на своем гугл-диске, нажав на кнопку “Использовать этот шаблон”. Для этого нужно войти в свой гугл-аккаунт.

Теперь этот шаблон надо отредактировать. Данные, которые в нем содержатся, нужны только как пример. На них можно ориентироваться при заполнении. Чтобы таймлайн работал, достаточно заполнить только два поля – Year и Text. Остальные заполняются в зависимости от желаний и потребностей. Ниже назначение полей будет описано подробнее.

Когда шаблон полностью отредактирован под задачи создаваемого таймлайна, эту таблицу нужно опубликовать (чтобы инструмент Таймлайн имел к ней доступ) и скопировать ссылку на опубликованную таблицу.

Теперь скопированную ссылку нужно вставить в соответствующий раздел на сайте Timeline.

При желании можно изменить настройки ширины, высоты и прочих параметров.

Таймлайн готов. Ниже на странице в поле появится код для его встраивания на страницу. Под ним есть кнопка предпросмотре (preview), с помощью которой можно сразу посмотреть, что получилось.

 

Теперь немного подробнее о возможностях таймлайна.

В шаблоне есть следующие поля:

  • Year. Сюда вписывается год.
  • Month. Здесь при желании можно уточнить месяц. Если этого не сделать, то таймлайн отобразит только год и описание события. Если надо к одному году отнести несколько событий, то это можно сделать с помощью полей Month, Date и Time. Месяц обозначается соответствующей цифрой. Например, январь – 1, декабрь – 12.
  • Day. Сюда можно вписать конкретную дату. Тоже цифрой (без нулей в начале).
  • Time. Это поле может содержать указание времени в течение дня. Время записывается с учетом часов, минут и секунд в таком формате: 05:58:44

Следующая группа полей необязательна к заполнению.

  • End Year: год окончания
  • End Month: месяц окончания
  • End Day: число окончания
  • End Time: время окончания

Следующие поля – текстовые.

  • Display Date: здесь можно указать, как следует отображать время соответствующего события. Значения этой графы будут отображаться в таймлайне вместо стандартного формата, который обусловлен первыми четырьмя колонками.
  • Headline: заголовок. Отображается над текстом.
  • Text: описание события.

Раздел медиа:

  • Media. Сюда вставляется прямая ссылка на картинку (например, http://www.datadrivenjournalism.ru/wp-content/uploads/2015/01/DDJ_logo-Fin_150x150.png) или код встраивания медиаобъекта. Например, <iframe src=”https://www.google.com/maps/embed?pb=!1m14!1m12!1m3!1d3850384.3551336434!2d23.518984306566935!3d37.58122989001235!2m3!1f0!2f0!3f0!3m2!1i1024!2i768!4f13.1!5e0!3m2!1sen!2sru!4v1444130393214″ width=”600″ height=”450″ frameborder=”0″ style=”border:0″ allowfullscreen></iframe>.
  • Media Credit: ссылка на источник файла, который использовался в предыдущей колонке.
  • Media Caption: подпись к медиа.
  • Media Thumbnail. Сюда при желании можно вставить ссылку на маленькое изображение, не больше 32х32 пикселя.

Следующий раздел задает таймлайну дополнительные свойства:

  • Type. Указывает статус слайда. Это может быть “заглавный”, то есть открывающий слайд либо слайд, обозначающий эпоху (era). Специфика эпохальных слайдов в том, что они не могут содержать дату и медиа.
  • Group. Позволяет визуально группировать связанные между собой события. Для этого тем событиям, которые связаны между собой, в этом поле нужно присвоить тэг – формально, любое слово, которое будет отображаться на таймлайне слева, в начале дорожки, где будут отображаться все события с этим тэгом.
  • Background. Это поле отвечает за фон. Можно просто вставить цифровое обозначение цвета (например, #333333) или задать фоновое изображение (вставить прямую ссылку на это изображение).

Подробнее об этом можно почитать в документации самого Таймлайна (http://timeline.knightlab.com/docs/using-spreadsheets.html).

Чтобы подобрать нужный цвет и его цифровое значение, можно использовать онлайн-инструмент Mozilla Color Picker Tool (https://developer.mozilla.org/en-US/docs/Web/CSS/CSS_Colors/Color_picker_tool).

Чтобы встроить интерактивную гугл-карту, надо выйти в карты (https://www.google.ru/maps) и найти там нужную локацию. Потом надо вызвать меню (верхний левый угол страницы) и выбрать там пункт “Share or embed map”.

В появившемся окне можно настроить вид карты подходящим образом, выбрать вкладку Embed Map и скопировать код.

 

Инструменты для дата-журналиста

 

SILK_logo
SILK (http://silk.co/) – это замечательный сервис, позволяющий систематизировать, организовать, аннотировать и выложить в онлайне различные данные.

Именно на сайте SILK мне удалось найти весьма полезную подборку инструментов дата-журналиста: http://data-journalism-tools.silk.co/SILK1, инструменты дата-журналиста

Более того, внизу можно посмотреть статистику по собранным инструментам.

SILK, инструменты дата-журналиста

Как видно, из статистики, больше всего представлено инструментов для визуализации данных (67 сервисов), затем идет инструментарий для сбора данных (22 сервиса) и для анализа данных (14 сервисов).
И как выяснилось, из представленных инструментов только 12% платные. Остальные либо бесплатные, либо представлены по типу Freemium.
Любопытно, что представленная статистика интерактивна, и при нажатии на конкретную группу, можно посмотреть список всех инструментов этой группы.

Анонс “Вечера оживших карт” (Москва, 29 августа 2015 г.)

620-event-mapping-620x350

Наши друзья из “Теплицы социальных технологий” в партнерстве с международным проектом OpenStreetMap приглашают всех на просветительское мероприятие по картированию. Кто в тот момент будет в Москве, могут поучаствовать в нем напрямую. Кто не сможет добраться до места назначения, могут посмотреть трансляцию на YouTube-канале “Теплицы”.

Вот само объявление:

В Москве пройдет ежегодный «Вечер оживших карт»

29 августа сообщество OpenStreetMap (OSM) и Теплица социальных технологий проводят «Вечер оживших карт», призванный популяризировать открытое картирование. Во время вечера все желающие смогут послушать доклады экспертов и практиков картирования, новички – обучиться картированию в OSM, а участники сообщества – закартировать все, что душе угодно.

Место проведения: Центральная научная библиотека Союза театральных деятелей (Москва, ул. Большая Дмитровка, 34).

Все доклады будут транслироваться на YouTube-канале Теплицы социальных технологий.

– Я никогда не занимался картированием. Я вообще с компьютерами – «на вы». Зачем мне участвовать?

– Часто ли вы встречали ситуацию, когда ваша дача, ваш садовый участок не обладают должным картографическим покрытием? Или во время чрезвычайной ситуации вы пытаетесь понять, где что произошло, а этого элементарно нет на карте? Вот-вот. А знаете ли вы, что вы сами можете добавить картографическое покрытие (дом, лес, реку)? Приходите на «Вечер оживших карт» и узнайте, как это сделать. Энтузиасты OSM обучат вас, как правильно картировать!

– Я дизайнер и иногда вставляю карты в сайты, которые я делаю. Мне может помочь мероприятие?

– Да! OpenStreetMap – самый удобный каркас для создания карт с кастомными схемами цветового оформления. На нашем мероприятии мы будем говорить об инструментах кастомизации OSM. Приходите!

Программа «Вечера оживших карт»

  • 12:30-13:00 – Открытие мероприятия. Презентация Ильи Зверева, участника OpenStreetMap и редактора новостного блога ШТОСМ;
  • 13:00-14:00 – Мастер-класс (спикер уточняется);
  • 14:15-16:15 – Мастер-класс (спикер уточняется);
  • 16:15-16:45 – Перерыв на кофе / networking;
  • 16:45-20:00 – Работа в командах по интересам, картирование.

Участникам будут предложены напитки и легкие закуски.

Участие бесплатное, необходимо зарегистрироваться, заполнив форму по ссылке

https://te-st.ru/2015/08/12/osm-mapping-event-2015/

Справка:

Теплица социальных технологий это общественный проект, который помогает НКО и общественным объединениям осваивать IT-технологии. Подробнее: http://te-st.ru/about/about-project/

OpenStreetMap – это международный краудсорсинговый проект на основе открытых данных, созданный сообществом картографом и позволяющий всем желающим делать в него свой вклад. Проект постоянно собирает, корректирует и обновляет информацию о дорогах, кафе, вокзалах и прочих локациях по всему миру. Одно из важных направлений его деятельности – это сбор информации о районах, пострадавших от бедствий.

Построение визуализации при помощи Plot.ly

1. Зайдите на сайт plot.ly
plotly01

2. Заведите себе аккаунт. Для этого нажмите на серую кнопку “SIGN UP” в правом верхнем углу.

plotly02

Появится следующая форма.

plotly03

В левой части формы заполните следующие поля:
Email – напишите свой емейл,
Username – напишите свое имя пользователя,
Password – придумайте и напишите пароль к акаунту.
После заполнения этих полей нажмите на кнопку “CREATE ACCOUNT”.

Вы также можете завести свой аккаунт при помощи авторизации в социальных сетях (Facebook, Google+, Twitter или Github).

Вы увидите основную страницу сервиса Plotly.
Нажмите в правом верхнем углу кнопку “+ NEW PROJECT”.

plotly04

Во время создания проекта появится такая иконка.

plotly05

Надо подождать некоторое время, чтобы проект сгенерировался на удаленном сервере.

plotly06

Для того, чтобы загрузить данные в проект, необходимо нажать на кнопку “ADD DATA”, находящуюся в левом верхнем углу.
Появится выпадающее окно, в котором необходимо указать требуемый набор данных.
Пусть это будет тестовый набор данных “abort_adult-09-06-2015-21-53-05_processed.csv (скачать набор данных можно здесь: http://opendata.kg/dataset/aborts-adult)”.
Получаем следующее.

plotly07

Транспонируйте таблицу, нажав на кнопку plotly08.
И вы увидите следующий результат.

plotly09

Для того, чтобы грамотно разместить данные на диаграмме, необходимо указать значения для оси Х и оси Y.
Это указывается при помощи выделения кнопок “choose as x” и “choose as y”.

plotly10

В меню, расположенном слева, выберите тип диаграммы Scatter plot и нажмите на синюю кнопку внизу Scatter plot.

plotly11

В результате получится следующая диаграмма.

plotly12

Теперь нужно внимательно посмотреть на диаграмму и оценить правильность размещения на ней информации.

Обратите внимание, что не подписаны координаты у диаграммы, и легенда диаграммы выглядит не информативно.
Исправьте поскорее эти недостатки!
Для того, чтобы поменять название значений, нажмите кнопку “Rename” рядом с названием колонки.

plotly13

Для того, чтобы поменять название диаграммы, а также осей координат, необходимо дважды кликнуть мышью на надписях “Click to enter Plot title” (чтобы поменять название), “Click to enter X axis title” (чтобы поменять название оси X) и “Click to enter Y axis title” (чтобы поменять название оси Y) соответственно.
Название – “Прерывание беременности (аборты) в возрасте 18-49 лет”.
По оси Х – “Статистика по годам”.
По оси Y – “Количество абортов”.

Получится следующая диаграмма.

plotly14

Но такой тип диаграммы получается не особо информативным.
Хотя уже здесь можно заметить странный пик в 2009 году в г. Ош.
Поменяем тип диаграммы, чтобы добиться бОльшей информативности.
Для этого вернемся на вкладку “GRID” (либо если вкладка переименована, то на ней будет видно начало заголовка, как в нашем случае) и выберем тип “Line plot”.

plotly15

Получим следующую диаграмму на вкладке “Plot”.

plotly16

Обратите внимание, что в 2009 году в Оше было зафиксирован “пик” – 102,2 (?) случая абортов, хотя в этом же 2009 году в Бишкеке был зафиксирован “провал” – 1,4 случая.

Для предоставления доступа к созданной диаграмме нажмите кнопку “Share” в правой части.

plotly17

Введите имя файла во всплывающем окне.

plotly18

Образованная женщина – залог благополучного общества!

«Любая попытка запретить девочке ходить в школу является преступлением против всех девочек, а также посягательством на право получать образование и вести полноценную жизнь. Это недопустимо»

— заявила Генеральный директор ЮНЕСКО Ирина Бокова.

Во время обработки данных отчёта образовательных учреждений города Душанбе по контингенту учащихся, я столкнулась с цифрами, которые подтолкнули меня изучать их более подробно.

Одна из зашкаливающихся цифр, указанных в отчете, — это количество учащихся девочек в школах города Душанбе. Тенденция показала рост отклонения от обучения среди девочек после окончания 5-го класса.

графика1

 Количество учащихся согласно обучению по классам за 2014 год. В том числе, общее количество уходов девочек из ОУ г. Душанбе.

В традиционных семьях родители иногда вынуждены прервать обучение своих детей, и это часто затрагивает девочек. Поводом для этого действия бывают разные проблемы. В большинство случаях семья не может обеспечит условиями своих детей для окончания обучения.

Правозащитники страны отметили факт резкого снижения грамотности среди сельского населения, особенно среди девочек.

Основная проблема недоучившихся школьниц — это то, что их рано выдают замуж или не могут обеспечить обучения и судьбы таких девочек складываются по-разному. Данные статистики Комитета по делам женщин Республики Таджикистан показали, что ранние браки довольно часто распадаются из-за неполноценной подготовке к самостоятельной жизни. В результате молодые разведенные женщины остаются одни в самостоятельной жизни.

графика2

Количество браков и разводов в РТ с 2008 по 2013 год. (Данные агентства по статистике при Президенте Республики Таджикистан)

Еще одна распространенная проблема среди молодежи, особенно среди женского пола, это попытка суицида. Согласно отчета ЮНИСЕФ – Таджикистан «Самоубийства среди детей и молодежи в Согдийской области Таджикистана» от 2013 года, самое большое число попыток и завершенных самоубийств 51% и 59% приходится на возрастную группу от 18 до 24 лет, далее следуют группы 25-49 лет и 16-17 лет.

Suicide_Study_Report

Отчет ЮНИСЕФ – Таджикистан «Самоубийства среди детей и молодежи в Согдийской области Таджикистана» за 2013 год.

Министерство образования РТ не отказывается от существования этой проблемы и ведет активную работу в этом направлении.

Согласно данным статистики Министерство образование, в начальных классах количество обучающихся одинаковое, однако начиная со старших классов, девочек становится почти в два раза меньше чем мальчиков.

Среди населения существует распространенное мнение, что неграмотные невесты ценятся больше: они безропотны, покорны и материально полностью зависят от семьи мужа, что делает их ведомыми. Однако не всегда ожидания совпадают с реальными случаями из жизни. Не все браки заключаются на небесах, и не многие наши молодые люди позволяют себе думать о браке по любви. Стоит отметить, что небольшой процент молодежи заключают браки с иностранными гражданами. Причина сего явления на данный момент до конца не ясна, однако обсуждение и осуждение общества не останавливает многих совершать данный поступок.

Региональный менеджер фонда Ага-Хана в Раштской долине Мухаммади Шарипов в интервью ВВС отметил, что:

В школах еще не созданы все условия для учебы. Повсеместно ощущается нехватка учителей. В райцентрах власти стали контролировать посещаемость учениками занятий, но в дальних кишлаках трудно уследить за тем, кто приходит на занятия. Мужчины, в основном, на заработках в России. Все тяготы семейной жизни ложатся на плечи женщин. Естественно, что у них физически не хватает времени следить в должной мере за детьми. Да и экономические вопросы определяют многое.

Многие семьи порой должны принять решение, кому же из детей продолжать образование. Выбор, как правило, падает всегда на мальчиков, которые в будущем, как предполагается, будут кормильцами семьи. Что же касается девочек, то считается, что они выйдут замуж и заботы по их обеспечению возьмет на себя будущий муж или его семья.

Однако есть семьи, которые борются за образование своих детей и идут до конца к своей цели. История, которая произвела резонанс в сети — это «История Бибинисо». Она дошла до министра образования РТ Саидова Нуриддина и рассказала не только о том, что произошло во время экзаменов для получения квоты, но и о проблемах образования в селах, коррупции и несправедливости по отношению к ней. Она хотела, чтобы приняли меры по ее зачислению в вуз для продолжения своего образования, так как она была уверенна в своих навыках и знаниях.

Для просмотра видео об Бибинисо пройдите по ссылке Хабаргузории Озодагон, Таджикистан.

Благодаря указу Президента страны, одаренным девушкам и мальчикам из отдаленных регионов выдаются безвозмездные квоты для получения образования в ВУЗах страны и за его приделах.

Во время изучения данных я выявила, что большинство девочек бросают школу после 9 класса. Почему они это делают и какого основная причина окончательно не ясна, однако выявить корень проблемы стоит для устранения этой проблемы. Согласно данным с 2006 по 2014 года, статистика получения среднего образования среди девочек динамично растет.

Графика3

Количество учащихся согласно обучения по классам. В том числе, общее количество уходов девочек из ОУ г.Душанбе с 2007 по 2014 года.

Оказание помощи в получении образования среди женского пола на начальном этапе важна и это принесет ощутимую выгоду для нации. Инновационные методы обучения в образовании эффективны для подготовки образованного населения для улучшения уровня жизни в стране. Надо прекратить быть потребителями и пора становится производителями. Самый лучший способ для развития общества – это вкладывать в развитие человеческих ресурсов.

Фотография – РИА Новости.
Источники данных:

  • Сборник статистических данных управления образования города Душанбе за 2013-2014 год.
  • Отчета ЮНИСЕФ – Таджикистан «Самоубийства среди детей и молодежи в Согдийской области Таджикистана» за 2013 год.
  • Агентства по статистике при Президенте Республики Таджикистан – Статистика социально-демографический сектор «Число зарегистрированных браков и разводов за 1998-2013 года».

ЧТО ВАЖНО ДЛЯ СОЗДАНИЯ КАЧЕСТВЕННЫХ МАТЕРИАЛОВ В ДАТА-ЖУРНАЛИСТИКЕ?

Перевод интервью с четырьмя журналистами, опубликованный в ESONLINEBLOG

В рамках моего исследования я подписался на рассылку “datadrivenjournalismList about Data Driven Journalism and Open Data in Journalism” и задал несколько вопросов о дата-журналистике другим членам этой рассылки. Четверо из них любезно ответили. Я хотел бы познакомить вас с их мнениями и опытом в журналистике данных. В своих работах они эффективно освещают социальные вопросы и проблемы через анализ данных и различные методы визуализации.

АДРИАН БЛАНКО ПРИНИМАЛ УЧАСТИЕ В ЖУРНАЛИСТСКОМ ПРОЕКТЕ О БЕРЛИНСКОЙ СТЕНЕ

В журналистике данных Адриан Бланко работает фрилансером. Он старается погрузиться в программирование как можно глубже.

Вопрос №1. Как ты находишь данные для своих работ? И как отыскать в них историю?

Я использую порталы с открытыми данными, такие как, data.gov.uk или данные из других открытых ресурсов. Также я создаю собственные наборы данных с информацией из пресс-релизов и прочих источников.

Вопрос №2. Могли бы вы рассказать о своей лучшей работе в журналистике данных? Какая самая главная особенность этой работы?

Это материал о Берлинской стене. Он был создан в Испании, когда я стажировался на RTVE, и является одним из самых завершенных моих проектов. Над созданием этого проекта я трудился вместе с мультипрофильной командой специалистов.

За все 28 лет, что стена разделяла Берлин на две части, 138 человек погибло при попытке пересечь ее. Погибло 121 мужчин, 8 женщин и 9 детей. Этот интерактивный проект, сделанный на 25-ю годовщину падения стены, рассказывает о том, кто были эти люди и как они погибли. Данные мы добыли из мемориального комплекса «Берлинская стена» и из федерального статистического управления Destatis.

Характерная особенность истории в том, что она легко и не без очарования показывает человеческую жизнь в Германии в этомалознакомое всемвремя.

1

Вопрос №3. Какие на твой взгляд самые важные навыки, знания и принципы требуютсяжурналисту для создания достойных материалов?

Как начинающий дата журналист, я считаю, что важно обладать широким кругозором и каждый день учиться чему-то новому.

АЛЕКСАНДРА ДУКОВСКА СОЕДИНЯЕТ ВИДЕО, ИЗОБРАЖЕНИЯ И ДАННЫЕ,СВЯЗАННЫЕ С ЗАГРЯЗНЕНИЯМИ ВОЗДУХА

Александра Дуковска – мультимедийный журналист. Для создания некоторых историй она использовала Google Spreadsheet и Excel.

Вопрос №1. Как ты находишь данные для своих работ? И как отыскать в них историю?

“Для создания историй, основанных на данных, я использовала уже открытую государственными учреждениями информацию. Например, я брала данные по качеству воздуха из министерства экологии или государственного статистического управления Македонии. В иных случаях, это была информация из OECD. Я использую общедоступные данные”.

Вопрос №2. Могли бы вы рассказать о своей лучшей работе в журналистике данных?Какая самая главная особенность этой работы?

Я делала видео о загрязнениях воздуха и совмещала их с онлайн-данными о качестве воздуха и измерениях в этой области для иллюстрации разницы в определенные дни и периоды.

Вопрос №3. Какие на твой взгляд самые важные навыки, знания и принципы требуются журналисту для создания достойных материалов?

В медиасреде ценно каждое умение, связанное с журналистикой данных.

КОМАНДА АНДРЕА НЕЛЬСОНА МАУРА ОБНАРУЖИЛА, ЧТО БОЛЕЕ 23.000 ЭМИГРАНТОВ УМЕРЛИ, ПЫТАЯСЬ ДОБРАТЬСЯ ДО ЕС

Андреа Нельсон Мауро – основатель Dataninja.it, обладатель награды Italian Data journalism Network. С 2012 года они работают командой из семи человек (дата журналист, специалисты по обработке и поиску данных, работник с гео-данными и аналитик). Они проводят национальные и международные расследования на злободневные темы.

Например:

#MigrantsFiles: получило награду Data Journalism Award в 2014 году.

3

 

ConfiscatiBene.it: В центре внимания – активы, конфискованные у Итальянской и Европейской мафии.

Эта группа работает для итальянских и международных газет.

Вопрос №1. Как ты находишь данные для своих работ? И как отыскать в них историю?

Из открытых онлайн ресурсов, сайтов различных учреждений. Вы можете найти историю, анализируя всевозможными способа наборы данных, но самое важное – создать новый набор, собрав данные из разных ресурсов. При этом необходимо придерживаться определенной структуры в материале, чтобы читателю все сразу стало ясно.

Вопрос №2. Могли бы вы рассказать о своей лучшей работе в журналистике данных? Какая самая главная особенность этой работы?

#MigrantsFiles мы создавали вместе с Journalism++ (французско-немецкое агентство по дата-журналистике, возглавляемое Николасом Кейзером-Брилем) и других журналистов-фрилансеров из ЕС. Мы обнаружили, что более 23.000 эмигрантов умерли, пытаясь добраться до ЕС. Никто прежде не придавал значения этому событию.

Вопрос №3. Какие на твой взгляд самые важные навыки, знания и принципы требуются журналисту для создания достойных материалов?

Лучше всего (имхо): работа в мультипрофильной команде (например, взгляните на состав команды dataninja.it); готовность делиться данными, информацией и новостями с другими журналистами; добросовестное отношение к работе, основанное на принципах прозрачности и открытости информации.

МИХАЭЛЬ БАУЭР СОЗДАЛ ЖУРНАЛИСТСКИЙ МАТЕРИАЛ, ОСНОВАННЫЙ НА ДАННЫХ ОБ ИЗБИРАТЕЛЬНОЙ РЕФОРМЕ В АВСТРИИ

Михаэль Бауэр – дата-журналист национальной газеты Австрии derStandard.at. Он ищет истории и создает вручную огромное количество интерактивной инфографики.

Вопрос №1. Как ты находишь данные для своих работ? И как отыскать в них историю?

У нас есть ресурсы, которые мы используем для регулярного выпуска историй. Это могут быть открытые базы данных, сайты статистических учреждений и опубликованные отчеты. К сожалению, в последнее время основная часть документов публикуется в PDF, но в большинстве случаев Tabula неплохо выручает.

Поиск историй – это всегда большая аналитическая работа. Но, чаще всего, вы ищете данные уже имея в голове план истории. Часто к нам обращаются коллеги, которые нашли интересную историю, но не могут отобрать нужную информацию.

Вопрос №2. Могли бы вы рассказать о своей лучшей работе в журналистике данных? Какая самая главная особенность этой работы?

Моя лучшая работа еще впереди. Сейчас я работаю над достаточно большим проектом, но я также доволен и нашим материалом об избирательной реформе. Городское управление Вены обсуждало избирательную реформу, но дискуссия велась достаточно безграмотно. Мы взглянули на их предложения и проработали изменения, которые они внесли. Эта незначительная разница и называлась реформой.

4

Вопрос №2. Могли бы вы рассказать о своей лучшей работе в журналистике данных? Какая самая главная особенность этой работы?

Любопытство и еще раз любопытство. Умение критично относиться к той информации, что вы находите. А технологию всегда можно освоить.

Sensor Journalism: бесплатные вебинары

 

Отличная новость для фанатов сенсорной журналистики / sensor journalism!sensor journalism webinars

OKCast и Sensor Journalism Lab запустили серию мартовских воскресных вебинаров на эту тему:

8 марта –   “Sensor Journalism: An Introduction”

15 марта – “Toward an Educational Module for Sensor Journalists”

22 марта – “Internet of Things and Smart Cities”

29 марта –  “Sensor Calibration and Certification”

Если вы не успели на какую-то лекцию, ее можно будет посмотреть в записи на сайте проекта.

Узнать больше: http://sensorjournalism.okcast.org/

 

 

Как собирать данные с веб-страниц при помощи R, the RVest and pipeR Way

Мы публикуем перевод урока Алекса Бреслера (Alex Bresler) с пошаговой инструкцией по скрейпингу данных с помощью R.

Если вам нравится спорт, базы данных и визуализация так же, как и мне, то этот пост для вас. В этом уроке мы научимся использовать мощь программного обеспечения R для создания функции, которая позволит нам получить доступ к данным с сайта Basketball Reference.

Вооружись ff

Для того чтобы принять участие в этом приключении, вам понадобится иметь в арсенале серьезное оружие. Cначала проверьте, установлено ли у вас R (программное обеспечение для статистических вычислений) и RStudio  (среда разработки программного обеспечения для языка программирования R). Затем, если у вас еще нет Firefox или Chrome, выберите одного из этих боевых скакунов. И наконец, установите замечательный виджет SelectorGadget. Запустите R , прохрустите пальцами: на этом подготовка закончилась. Пришла пора играть.

Время веселья ff2

Теперь, когда мы готовы, нужно определиться, что именно мы хотим исследовать. Так как я огромный фанат Nets Brooklyn и до сих пор на седьмом небе от того, как мы недавно порвали New York Knickerbockers, то решил исследовать базы данных команды NBA с сайта Basketball Reference.

Побродив по ссылкам на главной странице, мы все-таки нашли то, что искали: таблицу результатов за все сезоны. Посмотрим на сезон 2013-2014. По правде говоря, выглядит просто как куча таблиц. Но для извлечения данных это прекрасная новость. Давайте попробуем вытащить данные из таблицы с командной статистикой. Для этого возьмем виджет Selector, спустимся на конец таблицы и выделим ее так, чтобы по краям появилось оранжевое обрамление. Должно появиться окно с надписью #team.

Это CSS Selector для таблицы. Теперь мы уже знаем, что нужно, чтобы перенести эти данные в R. Перемещаемся назад в RStudio, создаем новый скрипт-файл R, – настало время извлечь данные.

Готовься, целься, пли ff3

В скрипт нужно загрузить пакеты, которые принесут нам победу в этом бою. Я собираюсь вставить код, но перед этим оставлю здесь несколько маленьких заметок. Как программист-самоучка, я люблю писать код слева направо и присваивать значения переменным, используя знак ->, что почему-то не одобряется корифеями. Большинство людей пишут справа налево и присваивают значение переменным при помощи знака <-, но мы живем в свободной стране, и мне нравится писать код так, как я привык читать. В любом случае, вы можете делать, как вам удобно. Здесь нет неправильного ответа, вопрос лишь в том, будет ли это работать.

Следующий пункт: в R появилась новая модная примочка, которую используют все крутые ребята, она называется piping (конвейер данных) и используется с символами %>% или %>>%. Можете воспринимать их как слово THEN (следовательно). Мне же больше нравится %>>% из потрясающего пакета pipeR. Наконец, если увидите #, знайте, что это комментарий, и предшествующая строка кода программой не выполняется. Простите, пожалуйста, за эту неразбериху. Надеюсь, вы поймете большинство моих комментариев.

Загрузите необходимые программные пакеты

Начнем скрейпинг

Шаг первый. Давайте поместим таблицу в R. Так как мы хотим сопоставить ее с другими таблицами, необходимо отключить заголовки и посмотреть, сможем ли мы найти строку с именами столбцов. На сайте Basketball-References все таблицы со статистикой начинаются с колонки под названием Rk (что значит rank).

Как мы видим, заголовки находятся в первой строке [в некоторых случаях во второй]. Давайте извлечем данные из этой строки и переместим их в вектор, содержащий строковые элементы. Затем мы используем этот вектор, чтобы задать названия в нашем дата-фрейме. вектор в R – это один из типов данных. Его специфика в том, что все его элементы должны быть одного формата (например, только строковые значения, или только числовые, или только булевы).

Заголовки в R следует писать с маленькой буквы. Помимо этого, R просто терпеть не может такие вещи, как пробелы и символы %, / в заголовках, поэтому замените их все точкой. Для того чтобы подготовиться к написанию функции, нужно найти строку с заголовками и взять все данные, что находятся ниже.

Ехууу, данные уже в R

Теперь у нас есть дата-фрейм в рабочем пространстве, который носит название total_table. Также мы уже нашли и удалили заголовки, но осталось провести еще пару зачисток, прежде чем мы получим нужный набор данных. После некоторых групп стоит звездочка, это значит, что команда вышла в плей-офф (фанаты Knicks, простите). Давайте добавим колонку с логическими значениями для команд, которые вышли в плей-офф и удалим звездочки. Теперь давайте удалим столбец с номерами (rank) и избавимся от строки со средними показателями, так как мы можем сами привести общую статистику при необходимости.

Мы сделали это! Посмотрите, теперь у нас есть чистый блок данных

nets-fan

Сохраните файл в CSV {а вообще – на ваше усмотрение}

Это было легко. Давайте покончим со всем этим и переведем наш код в функцию

Теперь, когда мы уже научились вытягивать данные с веб-страницы в таблицу, давайте покажем R, как нужно создавать функцию, которая применима к разным случаям. Если мы доведем все до конца, то сможем делать очень крутые вещи. Например, пройтись по всем сезонам, начиная с 1951 года, или вытянуть данные из различных таблиц с веб-страницы. Мы станем мастерами в работе со всеми данными команды NBA благодаря всего нескольким аргументам, подключению к интернету и R.

Ключ ко всему – это понимание структуры URL. К счастью, наши друзья из Sports Reference упростили нам задачу. Структура URL состоит из трех вещей: основа, лига и год окончания сезона. Мы легко можем научить нашу функцию вставлять три параметра, чтобы сформировать URL.

Итак, мы уже знаем, как вытянуть данные из таблицы, и URL у нас тоже есть. Теперь нужно извлечь ID команды, который можно получить со страницы с этим URL точно так же, как мы скрейпили данные для таблицы, только теперь мы будем искать XML-тэги с // и гиперссылки. Этот процесс также требует некоторой зачистки данных.

Теперь нам нужно добавить в блок данных сезон и имя таблицы: команда, противник и прочие данные по каждому сезону. Если посмотреть информацию за все года, окажется, что там есть много вещей, которые можно использовать. Функция должна позволять найти данные из любой таблицы. Наконец, нам нужна возможность делать временные отметки, если мы хотим отслеживать изменения в данных за текущий сезон или получать чистые данные из Sports References автоматически.

Итак, вот она наша функция getBREFTeamStatTable

Давайте проверим ее. Обратите внимание, что я уже заполнил функцию, так что вы можете получить готовые данные за этот год, не вводя никаких параметров. Давайте попробуем, скрестить пальцы!


getBREFTeamStatTable() -> team2015
team2015 %>>% kable('html', table.attr='id="team2015"')

 giphy

Подведем итоги

Надеюсь, этот урок показался вам интересным, поучительным и не сложным для понимания. Не стесняйтесь смотреть исходный код и обязательно используйте функцию, которую мы создали. В следующий раз я использую нашу прекрасную функцию для создания интерактивной визуализации данных и изучу некоторые алгоритмы, которые откроют их перед вами в еще более могущественном свете. А пока продолжайте в том же духе, и если есть вопросы или комментарии, не стесняйтесь обращаться ко мне в твиттер.

Алекс Бреслер