Курс молодого журналиста данных. Программирование для журналистов данных

Инструменты

Я давно не писала сюда в основном потому, что последние несколько недель занимаюсь программированием. Поэтому сегодня я хочу рассказать о том, какие навыки программиста будут полезны журналисту будущего, то есть журналисту данных.

Замечу, что у меня есть программистское прошлое, поэтому часть курсов, которые я посоветую могут быть не очень простыми. Многие эти курсы проходят сейчас в момент написания этого поста, но я уверена, что даже по окончанию, материал будет доступен, и Вы сможете им воспользоваться. Рекомендации здесь будут личные. Например, если Вам не нравится язык Python можете изучить Ruby.  Я опишу то, что в данный момент нравится мне.

Итак, программирование потребуется для скрэппинга (то есть сбора) информации с разных вэб страниц. Это может быть просто таблица, опубликованная на каком-нибудь сайте. А может быть и не так хорошо структурированная информация. Подробнее о скрэпперах я напишу в следующих постах.

Для тех, кто никогда не программировал или все забыл 

Книга об основах программирования, чтобы думать как программист: http://www.greenteapress.com/thinkpython/thinkCSpy/html/index.html

Курс по алгоритмам от Стэнфорда (не простой,  но очень полезный): https://class.coursera.org/algo-004/class

Язык программирования Python

Полезен для скрэппинга страниц. Чтобы удобно скрэппить страницы, можно зарегистрироваться на https://scraperwiki.com/. Здесь можно писать на Python или Ruby. Много профессионалов делятся своими скрэпперами, есть учебник.

Python очень современный и удобный. Есть много удобных библиотек для работы с данными. Сейчас я прохожу курс, организованный http://mechanicalmooc.org/. Курс этот представляет собой сбор данных по Python. Не уверена, что регистрация еще открыта, поэтому перечислю части, которые есть в курсе, их можно изучать отдельно.

Codeacademy: http://www.codecademy.com/tracks/python

Книга c упражнениями по Python: http://ocw.mit.edu/courses/electrical-engineering-and-computer-science/6-189-a-gentle-introduction-to-programming-using-python-january-iap-2011/

На Курсере начнется курс по Python в октябре 2013: https://www.coursera.org/course/interactivepython

Язык программирования R

Визуализация данных. Несколько дней меня убеждали в том, что R незаменим не только для визуализации, но и анализа данных.

Изучать лучше всего по официальным мануалам:

http://www.r-project.org/

Вот несколько ресурсов:

http://spatial.ly/2012/02/great-maps-ggplot2/

Использовать стоит библиотеку ggplot. Вот такие графики можно построить:
R1 R2 R3