Скрейпинг (scraping)

Инструменты

scrapers
Веб-Скрейпинг – это технология получения данных из веб-страниц.
К сожалению, пока что в русскоязычной Википедии нет страниц, посвященных скрейпингу. А вот в англоязычной Википедии такие статьи уже есть (Web-scraping, Data-scraping).
Краткий обзор инструментария для скрейпинга в блоге, посвященному скрейпингу: http://scraping.pro/scraping-software-services-landscape/#more-7262

Инструментарий для веб-скрейпинга

ScraperWiki

Онлайн-сервис, позволяющий не только писать свой скрейперы при помощи HTML, JavaScript и Python (и не только), но и переводить документы из формата PDF в формат CSV.

logo-openrefine-40

Мощный инструмент по работе с “сырыми данными”, и в числе прочих функций, позволяет скрейпить данные. Под OpenRefine написано множество программных расширений.
Есть отличная книга по OpenRefine (Ruben Verborgh, Max De Wilde “Using OpenRefine”): https://www.packtpub.com/big-data-and-business-intelligence/using-openrefine

import.io

Быстро растущий сервис, в котором разработчики постоянно реализовывают новые функции, см. http://support.import.io/

Можно визуализировать данные через другой сервис — plot.ly (http://support.import.io/knowledgebase/articles/473853-plot-ly-integration)
chrome-extension-256

Инструкция от Филиппа Каца, Как сделать скрейпер за 15 минут: http://www.datadrivenjournalism.ru/2015/02/kimono/

OutWit Hub

Расширение под Firefox, позволяющее вытягивать различные данные из веб-страниц.
Creating a Scraper for Multiple URLs, Simple Method: http://blog.outwit.com/?p=116

Google Web Scraper

Расширение под Google Chrome.

Scrapy

Фреймворк для написания краулеров. Поддерживает написание программного кода на языке Python 2.7.

Список информационных источников