вторник, 1 июля 2014 г.

Scraping! WTF?!

Когда примерно год назад на Leanpub начали активно появляться новые главы книжки английского журналиста и исследователя медиа Paul Bradshow "Scraping for Journalists", Google, да и "Яндекс", впрочем, не выдавали ни одного релевантного результата на русском языке по запросу "скрэпинг". Ничего с этим словом не было и в тематической периодике - по крайней мере, в той, что есть в открытом доступе.

Между тем, скрэпинг - это автоматизированные, чаще всего на основе программирования, сбор информации по оцифрованным массивам данным и последующая ее, также автоматизированная, обработка.

Вспомнил я о "скрэпинге" в связи с недавними мастер-классами московских журналистов, прошедшими в УрФУ. В частности, в связи c выступлением аналитика Rambler Филлипа Каца. 

В анонсе своего выступления он обещал пошагово и на конкретных примерах показать, как использовать сервисы для скрэпинга при сборе информации для инфографики. На время его рассказа в аудитории установилась почти кристальная тишина. Конечно, повторять следом за ним и в его темпе, похоже, никто не решился, но и вопросов по соответствующим алгоритмам и сервисам у аудитории почти не было. Сдается мне, что "скрэпинг" до сих пор остается тем ремеслом, которое пока что находится за некими психологическими границами технических навыков, которые считают необходимыми для себя журналисты и близкие им специалисты. 

Между тем, Филипп порекомендовал несколько сервисов для скрэпинга, которые позволяют по возможности обойтись без программирования в поиске и сборе необходимых данных:
  • плагин Scraper для Chrome
  • плагин и веб-сервис Kimono 
  • сервис Google Refine
  • тематический ресурс Scraperwiki
Конечно, навыки скрэпинга можно развить, наверное, таким же образом, как и умение играть на музыкальном инструменте - только при постоянной практике. Но он сегодня востребован как никогда. И не только в журналистике. Коммерческие структуры, например, также заинтересованы в автоматизированных системах сбора данных - например, для формирования клиентских баз на основе открытой информации в Интернете, либо для анализа упоминаний бренда и т.д. Так что, скорее всего, в следующем учебном году и мы будем вынуждены ввести новое задание по "Современным информационным технологиям" - по использованию того или иного инструмента скрэпинга.