Ivan Begtin

"Мы не ждём открытые данные, мы сами их создаём" (c)

Для всех кто любит работать данными, кто ищет данные или же хочет помочь, выступить волонтёром, ещё один небольшой, но важный проект по сбору задач по web scraping (извлечению данных из веб сайтов).
Web scraping - это когда нет данных для удобной выгрузки и приходится писать специальные программы для извлечения данных из HTML.

Вот тут описание - https://github.com/infoculture/scrapetasks
А вот тут список задач - https://github.com/infoculture/scrapetasks/issues

Эти задачи не заменяют, а дополняют наши задачи для хакатонов - https://github.com/infoculture/datatasks/issues
Но задачи для хакатонов претендуют на некоторую законченность, а работа с данными не создаёт ничего кроме скриптов и данных. Но может помочь и
Вам и многим другим в будущих проектах.

Как всегда - если нехватает времени написать подробную задачу - напишите мне со ссылкой на текущий онлайн ресурс/сайт и я сделаю для него отдельную задачу там же.

(Со мной можно связаться через чат к этому каналу https://telegram.me/begtinchat или через телеграм напрямую https://telegram.me/ibegtin)

#opendata #opengov #scraping

GitHub

infoculture/scrapetasks

scrapetasks - Задачи сообщества по сбору и извлечению данных из официальных источников / Community tasks to collect open data from official sources

527 views11:32

Ivan Begtin

Важная новость для всех кто собирает данные из публичных источников. Суд в США обязал Microsoft разблокировать доступ компании HiQ Labs к открытой части социальной сети Linked In [1]

HiQ Labs занимаются анализом поведения сотрудников и занимались сбором данных (scraping) с сайта LinkedIn, после чего получили письмо предупреждение от LinkedIn и, также, LinkedIn предприняли технические меры по их блокировке [2].

После чего HiQ Labs в июне обратились в суд и суд принял решение что LinkedIn нарушает антимонопольное законодательства и не может подтвердить что именно они владеют теми данными которые находятся на их сайте.

История показательна и является примером того что не только компании владельцы соц сетей могут подавать в суд на тех кто собирает их данные, но и возможна обратная ситуация - когда их ограничения приводят к судебным разбирательствам.

Ссылки:
[1] http://www.zdnet.com/article/judge-orders-linkedin-to-unblock-startup-from-scraping-public-profile-data-report/
[2] http://jolt.law.harvard.edu/digest/hiq-labs-v-linkedin-is-scraping-public-data-protected-speech

#opendata #scraping #microsoft #linkedin

ZDNet

Judge orders LinkedIn to unblock startup from scraping public profile data: Report

A US judge has ruled in favour of HiQ Labs, which was temporarily blocked from using public LinkedIn data for training its AI models.

4.5K viewsIvan Begtin, 05:38

Ivan Begtin

Для тех кто работает с открытыми данными (и просто с данными) напоминание про инструменты полезные для сбора и извлечения данных из самых разнообразных источников

- Tabula [1] инструмент с открытым кодом для извлечения таблиц из PDF файлов.
- Scrapy [2] фреймворк сбора данных из веб страниц.
- Docx2csv [3] утилита и библиотека извлечения таблиц из файлов docx
- Lazyscraper [4] утилита для извлечения таблиц и иных объектов из HTML файлов
- APIBackuper [5] утилита выгрузки данных из API, делает резевную копию данных и сохраняет их в формате JSON lines

Большая коллекция инструментов для сбора данных в Awesome Web Scraping [6].

А также существует несколько десятков онлайн сервисов и компаний которые дают возможность наладить сбор данных на их инфраструктуре или собрать данные на заказ. Это не самая большая, но вполне состоявшаяся индустрий охватывающая от сбора госданных, до сбора информации с сайтов интернет-магазинов и не только.

Лично я могу сказать что собрать или обработать один набор данных не требует много людей или очень много сил. Это можно делать очень быстро и чаще важнее наличие одного понимающего человека раздающего задачи внешней команде или работающего с внешним сервисом.

Лично я много лет, можно сказать, увлекался темой автоматизации извлечения данных. Не просто собрать и извлечь, а сделать это самым ленивым способом, без перетаскиваний и GUI, и без программирования непосредственно сбора данных. Утилиты вроде APIBackuper или Lazyscraper - это плод моих экспериментов.

Я как-то очень давно писал что много лет назад я "убил много времени" на задачи автоматизации сбора данных. Идея фикс была в том что большая часть разработчиков веб-сайтов думают шаблонами, разрабатывают фреймворки по шаблонам и шаблонами же делают сайты. Есть ограниченно число паттернов по описания объекта, описания коллекции объектов, способов их отображения и так далее, основные отличия скорее языковые, чем какие-либо иные.

Впрочем и имеющиеся инструменты сильно облегчают жизнь тем кто собирает данные.

Ссылки:
[1] https://tabula.technology/
[2] https://scrapy.org/
[3] https://github.com/ivbeg/docx2csv
[4] https://github.com/ivbeg/lazyscraper
[5] https://github.com/ruarxive/apibackuper
[6] https://github.com/lorien/awesome-web-scraping

#scraping #data #extraction

tabula.technology

Tabula: Extract Tables from PDFs

Tabula is a free tool for extracting data from PDF files into CSV and Excel files.

3.0K viewsIvan Begtin, 17:57

About

Blog

Apps

Platform