Ivan Begtin

Важная новость для всех кто собирает данные из публичных источников. Суд в США обязал Microsoft разблокировать доступ компании HiQ Labs к открытой части социальной сети Linked In [1]

HiQ Labs занимаются анализом поведения сотрудников и занимались сбором данных (scraping) с сайта LinkedIn, после чего получили письмо предупреждение от LinkedIn и, также, LinkedIn предприняли технические меры по их блокировке [2].

После чего HiQ Labs в июне обратились в суд и суд принял решение что LinkedIn нарушает антимонопольное законодательства и не может подтвердить что именно они владеют теми данными которые находятся на их сайте.

История показательна и является примером того что не только компании владельцы соц сетей могут подавать в суд на тех кто собирает их данные, но и возможна обратная ситуация - когда их ограничения приводят к судебным разбирательствам.

Ссылки:
[1] http://www.zdnet.com/article/judge-orders-linkedin-to-unblock-startup-from-scraping-public-profile-data-report/
[2] http://jolt.law.harvard.edu/digest/hiq-labs-v-linkedin-is-scraping-public-data-protected-speech

#opendata #scraping #microsoft #linkedin

ZDNet

Judge orders LinkedIn to unblock startup from scraping public profile data: Report

A US judge has ruled in favour of HiQ Labs, which was temporarily blocked from using public LinkedIn data for training its AI models.

4.51K viewsIvan Begtin, 05:38

Ivan Begtin

Полезная июльская статья о внутреннем устройстве архитектуры работы с данными LinkedIn [1] и свежая статья о том как как они перестраивают аналитические дашборды внутри [2]. И то, и то, читать весьма интересно. Почти весь стек данных у них основан на относительно ограниченном наборе данных, около 1400+ датасетов и команде в более чем 900+ человек. А всё построено поверх экосистемы Hadoop с множеством собственных надстроек, большая часть которых с открытым кодом. Меня зацепило что они отказываются от Avro и CSV в сторону формата Apache Orc [3], а не Parquet или других форматов. И конечно, в очередной раз убеждаюсь, что стэки данных больших дата проектов бывают очень сложными. В схемах LinkedIn также видно как они отказываются от проприетарного ПО в сторону своего и внешнего открытого кода.

Ссылки:
[1] https://engineering.linkedin.com/blog/2021/from-daily-dashboards-to-enterprise-grade-data-pipelines
[2] https://engineering.linkedin.com/blog/2021/evolving-linkedin-s-analytics-tech-stack
[3] https://orc.apache.org/

#dataarchitecture #data #datastack #linkedin

From daily dashboards to enterprise grade data pipelines

Within a matter of hours of each day beginning, we ingest tens of billions of records from online sources to HDFS, aggregated across 50+ offline data flows, and visualize 40+ metrics across our business lines to support a dashboard providing company leaders…

1.31K viewsIvan Begtin, 11:39

About

Blog

Apps

Platform