Ivan Begtin
7.98K subscribers
1.81K photos
3 videos
101 files
4.52K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Важная новость для всех кто собирает данные из публичных источников. Суд в США обязал Microsoft разблокировать доступ компании HiQ Labs к открытой части социальной сети Linked In [1]

HiQ Labs занимаются анализом поведения сотрудников и занимались сбором данных (scraping) с сайта LinkedIn, после чего получили письмо предупреждение от LinkedIn и, также, LinkedIn предприняли технические меры по их блокировке [2].

После чего HiQ Labs в июне обратились в суд и суд принял решение что LinkedIn нарушает антимонопольное законодательства и не может подтвердить что именно они владеют теми данными которые находятся на их сайте.

История показательна и является примером того что не только компании владельцы соц сетей могут подавать в суд на тех кто собирает их данные, но и возможна обратная ситуация - когда их ограничения приводят к судебным разбирательствам.

Ссылки:
[1] http://www.zdnet.com/article/judge-orders-linkedin-to-unblock-startup-from-scraping-public-profile-data-report/
[2] http://jolt.law.harvard.edu/digest/hiq-labs-v-linkedin-is-scraping-public-data-protected-speech

#opendata #scraping #microsoft #linkedin
Полезная июльская статья о внутреннем устройстве архитектуры работы с данными LinkedIn [1] и свежая статья о том как как они перестраивают аналитические дашборды внутри [2]. И то, и то, читать весьма интересно. Почти весь стек данных у них основан на относительно ограниченном наборе данных, около 1400+ датасетов и команде в более чем 900+ человек. А всё построено поверх экосистемы Hadoop с множеством собственных надстроек, большая часть которых с открытым кодом. Меня зацепило что они отказываются от Avro и CSV в сторону формата Apache Orc [3], а не Parquet или других форматов. И конечно, в очередной раз убеждаюсь, что стэки данных больших дата проектов бывают очень сложными. В схемах LinkedIn также видно как они отказываются от проприетарного ПО в сторону своего и внешнего открытого кода.

Ссылки:
[1] https://engineering.linkedin.com/blog/2021/from-daily-dashboards-to-enterprise-grade-data-pipelines
[2] https://engineering.linkedin.com/blog/2021/evolving-linkedin-s-analytics-tech-stack
[3] https://orc.apache.org/

#dataarchitecture #data #datastack #linkedin