Ivan Begtin
8.03K subscribers
1.75K photos
3 videos
101 files
4.45K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Rath, свежий инструмент по визуализации данных [1] как альтернатива Tableau, но с открытым кодом. Может оказаться интересной находкой для тех кто вынужден/хочет/планирует мигрировать с проприетарных настольных BI инструментов. Возможностей у него явно поменьше, я, пока его не проверял на собственных больших коллекциях данных, но всё таки открытый код под AGPL лицензией. Разработчики Kanaries [2] явно делают его под венчурное финансирование их облачного продукта и предоставляют открытую и бесплатную версию параллельно.

Ссылки:
[1] https://github.com/Kanaries/Rath
[2] https://kanaries.net/

#opensource #datatools #dataviz #datapreparation #dataanalysis
Отличный открытый курс по анализу данных от Яндекса и Европейского университета в СПб Прикладной анализ данных в социальных науках на русском языке.
Для тех кто только начинает работать с данными или переключается в эту область из другой профессии, рекомендую. Особенно это полезно для тех кто работает с данными в академической среде.

У Яндекса, в принципе, хороший набор русскоязычных хэндбуков. Лично мне не хватает хэндбуков про данные, например, про data discovery. С другой стороны я подозреваю если подходить к делу серьёзно, то мне же самому такой хэндбук надо делать.

#education #studies #learning #dataanalysis #data
В рубрике необычных источников данных, пакеты для Anaconda [1], среды для анализа данных в виде интегрированных тетрадок, дистрибутива Python с пакетами для data science и data analysis, и экосистемой разного рода расширений. У продукта есть реестр пакетов в котором, в основном, пакеты с открытым кодом, но многие пакеты, также, содержат наборы данных [2], особенно много данных в расширениях bioconda, для биоинформатики. Искать их можно по разного рода ключевым словам вроде "data" и "dataset", результат приходит вперемешку с пакетами для обработки данных и наборов данных

Поиск по пакетам общий, типизации пакетов по типу содержания нет, так что нельзя сказать что искать пакеты с данными очень удобно. С другой стороны для тех кто хочет данные из коробки и в единой среде это может быть полезно.


Ссылки:
[1] https://www.anaconda.com
[2] https://anaconda.org/search?q=dataset

#opendata #anaconda #dataanalysis
Прекрасное чтение Watching the Watchdogs: Tracking SEC Inquiries using Geolocation Data [1] в виде научной статьи, но я перескажу простыми словами.

Если вкратце, то группа исследователей:
1) Нашли поставщика данных у которого они закупили данные по всем телефонам с которыми ходили люди в офисе комиссии по ценным бумагам в США (SEC) по своим офисам
2) Идентифицировали сотрудников из общего числа устройств,
3) Сопоставили множество геоданных, вплоть до шейпфайлов штабквартир публичных компаний
4) Определили когда сотрудники SEC приходили в эти офисы
5) Разобрали как SEC проверяет публичные компании и когда эта информация публична
6) Сопоставили проверки с изменениями стоимости ценных бумаг

И вуаля, так и хочется сказать, почему эти гении люди обо всём этом написали научную статью, вместо того чтобы существенно обогатится на полученных данных!

Многое бы бизнес во многих странах отдал бы за отслеживание того куда ходят налоговики, силовики, представители горных национальных республик и ещё много чего.

А статью рекомендую, жаль лишь что они источник данных не указывают.

Ссылки:
[1] https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4941708

#dataanalysis #research #privacy #geodata