Forwarded from Ivan Begtin
Подборка ссылок для тех кто думает о технологиях работы с данными:
- О том как устроена работы с данными в Airbnb - https://medium.com/airbnb-engineering/democratizing-data-at-airbnb-852d76c51770 включая их удивительный инструмент Superset https://github.com/airbnb/superset позволяющий очень удобно визуализировать самые разные данные. И с открытым кодом
- Обзор 15 библиотек для работы с данными с помощью Python - https://medium.com/activewizards-machine-learning-company/top-15-python-libraries-for-data-science-in-in-2017-ab61b4f9b4a7
- Metabase. Возможность создания быстрой бизнес аналитики на данных - https://github.com/metabase/metabase с открытым кодом
- Cyclotron. Фреймворк для быстрого создания панелей управления с визуализацией данных - http://www.cyclotron.io/ с открытым кодом
- Bad Data Guide. Подробное руководство о том какими бывают плохие данные - https://github.com/Quartz/bad-data-guide
- Статья о том как использовать "темные данные. Dark analytics: Illuminating opportunities hidden within unstructured data https://dupress.deloitte.com/dup-us-en/focus/tech-trends/2017/dark-data-analyzing-unstructured-data.html
#data #datascience
- О том как устроена работы с данными в Airbnb - https://medium.com/airbnb-engineering/democratizing-data-at-airbnb-852d76c51770 включая их удивительный инструмент Superset https://github.com/airbnb/superset позволяющий очень удобно визуализировать самые разные данные. И с открытым кодом
- Обзор 15 библиотек для работы с данными с помощью Python - https://medium.com/activewizards-machine-learning-company/top-15-python-libraries-for-data-science-in-in-2017-ab61b4f9b4a7
- Metabase. Возможность создания быстрой бизнес аналитики на данных - https://github.com/metabase/metabase с открытым кодом
- Cyclotron. Фреймворк для быстрого создания панелей управления с визуализацией данных - http://www.cyclotron.io/ с открытым кодом
- Bad Data Guide. Подробное руководство о том какими бывают плохие данные - https://github.com/Quartz/bad-data-guide
- Статья о том как использовать "темные данные. Dark analytics: Illuminating opportunities hidden within unstructured data https://dupress.deloitte.com/dup-us-en/focus/tech-trends/2017/dark-data-analyzing-unstructured-data.html
#data #datascience
Medium
Democratizing Data at Airbnb
By Chris Williams, Eli Brumbaugh, Jeff Feng, John Bodley, and Michelle Thomas
Forwarded from Ivan Begtin (Ivan Begtin)
Burtch Works опубликовали исследование по изменениям заработной плате инженеров данных и дата сайентистов [1], доступ там через форму которую надо заполнить, можно также в Forbes прочитать оттуда краткие выводы [2].
Если кратко то это одни из самых востребованных профессий с беспрецедентным ростом зарплат. Доходы руководителей команд по ИИ достигают $300000 в год. А доходы профессионалов выросли на 10-13%.
Конечно, это обзор рынка в США, но, по моим ощущениям, ситуацию с кадровым рынком данных это отражает хорошо.
Ещё несколько инсайтов из этого исследования:
1. Среди дата инженеров кратно меньше PhD (5%), и около 32% бакалавров. Что отражает общий тренд на то что многие разработчики отказываются от высшего образования в пользу карьеры. В области dat science наоборот много именно PhD, почти 50%.
2. В области инженерии данных всего 12.5% женщин
3. Средний опыт дата инженера на рынке около 11 лет
4. В data science идет образовательный тренд на большую специализацию магистерских программ.
И ещё много много чего, в целом любопытно понимать как всё обстоит прямо сейчас на рынке труда.
Как это может повлиять на российский рынок data science и data engineering ? Не хочется делать несмешных предсказаний, но прогнозы весьма пессимистичные. Чем больше будет мировой спрос на специалистов и рост зарплат в этой области, тем больше может быть их отток из российских компаний и репрессивными мерами его точно не сдержать.
Ссылки:
[1] https://www.burtchworks.com/big-data-analyst-salary/big-data-career-tips/the-burtch-works-study/
[2] https://www.forbes.com/sites/gilpress/2022/06/14/a-booming-market-for-ai-skills-with-salaries-topping-300000/
#itmarket #data
Если кратко то это одни из самых востребованных профессий с беспрецедентным ростом зарплат. Доходы руководителей команд по ИИ достигают $300000 в год. А доходы профессионалов выросли на 10-13%.
Конечно, это обзор рынка в США, но, по моим ощущениям, ситуацию с кадровым рынком данных это отражает хорошо.
Ещё несколько инсайтов из этого исследования:
1. Среди дата инженеров кратно меньше PhD (5%), и около 32% бакалавров. Что отражает общий тренд на то что многие разработчики отказываются от высшего образования в пользу карьеры. В области dat science наоборот много именно PhD, почти 50%.
2. В области инженерии данных всего 12.5% женщин
3. Средний опыт дата инженера на рынке около 11 лет
4. В data science идет образовательный тренд на большую специализацию магистерских программ.
И ещё много много чего, в целом любопытно понимать как всё обстоит прямо сейчас на рынке труда.
Как это может повлиять на российский рынок data science и data engineering ? Не хочется делать несмешных предсказаний, но прогнозы весьма пессимистичные. Чем больше будет мировой спрос на специалистов и рост зарплат в этой области, тем больше может быть их отток из российских компаний и репрессивными мерами его точно не сдержать.
Ссылки:
[1] https://www.burtchworks.com/big-data-analyst-salary/big-data-career-tips/the-burtch-works-study/
[2] https://www.forbes.com/sites/gilpress/2022/06/14/a-booming-market-for-ai-skills-with-salaries-topping-300000/
#itmarket #data
Burtch Works
The Burtch Works Study | Data Science & Market Research Salary Reports
Download free salary reports for data scientists, predictive analytics professionals, and marketing research and consumer insights professionals.
Forwarded from Ivan Begtin (Ivan Begtin)
В Форбс статья про то что Минцифры переписало законопроект об обезличенной информации и то что ключевые положения там остались о том что цель законопроекта в том чтобы забрать данные у бизнеса и сконцентрировать в одной госсистеме.
Я по прежнему не перестаю говорить что единственными бенефициарами проекта являются:
- спецслужбы - доступ к данным для профилирования граждан и слежки
- госкомпании - приближенные к центрам принятия решений, доступ к данным бесплатно
- правительство - создание доп. инструмента давления на цифровой бизнес
Говоря откровенно, этот закон людоедский. Правительство оказалось неспособным собрать данные для ИИ из государственных информационных систем, хотя там их не просто много, а бесконечно много. У российского гос-ва есть такие данные как:
- медицинские данные (снимки рентгена, томографов и тд);
- спутниковые данные (структуры Роскосмоса);
- данные фото и видеофиксации (дороги, стройки и тд)
- языковые данные
- научные данные
И ещё много чего. Но вместо того чтобы привести в порядок эти данные, открыть их, сделать датасеты для ИИ, правительство пошло по пути ультранасилия и под соусом доступности данных для бизнеса на ИИ (хотя покажите мне хоть один бизнес которые просил именно этого и именно так), так вот правительство просто отнимает у бизнеса данные о клиентах.
В общем это один из самых худших законопроектов в РФ за последние если не десятилетия, то годы. Затрагивает он не только граждан, но всех чьи данные находятся в информационных системах и компаниях в российской юрисдикциях.
#regulation #russia #closeddata #data
Я по прежнему не перестаю говорить что единственными бенефициарами проекта являются:
- спецслужбы - доступ к данным для профилирования граждан и слежки
- госкомпании - приближенные к центрам принятия решений, доступ к данным бесплатно
- правительство - создание доп. инструмента давления на цифровой бизнес
Говоря откровенно, этот закон людоедский. Правительство оказалось неспособным собрать данные для ИИ из государственных информационных систем, хотя там их не просто много, а бесконечно много. У российского гос-ва есть такие данные как:
- медицинские данные (снимки рентгена, томографов и тд);
- спутниковые данные (структуры Роскосмоса);
- данные фото и видеофиксации (дороги, стройки и тд)
- языковые данные
- научные данные
И ещё много чего. Но вместо того чтобы привести в порядок эти данные, открыть их, сделать датасеты для ИИ, правительство пошло по пути ультранасилия и под соусом доступности данных для бизнеса на ИИ (хотя покажите мне хоть один бизнес которые просил именно этого и именно так), так вот правительство просто отнимает у бизнеса данные о клиентах.
В общем это один из самых худших законопроектов в РФ за последние если не десятилетия, то годы. Затрагивает он не только граждан, но всех чьи данные находятся в информационных системах и компаниях в российской юрисдикциях.
#regulation #russia #closeddata #data
Forbes.ru
Бездонные данные: Минцифры переписало законопроект об обезличенной информации
Минцифры подготовило очередную версию законопроекта о так называемых обезличенных данных, предполагавшего создание государственной информационной системы (ГИС), куда бизнес будет бесплатно передавать персональные данные своих клиентов и сотрудников.
Forwarded from Ivan Begtin (Ivan Begtin)
В продолжение размышлений про то как публикуют открытые данные, я в какие-то из ближайших дней напишу про то как публикуют дата продукты и их качественные отличия от открытых данных (спойлер - большая часть дата продуктов коммерческие и в открытый доступ публикуют данные с ограничениями).
А пока в качестве одного из упоминаемых там материалов, проект OpenCellID [1]. База геолокаций сотовых вышек по всему миру, с возможностью выгрузки данных в по всему миру или отдельной стране.
В статистике упоминают более 30 миллионов вышек, а также можно загружать туда информацию с помощью их API [2]. За проектом стоит компания UnwiredLabs предоставляющая сервисы геолокации [3]
В чем особенность проекта так в том что он начинался как сообщество у которого появилось много контрибьюторов. Изначально данные в нём тоже были открыты и удобны для выгрузки, можно прочитать об этом в статье на Хабр в 2014 году [4], а сейчас данные не только не скачать без регистрации и API ключа, но и не более 2-х файлов в месяц.
Более того, у меня есть слепок данных из этого проекта за 2021 год и когда я сравниваю, например, данные по РФ, со статистикой по РФ на сайте и содержанием дампа на сегодня, то выглядят цифры вот так:
- 1.9 миллионов сотовых вышек РФ в выгрузке за 2021 г.
- 2.2. миллиона сотовых вышек по РФ упоминаются в статистике на 2024 г.
и только 146 тысяч сотовых вышек в выгрузке данных за 2024 г.
На форуме пользователи уже задаются вопросами почему так происходит, но безответно [5].
Ответ, почти наверняка, очевиден, владелец открытого сервиса "портит его" в пользу связанного коммерческого продукта. Так не редко случается в коммерческих дата продуктах изначально основанных на создание открытых данных.
Такое бывает и с опенсорс проектами переходящими в коммерциализацию.
Ссылки:
[1] https://opencellid.org
[2] https://wiki.opencellid.org/wiki/API
[3] https://unwiredlabs.com
[4] https://habr.com/ru/companies/promwad/articles/223635/
[5] https://opencellid.org/downloads.php
[6] https://community.opencellid.org/t/data-vs-statistics-differences/1327
#opendata #dataproducts #data
А пока в качестве одного из упоминаемых там материалов, проект OpenCellID [1]. База геолокаций сотовых вышек по всему миру, с возможностью выгрузки данных в по всему миру или отдельной стране.
В статистике упоминают более 30 миллионов вышек, а также можно загружать туда информацию с помощью их API [2]. За проектом стоит компания UnwiredLabs предоставляющая сервисы геолокации [3]
В чем особенность проекта так в том что он начинался как сообщество у которого появилось много контрибьюторов. Изначально данные в нём тоже были открыты и удобны для выгрузки, можно прочитать об этом в статье на Хабр в 2014 году [4], а сейчас данные не только не скачать без регистрации и API ключа, но и не более 2-х файлов в месяц.
Более того, у меня есть слепок данных из этого проекта за 2021 год и когда я сравниваю, например, данные по РФ, со статистикой по РФ на сайте и содержанием дампа на сегодня, то выглядят цифры вот так:
- 1.9 миллионов сотовых вышек РФ в выгрузке за 2021 г.
- 2.2. миллиона сотовых вышек по РФ упоминаются в статистике на 2024 г.
и только 146 тысяч сотовых вышек в выгрузке данных за 2024 г.
На форуме пользователи уже задаются вопросами почему так происходит, но безответно [5].
Ответ, почти наверняка, очевиден, владелец открытого сервиса "портит его" в пользу связанного коммерческого продукта. Так не редко случается в коммерческих дата продуктах изначально основанных на создание открытых данных.
Такое бывает и с опенсорс проектами переходящими в коммерциализацию.
Ссылки:
[1] https://opencellid.org
[2] https://wiki.opencellid.org/wiki/API
[3] https://unwiredlabs.com
[4] https://habr.com/ru/companies/promwad/articles/223635/
[5] https://opencellid.org/downloads.php
[6] https://community.opencellid.org/t/data-vs-statistics-differences/1327
#opendata #dataproducts #data