ЗаТелеком 🌐
61.1K subscribers
16.9K photos
408 videos
414 files
9.68K links
#ЗаТелеком - это только про телеком - что было, что будет и чем сердце успокоится.
Контакт с аффтором: https://t.me/m/ygYwPv86MWFk
Download Telegram
Forwarded from Ivan Begtin
Подборка ссылок для тех кто думает о технологиях работы с данными:
- О том как устроена работы с данными в Airbnb - https://medium.com/airbnb-engineering/democratizing-data-at-airbnb-852d76c51770 включая их удивительный инструмент Superset https://github.com/airbnb/superset позволяющий очень удобно визуализировать самые разные данные. И с открытым кодом

- Обзор 15 библиотек для работы с данными с помощью Python - https://medium.com/activewizards-machine-learning-company/top-15-python-libraries-for-data-science-in-in-2017-ab61b4f9b4a7

- Metabase. Возможность создания быстрой бизнес аналитики на данных - https://github.com/metabase/metabase с открытым кодом

- Cyclotron. Фреймворк для быстрого создания панелей управления с визуализацией данных - http://www.cyclotron.io/ с открытым кодом

- Bad Data Guide. Подробное руководство о том какими бывают плохие данные - https://github.com/Quartz/bad-data-guide

- Статья о том как использовать "темные данные. Dark analytics: Illuminating opportunities hidden within unstructured data https://dupress.deloitte.com/dup-us-en/focus/tech-trends/2017/dark-data-analyzing-unstructured-data.html

#data #datascience
Forwarded from Ivan Begtin (Ivan Begtin)
Burtch Works опубликовали исследование по изменениям заработной плате инженеров данных и дата сайентистов [1], доступ там через форму которую надо заполнить, можно также в Forbes прочитать оттуда краткие выводы [2].

Если кратко то это одни из самых востребованных профессий с беспрецедентным ростом зарплат. Доходы руководителей команд по ИИ достигают $300000 в год. А доходы профессионалов выросли на 10-13%.

Конечно, это обзор рынка в США, но, по моим ощущениям, ситуацию с кадровым рынком данных это отражает хорошо.

Ещё несколько инсайтов из этого исследования:
1. Среди дата инженеров кратно меньше PhD (5%), и около 32% бакалавров. Что отражает общий тренд на то что многие разработчики отказываются от высшего образования в пользу карьеры. В области dat science наоборот много именно PhD, почти 50%.
2. В области инженерии данных всего 12.5% женщин
3. Средний опыт дата инженера на рынке около 11 лет
4. В data science идет образовательный тренд на большую специализацию магистерских программ.

И ещё много много чего, в целом любопытно понимать как всё обстоит прямо сейчас на рынке труда.

Как это может повлиять на российский рынок data science и data engineering ? Не хочется делать несмешных предсказаний, но прогнозы весьма пессимистичные. Чем больше будет мировой спрос на специалистов и рост зарплат в этой области, тем больше может быть их отток из российских компаний и репрессивными мерами его точно не сдержать.

Ссылки:
[1] https://www.burtchworks.com/big-data-analyst-salary/big-data-career-tips/the-burtch-works-study/
[2] https://www.forbes.com/sites/gilpress/2022/06/14/a-booming-market-for-ai-skills-with-salaries-topping-300000/

#itmarket #data
Forwarded from Ivan Begtin (Ivan Begtin)
В Форбс статья про то что Минцифры переписало законопроект об обезличенной информации и то что ключевые положения там остались о том что цель законопроекта в том чтобы забрать данные у бизнеса и сконцентрировать в одной госсистеме.

Я по прежнему не перестаю говорить что единственными бенефициарами проекта являются:
- спецслужбы - доступ к данным для профилирования граждан и слежки
- госкомпании - приближенные к центрам принятия решений, доступ к данным бесплатно
- правительство - создание доп. инструмента давления на цифровой бизнес

Говоря откровенно, этот закон людоедский. Правительство оказалось неспособным собрать данные для ИИ из государственных информационных систем, хотя там их не просто много, а бесконечно много. У российского гос-ва есть такие данные как:
- медицинские данные (снимки рентгена, томографов и тд);
- спутниковые данные (структуры Роскосмоса);
- данные фото и видеофиксации (дороги, стройки и тд)
- языковые данные
- научные данные

И ещё много чего. Но вместо того чтобы привести в порядок эти данные, открыть их, сделать датасеты для ИИ, правительство пошло по пути ультранасилия и под соусом доступности данных для бизнеса на ИИ (хотя покажите мне хоть один бизнес которые просил именно этого и именно так), так вот правительство просто отнимает у бизнеса данные о клиентах.

В общем это один из самых худших законопроектов в РФ за последние если не десятилетия, то годы. Затрагивает он не только граждан, но всех чьи данные находятся в информационных системах и компаниях в российской юрисдикциях.

#regulation #russia #closeddata #data
Forwarded from Ivan Begtin (Ivan Begtin)
В продолжение размышлений про то как публикуют открытые данные, я в какие-то из ближайших дней напишу про то как публикуют дата продукты и их качественные отличия от открытых данных (спойлер - большая часть дата продуктов коммерческие и в открытый доступ публикуют данные с ограничениями).

А пока в качестве одного из упоминаемых там материалов, проект OpenCellID [1]. База геолокаций сотовых вышек по всему миру, с возможностью выгрузки данных в по всему миру или отдельной стране.

В статистике упоминают более 30 миллионов вышек, а также можно загружать туда информацию с помощью их API [2]. За проектом стоит компания UnwiredLabs предоставляющая сервисы геолокации [3]

В чем особенность проекта так в том что он начинался как сообщество у которого появилось много контрибьюторов. Изначально данные в нём тоже были открыты и удобны для выгрузки, можно прочитать об этом в статье на Хабр в 2014 году [4], а сейчас данные не только не скачать без регистрации и API ключа, но и не более 2-х файлов в месяц.

Более того, у меня есть слепок данных из этого проекта за 2021 год и когда я сравниваю, например, данные по РФ, со статистикой по РФ на сайте и содержанием дампа на сегодня, то выглядят цифры вот так:
- 1.9 миллионов сотовых вышек РФ в выгрузке за 2021 г.
- 2.2. миллиона сотовых вышек по РФ упоминаются в статистике на 2024 г.
и только 146 тысяч сотовых вышек в выгрузке данных за 2024 г.

На форуме пользователи уже задаются вопросами почему так происходит, но безответно [5].

Ответ, почти наверняка, очевиден, владелец открытого сервиса "портит его" в пользу связанного коммерческого продукта. Так не редко случается в коммерческих дата продуктах изначально основанных на создание открытых данных.

Такое бывает и с опенсорс проектами переходящими в коммерциализацию.

Ссылки:
[1] https://opencellid.org
[2] https://wiki.opencellid.org/wiki/API
[3] https://unwiredlabs.com
[4] https://habr.com/ru/companies/promwad/articles/223635/
[5] https://opencellid.org/downloads.php
[6] https://community.opencellid.org/t/data-vs-statistics-differences/1327

#opendata #dataproducts #data