Вакансия для тех кто ищет работу в области дата инженерии https://hh.ru/vacancy/118444436, но не в кровавом энтерпрайзе, а в общественных и научных проектах. Уметь строить конвееры данных обязательно, опыт не должен быть нулевым, но когда есть чему поучиться. Работа с общедоступными данными, их сбор, обработка и автоматизация и наблюдаемость этого всего.
#vacancy #dataengineering
#vacancy #dataengineering
hh.ru
Вакансия Data Engineer (Инженер данных (миддл) в Москве, работа в компании АНО Инфокультура
Зарплата: от 100000 до 150000 ₽ за месяц. Москва. Требуемый опыт: 3–6 лет. Полная. Дата публикации: 17.03.2025.
Ivan Begtin pinned «Вакансия для тех кто ищет работу в области дата инженерии https://hh.ru/vacancy/118444436, но не в кровавом энтерпрайзе, а в общественных и научных проектах. Уметь строить конвееры данных обязательно, опыт не должен быть нулевым, но когда есть чему поучиться.…»
В Евросоюзе множество крупных и средних компаний написали открытое письмо о необходимости "суверинизации ИТ" [1] с предложением создать «Суверенный инфраструктурный фонд» и странам ЕС сфокусироваться на локальных решениях для всей ИТ инфраструктуры. Триггером послужили речь вице-президента США Вэнса, санкции против Международного уголовного суда и всё более острое осознание зависимости бизнеса и органов власти в Европе от бигтехов, а бигтехи давно уже стали синонимом США.
Ничего не напоминает? Например, то как в РФ развивалось импортозамещение и "суверенизация ИТ".
Очевидная проблема в том что ЕС гораздо сильнее интегрирована с США экономически и технологически. Бигтехи доминируют в ЕС поскольку европейское регулирование не могло допустить аналогичного масштаба компаний внутри самого союза и поскольку всегда предлагали лучшие услуги за меньшие деньги чем местные компании.
Пусть экономисты считают во сколько может обойтись такой развод ЕС с США, мой прогноз - дорого. В любом случае если по этому пути всё пойдет то мир станет разнообразнее, что само по себе уже неплохо.
Ссылки:
[1] https://techcrunch.com/2025/03/16/european-tech-industry-coalition-calls-for-radical-action-on-digital-sovereignty-starting-with-buying-local/
#eu #usa #policy #it
Ничего не напоминает? Например, то как в РФ развивалось импортозамещение и "суверенизация ИТ".
Очевидная проблема в том что ЕС гораздо сильнее интегрирована с США экономически и технологически. Бигтехи доминируют в ЕС поскольку европейское регулирование не могло допустить аналогичного масштаба компаний внутри самого союза и поскольку всегда предлагали лучшие услуги за меньшие деньги чем местные компании.
Пусть экономисты считают во сколько может обойтись такой развод ЕС с США, мой прогноз - дорого. В любом случае если по этому пути всё пойдет то мир станет разнообразнее, что само по себе уже неплохо.
Ссылки:
[1] https://techcrunch.com/2025/03/16/european-tech-industry-coalition-calls-for-radical-action-on-digital-sovereignty-starting-with-buying-local/
#eu #usa #policy #it
TechCrunch
European tech industry coalition calls for 'radical action' on digital sovereignty — starting with buying local | TechCrunch
A broad coalition drawn from across the ranks of Europe's tech industry is calling for "radical action" from European Union lawmakers to shrink reliance
В рубрике интересных проектов на данных мексиканский проект Oja a las sanctiones [1] (Глаз на санкции) в виде онлайн поисковика и базы данных мексиканских компаний под местными и американскими санкциями.
В Мексике есть свои реестры недобросовестных юридических лиц и есть компании под санкциями США, в основном за связь с поставками наркотиков и картелями.
Всего 13+ тысяч организаций.
Открытые данные пока не отдают, но обещают делать это в будущем.
Вообще же крупнейший и хорошо организованный открытый ресурс с открытыми данными по санкциям в мире - это OpenSanctions [2], но крупнейший не значит что он полон. Например, мексиканских реестров компаний однодневок и компаний уличённых в незаконной деятельности там нет.
Ссылки:
[1] https://ojosanciones.sociedad.info/
[2] https://www.opensanctions.org/
#opendata #sanctions
В Мексике есть свои реестры недобросовестных юридических лиц и есть компании под санкциями США, в основном за связь с поставками наркотиков и картелями.
Всего 13+ тысяч организаций.
Открытые данные пока не отдают, но обещают делать это в будущем.
Вообще же крупнейший и хорошо организованный открытый ресурс с открытыми данными по санкциям в мире - это OpenSanctions [2], но крупнейший не значит что он полон. Например, мексиканских реестров компаний однодневок и компаний уличённых в незаконной деятельности там нет.
Ссылки:
[1] https://ojosanciones.sociedad.info/
[2] https://www.opensanctions.org/
#opendata #sanctions
Ещё один необычный каталог данных OpenForest [1] является каталогом датасетов для машинного обучения с данными связанными с лесом.
Необычность в том что у него нет интерфейса и сам каталог представлен в виде репозитория на Github с перечнем датасетов в CSV файле.
Это не первый на моей памяти пример использования Github/Gitlab/Git для публикации датасетов и дата каталогов, другой пример - это каталоги на базе движка JKAN, но там это скорее материалы статитических сайтов каталогов, а интерфейс, всё же присутствует.
Ссылки:
[1] https://github.com/RolnickLab/OpenForest
#opendata #datacatalogs #datasets
Необычность в том что у него нет интерфейса и сам каталог представлен в виде репозитория на Github с перечнем датасетов в CSV файле.
Это не первый на моей памяти пример использования Github/Gitlab/Git для публикации датасетов и дата каталогов, другой пример - это каталоги на базе движка JKAN, но там это скорее материалы статитических сайтов каталогов, а интерфейс, всё же присутствует.
Ссылки:
[1] https://github.com/RolnickLab/OpenForest
#opendata #datacatalogs #datasets
This media is not supported in your browser
VIEW IN TELEGRAM
В рубрике как это устроено у них Docs [1] альтернатива Notion и Outline с открытым кодом, годится для совместного написания документов и командной работы над ними. Распространяется под лицензией MIT.
У проекта много фич и он хорошо и быстро развивается, но интересно не только это.
Проект является совместной инициативой DINUM (Межминистерского цифрового директората во Франции) и ZenDiS (Zentrum Digitale Souveränität), Центр Цифрового Суверенитета при Министерстве цифры Германии.
Иначе говоря - это совместный государственный франко-германский проект по созданию аналога Notion, а также сейчас у них идет онбординг цифровой команды пр-ва Нидерландов.
У ZenDIS ещё есть продукт OpenDesk [2] по замене офисного ПО для проектной и офисной работы. И внутри него совместное написание документов как раз основано на Docs.
OpenDesk довольно новый продукт, анонсированный в октябре 2024 года, но весьма активный и его код также общедоступен [3]
И, заодно, стоит добавить что сообщество пользователей продукта они строят не как все в Slack или Discord, а в Matrix [4]. Скажу честно, куда менее удобный мессенжер, но зато не относящийся к Big tech.
Ссылки:
[1] https://github.com/suitenumerique/docs
[2] https://opendesk.eu/
[3] https://gitlab.opencode.de/bmi/opendesk/info
[4] https://matrix.to/#/#docs-official:matrix.org
#opensource #documentation #notion
У проекта много фич и он хорошо и быстро развивается, но интересно не только это.
Проект является совместной инициативой DINUM (Межминистерского цифрового директората во Франции) и ZenDiS (Zentrum Digitale Souveränität), Центр Цифрового Суверенитета при Министерстве цифры Германии.
Иначе говоря - это совместный государственный франко-германский проект по созданию аналога Notion, а также сейчас у них идет онбординг цифровой команды пр-ва Нидерландов.
У ZenDIS ещё есть продукт OpenDesk [2] по замене офисного ПО для проектной и офисной работы. И внутри него совместное написание документов как раз основано на Docs.
OpenDesk довольно новый продукт, анонсированный в октябре 2024 года, но весьма активный и его код также общедоступен [3]
И, заодно, стоит добавить что сообщество пользователей продукта они строят не как все в Slack или Discord, а в Matrix [4]. Скажу честно, куда менее удобный мессенжер, но зато не относящийся к Big tech.
Ссылки:
[1] https://github.com/suitenumerique/docs
[2] https://opendesk.eu/
[3] https://gitlab.opencode.de/bmi/opendesk/info
[4] https://matrix.to/#/#docs-official:matrix.org
#opensource #documentation #notion
Forwarded from Национальный цифровой архив
Национальный архив США начал публиковать материалы рассекречивания дела по убийству Президента Кеннеди [1]. Материалы эти в виде сканов и оцифрованных аналоговых аудиозаписей, уже опубликовано 61400 страниц, это более чем 2000 PDF документов и это только за 18 марта. Ждём пополнения коллекции.
Ссылки:
[1] https://www.archives.gov/research/jfk/release-2025
#digitalpreservation #archives #usa #kennedy
Ссылки:
[1] https://www.archives.gov/research/jfk/release-2025
#digitalpreservation #archives #usa #kennedy
Невероятный по идее и реализации геопространственный проект OpenTimes [1] в виде визуализации времени поездки на машине, велосипеде или пешком с выбором стартовой точки в виде района и далее по районам отображающий в цвете. Автор Dan Snow рассказывает подробности [2] о том как он из его создал и собрал из 300 GB файлов в несколько файлов Parquet которые хостятся в итоге на Cloudflare R2 и это обходится менее чем в $15 ежемесячно [3]. У проекта открытый исходный код [4], внутри DuckDB и Parquet файлы, Python и Javascript и много первичных данных из базы TIGER переписи населения США.
Собственно финальный объём данных около 440GB [5].
Единственный недостаток - охватывает только США, потому что только по США такие первичные данные есть.
Ссылки:
[1] https://opentimes.org/
[2] https://sno.ws/opentimes/
[3] https://opentimes.org/about/
[4] https://github.com/dfsnow/opentimes
[5] https://data.opentimes.org/
#opendata #opensource #dataviz #data
Собственно финальный объём данных около 440GB [5].
Единственный недостаток - охватывает только США, потому что только по США такие первичные данные есть.
Ссылки:
[1] https://opentimes.org/
[2] https://sno.ws/opentimes/
[3] https://opentimes.org/about/
[4] https://github.com/dfsnow/opentimes
[5] https://data.opentimes.org/
#opendata #opensource #dataviz #data
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
В этом году Минюст изменил форму загрузки отчетности НКО, усложнив работу сотрудникам НКО, многие из которых не так сильны в терминологии «чекбоксов», «контекстных меню» и «модальных окон».
Но больше всего мне нравится «pdf в машиночитаемом виде». Видимо, авторы имеют в виду наличие текстового слоя (а вдруг нет), но с точки зрения компьютерной грамотности и открытых данных, уж лучше бы простым языком писали 🙈
Но больше всего мне нравится «pdf в машиночитаемом виде». Видимо, авторы имеют в виду наличие текстового слоя (а вдруг нет), но с точки зрения компьютерной грамотности и открытых данных, уж лучше бы простым языком писали 🙈
Forwarded from Dateno
🚀 Dateno Enters Industrial Operation – Redefining Global Dataset Search
We’re excited to announce that Dateno has officially transitioned to full-scale industrial operation! 🎉 Now, data professionals worldwide can seamlessly access over 20 million high-quality datasets with advanced filtering, API integration, and continuously updated sources.
🔍 What makes Dateno stand out?
✅ Extensive dataset collection – 20M+ datasets indexed, aiming for 30M.
✅ Advanced filtering – Search by dataset owner, geography, topic, and more.
✅ AI-powered search – Recognizes semantic relationships (DOI, geolocation).
✅ API-first approach – Seamless integration into analytics & ML pipelines.
✅ High-quality, ad-free data – Focused on clean, structured, and trustworthy datasets.
💡 What’s next?
🔹 Expanding the dataset index to cover even more industries & research fields.
🔹 Improving search quality & user experience.
🔹 Enhancing AI-driven search for more relevant results.
🔹 Adding new API capabilities for seamless integration.
🔹 Launching tools to help professionals derive deeper insights.
Dateno is more than a search engine – it’s an ecosystem built to make data discovery effortless. 🌍
Join us and experience the next level of fast, precise, and integrated dataset search!
👉 Learn more: dateno.io
📩 Contact us: dateno@dateno.io
#Dateno #DataSearch #MachineLearning #BigData #AI
We’re excited to announce that Dateno has officially transitioned to full-scale industrial operation! 🎉 Now, data professionals worldwide can seamlessly access over 20 million high-quality datasets with advanced filtering, API integration, and continuously updated sources.
🔍 What makes Dateno stand out?
✅ Extensive dataset collection – 20M+ datasets indexed, aiming for 30M.
✅ Advanced filtering – Search by dataset owner, geography, topic, and more.
✅ AI-powered search – Recognizes semantic relationships (DOI, geolocation).
✅ API-first approach – Seamless integration into analytics & ML pipelines.
✅ High-quality, ad-free data – Focused on clean, structured, and trustworthy datasets.
💡 What’s next?
🔹 Expanding the dataset index to cover even more industries & research fields.
🔹 Improving search quality & user experience.
🔹 Enhancing AI-driven search for more relevant results.
🔹 Adding new API capabilities for seamless integration.
🔹 Launching tools to help professionals derive deeper insights.
Dateno is more than a search engine – it’s an ecosystem built to make data discovery effortless. 🌍
Join us and experience the next level of fast, precise, and integrated dataset search!
👉 Learn more: dateno.io
📩 Contact us: dateno@dateno.io
#Dateno #DataSearch #MachineLearning #BigData #AI
Ожидаемая новость, Coalesce купили каталог данных CastorDoc [1], это был один из наиболее интересных каталогов корпоративных данных или их ещё можно называть каталогами метаданных. CastorDoc сделали сильный акцент на использовании ИИ и автоматизации документирования и контроля качества данных.
Ссылки:
[1] https://coalesce.io/company-news/coalesce-expands-data-platform-castordoc-acquisition-introduces-catalog/
#dataengineering #data #datacatalogs
Ссылки:
[1] https://coalesce.io/company-news/coalesce-expands-data-platform-castordoc-acquisition-introduces-catalog/
#dataengineering #data #datacatalogs
Культура документов Amazon
По моему отличный текст [1] от Джастина Гаррисона о том как устроена работа с документами в Amazon и том как они связаны с совещаниями. Если кратко то документы лежат в основе совещаний и часть совещания от 10 до 30 минут тратится на чтение документа. Если документа нет, то совещание не проводится.
Мне сама идея и подход нравятся, полезен и сам текст и описываемая в нём практика.
Ссылки:
[1] https://justingarrison.com/blog/2021-03-15-the-document-culture-of-amazon/
#culture #howto #ideas #management #documents
По моему отличный текст [1] от Джастина Гаррисона о том как устроена работа с документами в Amazon и том как они связаны с совещаниями. Если кратко то документы лежат в основе совещаний и часть совещания от 10 до 30 минут тратится на чтение документа. Если документа нет, то совещание не проводится.
Мне сама идея и подход нравятся, полезен и сам текст и описываемая в нём практика.
Ссылки:
[1] https://justingarrison.com/blog/2021-03-15-the-document-culture-of-amazon/
#culture #howto #ideas #management #documents
Justin Garrison
The Document Culture of Amazon
A look at Amazon's culture of writing and reading
Продолжаю время от времени публиковать открытые наборы данных. В этот раз это слепок метаданных с репозитория публикации научных работ СПбГУ (dspace.spbu.ru) [1]
Датасет охватывает более 105 тысяч документов и включает все метаданные что были опубликованы на этом портале, метаданные собирались через API Dspace на котором он построен.
Я откладывал его публикацию к другим датасетам полезным для библиографов и тех кто работает с метаданными по научным работам, но, оказалось что совсем недавно портал dspace.spbu.ru перестал работать. По слухам на ресурсы СПбГУ была большая хакерская атака и часть ресурсов потеряна. Хочется надеяться что у них есть бэкапы (а если нет то гильотина для тех кто должен был их сделать). Подчеркну что этот датасет тексты документов не включает, только ссылки на них и метаданные, поэтому если у портала бэкапов нет, то это потеря.
Ссылки:
[1] https://hubofdata.ru/dataset/dspace-spbgu
#opendata #russia #bibliometry #datasets
Датасет охватывает более 105 тысяч документов и включает все метаданные что были опубликованы на этом портале, метаданные собирались через API Dspace на котором он построен.
Я откладывал его публикацию к другим датасетам полезным для библиографов и тех кто работает с метаданными по научным работам, но, оказалось что совсем недавно портал dspace.spbu.ru перестал работать. По слухам на ресурсы СПбГУ была большая хакерская атака и часть ресурсов потеряна. Хочется надеяться что у них есть бэкапы (а если нет то гильотина для тех кто должен был их сделать). Подчеркну что этот датасет тексты документов не включает, только ссылки на них и метаданные, поэтому если у портала бэкапов нет, то это потеря.
Ссылки:
[1] https://hubofdata.ru/dataset/dspace-spbgu
#opendata #russia #bibliometry #datasets
Я, кстати, поначалу не обратил внимание, а на сайте Пр-ва РФ то есть появилась в феврале страница Основные показатели и мероприятия национального проекта «Экономика данных и цифровая трансформация государства» [1] и там, собственно, показатели и есть.
Показателей много, разных, какие-то мне лично нравятся, какие-то категорически не нравятся. Но об этом как-нибудь в другой раз. А вот показатель доступности 500 датасетов вызывает, честно говоря, смех.
Число 500 актуально только если это так называемые high-value datasets, термин есть в законах Евросоюза, но нет ничего в российских НПА. Это когда данные особо ценные, когда известно какие это данные и дорожная карта по их публикации. Хорошая штука, когда осмысленна.
А просто 500 наборов я лично могу собрать из разного мусора за день, а из хороших данных за месяц.
На закрытом портале data.gov.ru было около 20 тысяч датасетов (хреновых, но количество же тут), на портале открытых данных Москвы около 800 датасетов и так далее.
В общем это даже не низковисящие плоды, а не пойми что.
И тут, в который раз, не могу не отметить значительную закрытость этого Пр-ва по сравнению с предыдущими. Причём это вопрос не 2022 года, а гораздо более ранний. Года с 2020 если не раньше. Почти по всем нац проектам материалы доступны в пресс релизах, выступлениях и, с огромными задержками или совсем недоступны, содержательные документы.
У меня уже много лет нет рабочей необходимости копаться в структуре госрасходов, мероприятиях и контрактах и показателях результативности гос-ва. Но не отмечать очевидное тут сложно.
Ссылки:
[1] http://government.ru/info/54314/
#opendata #government #russia #spending
Показателей много, разных, какие-то мне лично нравятся, какие-то категорически не нравятся. Но об этом как-нибудь в другой раз. А вот показатель доступности 500 датасетов вызывает, честно говоря, смех.
Число 500 актуально только если это так называемые high-value datasets, термин есть в законах Евросоюза, но нет ничего в российских НПА. Это когда данные особо ценные, когда известно какие это данные и дорожная карта по их публикации. Хорошая штука, когда осмысленна.
А просто 500 наборов я лично могу собрать из разного мусора за день, а из хороших данных за месяц.
На закрытом портале data.gov.ru было около 20 тысяч датасетов (хреновых, но количество же тут), на портале открытых данных Москвы около 800 датасетов и так далее.
В общем это даже не низковисящие плоды, а не пойми что.
И тут, в который раз, не могу не отметить значительную закрытость этого Пр-ва по сравнению с предыдущими. Причём это вопрос не 2022 года, а гораздо более ранний. Года с 2020 если не раньше. Почти по всем нац проектам материалы доступны в пресс релизах, выступлениях и, с огромными задержками или совсем недоступны, содержательные документы.
У меня уже много лет нет рабочей необходимости копаться в структуре госрасходов, мероприятиях и контрактах и показателях результативности гос-ва. Но не отмечать очевидное тут сложно.
Ссылки:
[1] http://government.ru/info/54314/
#opendata #government #russia #spending
Для тех кто ещё не столкнулся, но скоро столкнётся с "атаками" AI скрейпботов на сайты, Anubis [1] [2] открытый код который помогает отбиваться от некоторых поисковых систем препятствуя любому индексированию сайта.
Почему это важно? Потому что несколько AI ботов уже нюкнули множество проектов с открытым кодом [3] и те отбиваются от них Анубисом и пытаются ещё и добиться компенсации за DDoS атаки.
Ссылки:
[1] https://github.com/TecharoHQ/anubis
[2] https://anubis.techaro.lol/
[3] https://thelibre.news/foss-infrastructure-is-under-attack-by-ai-companies/
#opensource #ai #scraping
Почему это важно? Потому что несколько AI ботов уже нюкнули множество проектов с открытым кодом [3] и те отбиваются от них Анубисом и пытаются ещё и добиться компенсации за DDoS атаки.
Ссылки:
[1] https://github.com/TecharoHQ/anubis
[2] https://anubis.techaro.lol/
[3] https://thelibre.news/foss-infrastructure-is-under-attack-by-ai-companies/
#opensource #ai #scraping
Ещё одна любопытная СУБД для аналитики GreptimeDB [1] на высоких позициях в метриках JSONBench [2] и похоже что хорошо годится для сохранения логов и как JSON хранилище.
Существует в форме открытого кода, коммерческого продукта и облака. Открытый код под лицензией Apache 2.0
Не удалось найти какой движок внутри, похоже какой-то собственный.
Продукт относительно новый, менее 2-х лет, но с венчурным финансированием в 2022 и 2023 годах.
Даже странно что он не так уж популярен.
Ссылки:
[1] https://greptime.com
[2] https://jsonbench.com
#opensource #rdbms #data #datatools
Существует в форме открытого кода, коммерческого продукта и облака. Открытый код под лицензией Apache 2.0
Не удалось найти какой движок внутри, похоже какой-то собственный.
Продукт относительно новый, менее 2-х лет, но с венчурным финансированием в 2022 и 2023 годах.
Даже странно что он не так уж популярен.
Ссылки:
[1] https://greptime.com
[2] https://jsonbench.com
#opensource #rdbms #data #datatools
В рубрике закрытых данных в РФ последнее обновление статистических сборников Минздрава РФ было за 2018 год [1] и там не то чтобы открытые данные, а просто таблицы внутри файлов MS Word (.doc), спасибо что хотя бы не PDF документы и что хотя бы там таблицы, а не просто графики.
Вся остальная статистика рассеяна по их сайту в самых разных форматах [2].
Ссылки:
[1] https://minzdrav.gov.ru/ministry/61/22/stranitsa-979/statisticheskie-i-informatsionnye-materialy/statisticheskie-materialy
[2] https://minzdrav.gov.ru/search?q=%D1%81%D1%82%D0%B0%D1%82%D0%B8%D1%81%D1%82%D0%B8
#opendata #closeddata #datasets #data
Вся остальная статистика рассеяна по их сайту в самых разных форматах [2].
Ссылки:
[1] https://minzdrav.gov.ru/ministry/61/22/stranitsa-979/statisticheskie-i-informatsionnye-materialy/statisticheskie-materialy
[2] https://minzdrav.gov.ru/search?q=%D1%81%D1%82%D0%B0%D1%82%D0%B8%D1%81%D1%82%D0%B8
#opendata #closeddata #datasets #data