Сижу читаю резюме что нам присылают на вакансию дата инженера в Инфокультуре, и схожая потребность с акцентом на AI есть у нас в Dateno, читаю посты разных близких и дальних знакомых про поиск работы для тех кто overqualified (не могу по русски подобрать точный перевод) и волей-не волей задумываюсь о том как поменялся рынок труда за эти годы.
Меня это всё наводит на следующие мысли:
1. Люди без навыков научились писать резюме и себя продавать, а люди с навыками чаще нет чем да. Но, на самом деле, рецепт хорошего резюме очень просто. Это 1 страница, последний работодатель, навыки, хобби. В работах на последнего работодателя кратко пунктами самые сложные задачи которые приходилось решать. И всё. По опыту чтения резюме скажу что такая форма не остаётся незамеченной. Больше 2-х страниц имеет смысл только если у 10+ лет опыта, претендуете на серьёзные позиции, скорее руководящие.
2. По ощущением многие кто жалуются что их не берут из-за того что они overqualified пропустили тот момент когда надо было уходить в открытие своего дела, консалтинг и тд. Вообще же когда квалифицированный человек ищет работу ниже своей квалификации, конечно, это вызывает резонные вопросы, "как так получилось?".
3. В ИТ сфере, могу сказать как работодатель, все вот эти курсы типа SkillBox, SkillFactory, это даже не флажок, а как красная тряпка. Разного рода развлекательных курсов стало дофига и цели большинства - выжать денег из тех кто сомневается в себе. Эксплуатация неуверенности в себе, без итоговой пользы. Если Вы их проходили чисто для себя, не забывайте что это не плюс в резюме для серьёзных работодателей.
4. Если разработчик ищет работу без профиля на Github/Gitlab с хотя бы несколькими хорошо оформленными репозиториями, то он не ищет работу, а симулирует ну или чем-то другим не очень приличным занимается. Потому что даже если твои последние 5+ лет работы были насекретных проектах по разработке AI вирусов для анальных зондов инопланетных захватчиков/ законспирированных разведчиков в непубличных проектах, не требуется много времени чтобы сделать личный пэт-проект и показать владение инструментами и понимание основ оформления кода.
И, наконец, именно в ИТ профильное образование критично и важно только от ограниченного числа ведущих универов. В остальных случаях при наличии индустриального опыта образование очень вторично.
#thoughts #it #jobs
Меня это всё наводит на следующие мысли:
1. Люди без навыков научились писать резюме и себя продавать, а люди с навыками чаще нет чем да. Но, на самом деле, рецепт хорошего резюме очень просто. Это 1 страница, последний работодатель, навыки, хобби. В работах на последнего работодателя кратко пунктами самые сложные задачи которые приходилось решать. И всё. По опыту чтения резюме скажу что такая форма не остаётся незамеченной. Больше 2-х страниц имеет смысл только если у 10+ лет опыта, претендуете на серьёзные позиции, скорее руководящие.
2. По ощущением многие кто жалуются что их не берут из-за того что они overqualified пропустили тот момент когда надо было уходить в открытие своего дела, консалтинг и тд. Вообще же когда квалифицированный человек ищет работу ниже своей квалификации, конечно, это вызывает резонные вопросы, "как так получилось?".
3. В ИТ сфере, могу сказать как работодатель, все вот эти курсы типа SkillBox, SkillFactory, это даже не флажок, а как красная тряпка. Разного рода развлекательных курсов стало дофига и цели большинства - выжать денег из тех кто сомневается в себе. Эксплуатация неуверенности в себе, без итоговой пользы. Если Вы их проходили чисто для себя, не забывайте что это не плюс в резюме для серьёзных работодателей.
4. Если разработчик ищет работу без профиля на Github/Gitlab с хотя бы несколькими хорошо оформленными репозиториями, то он не ищет работу, а симулирует ну или чем-то другим не очень приличным занимается. Потому что даже если твои последние 5+ лет работы были на
И, наконец, именно в ИТ профильное образование критично и важно только от ограниченного числа ведущих универов. В остальных случаях при наличии индустриального опыта образование очень вторично.
#thoughts #it #jobs
В рубрике интересных проектов на данных Open Syllabus [1] проект по агрегации (скрейпингу) учебных программ по всему миру и составлению рейтингов издателей, авторов, книг популярных в разных учебных дисциплинах.
Проект изначально некоммерческий создан исследователями Колумбийского университета, сейчас поддерживается одноимённой НКО и включает общедоступные функции и интерфейсы и аналитику за платную подписку.
Важная особенность - это охват только англоязычной литературы, зато охват очень широкий. На конец марта 2025 года там были данные по :
- 5 691 университету/школе
- 94 076 издателям
- 1 911 596 авторам
- почти 3 миллионам книг и публикаций из которых 1 миллион книг и около 2 миллионов статей
Самая популярная книга глобально - это Calculus авторством James Stewart, а, к примеру, в компьютерных науках это Introduction to Algorithms за авторством T. H. Corman.
Из минусов - создатели проекта явным образом скрыли датасеты которые раньше отдавали и API для доступа к материалам, хотя оно точно было [2], и закрыли код, есть лишь только его остатки за 2016 год [3].
Тем не менее проект остаётся интересным и полезным. Аналогичные проекты на других языках: немецком, испанском, русском, французском и других были бы востребованы.
Ссылки:
[1] https://www.opensyllabus.org
[2] https://johnskinnerportfolio.com/blog/ospapi.html
[3] https://github.com/davidmcclure/open-syllabus-project
#syllabus #openprojects #analytics #dataviz
Проект изначально некоммерческий создан исследователями Колумбийского университета, сейчас поддерживается одноимённой НКО и включает общедоступные функции и интерфейсы и аналитику за платную подписку.
Важная особенность - это охват только англоязычной литературы, зато охват очень широкий. На конец марта 2025 года там были данные по :
- 5 691 университету/школе
- 94 076 издателям
- 1 911 596 авторам
- почти 3 миллионам книг и публикаций из которых 1 миллион книг и около 2 миллионов статей
Самая популярная книга глобально - это Calculus авторством James Stewart, а, к примеру, в компьютерных науках это Introduction to Algorithms за авторством T. H. Corman.
Из минусов - создатели проекта явным образом скрыли датасеты которые раньше отдавали и API для доступа к материалам, хотя оно точно было [2], и закрыли код, есть лишь только его остатки за 2016 год [3].
Тем не менее проект остаётся интересным и полезным. Аналогичные проекты на других языках: немецком, испанском, русском, французском и других были бы востребованы.
Ссылки:
[1] https://www.opensyllabus.org
[2] https://johnskinnerportfolio.com/blog/ospapi.html
[3] https://github.com/davidmcclure/open-syllabus-project
#syllabus #openprojects #analytics #dataviz
В рубрике как это устроено у них портал данных Humanitarian Data Exchange [1] это один из порталов открытых данных ООН, он был создан Управлением ООН по координации гуманитарных вопросов для публикации данных связанных и значимых для решения глобальных и региональных гуманитарных кризисов и для координации множества организаций помогающих в предупреждении катастроф и минимизации последствий.
Важное их отличие от других порталов открытых данных - это наличие событийного разреза. Например, в момент начала землетрясения в Мьянме они создали соответствующую страницу события [2] где собраны, на сегодня, 20 наборов данных связанных с Мьянмой. Например, оценка масштабов повреждения зданий [3] с помощью AI на основе анализа спутниковых снимков до и после землетрясения от Microsoft AI Labs или вот данные о финансировании [4] и донорах для организаций участвующих в ликвидации последствий.
Ссылки:
[1] https://data.humdata.org/
[2] https://data.humdata.org/event/myanmar-earthquake
[3] https://data.humdata.org/dataset/myanmar-earthquake-building-damage-assessment-from-3-28-2025
[4] https://data.humdata.org/dataset/fts-requirements-and-funding-data-for-myanmar
#opendata #myanmar #earthquake #ocha #datacatalogs
Важное их отличие от других порталов открытых данных - это наличие событийного разреза. Например, в момент начала землетрясения в Мьянме они создали соответствующую страницу события [2] где собраны, на сегодня, 20 наборов данных связанных с Мьянмой. Например, оценка масштабов повреждения зданий [3] с помощью AI на основе анализа спутниковых снимков до и после землетрясения от Microsoft AI Labs или вот данные о финансировании [4] и донорах для организаций участвующих в ликвидации последствий.
Ссылки:
[1] https://data.humdata.org/
[2] https://data.humdata.org/event/myanmar-earthquake
[3] https://data.humdata.org/dataset/myanmar-earthquake-building-damage-assessment-from-3-28-2025
[4] https://data.humdata.org/dataset/fts-requirements-and-funding-data-for-myanmar
#opendata #myanmar #earthquake #ocha #datacatalogs
Читаю работу OpenAlex: End-to-End Process for Topic Classification [1] от команды графа по научным работам OpenAlex о том как они классифицируют научные работы по каким темам и там у них есть иерархическая модель разметки работ по уровням Domains -> Fields -> Subfields -> Topics, причём тем (topics) довольно много и они привязаны все к статьям в Википедии. А вообще они построили свою классификацию через идентификацию макрокластеров [3] сообществ через цитирование. Большая и интересная тема, с понятной сложностью и результатами.
Я на всё это смотрю с точки зрения улучшения классификации датасетов в Dateno [4]. Сейчас в Dateno используется два классификатора. Европейский Data Theme [5] используемый в их портале data.europe.eu, но у него всего 13 тем очень верхнеуровневых и тематические категории (topic category) из ISO 19115 [6] которых 19 штук и тоже без иерархии. Тематические категории используются в каталогах данных на базе Geonetwork и в программе INSPIRE Евросоюза и они применимы к геоданным, в первую очередь.
Это одна из особенностей Dateno, да и остальных индексаторов датасетов. По разным блокам и типам каталогов данных свои тематические категории, не связанные между собой и кроме обычных датасетов и геоданных есть ещё и большие банки статистических данных живущих по своим правилам и своим группам.
Сложностей несколько:
- в отличие от научных работ здесь нет цитирования или аналогичных связей, значительно сложнее строить смысловые кластеры. Их можно строить на названиях, оригинальных тематиках в первоисточнике, тематиках самого первоисточника, но не на цитировании и не на связях.
- язык науки в мире почти весь английский, а там где не английский то французский, но в целом все исходят из того что он английский. А среди датасетов много данных на самых разных языках. Тут как раз проще со статистикой которая почти всегда имеет английскую версию и сложнее с остальным.
Тем не менее своя классификация необходима и её идеальные параметры были бы когда одна тема охватывает не более 10 тысяч наборов данных или временных рядов. То есть если мы имеем базу в 22 миллиона набора датасетов, то тематик должно быть не менее 2.2 тысяч, а ещё лучше не менее 5 тысяч. Тогда пользователь получает возможность быстро сузить поиск до нужной ему темы. Тогда у Dateno появляется ещё одна важная модель его применения, это подписка на появление нужных данных в одной или нескольких узких областях избегая ложных срабатываний при ключевых словах.
Без ИИ тут, кстати, не обойтись и ребята из OpenAlex использовали модель GPT 3.5 Turbo [7] для кластеризации научных работ и подбора названий выявленным кластерам.
Ссылки:
[1] https://docs.google.com/document/d/1bDopkhuGieQ4F8gGNj7sEc8WSE8mvLZS/edit?tab=t.0
[2] https://docs.google.com/spreadsheets/d/1v-MAq64x4YjhO7RWcB-yrKV5D_2vOOsxl4u6GBKEXY8/edit?gid=983250122#gid=983250122
[3] https://zenodo.org/records/10560276
[4] https://dateno.io
[5] https://op.europa.eu/en/web/eu-vocabularies/concept-scheme/-/resource?uri=http://publications.europa.eu/resource/authority/data-theme
[6] https://apps.usgs.gov/thesaurus/term-simple.php?thcode=15&code=000
[7] https://www.leidenmadtrics.nl/articles/an-open-approach-for-classifying-research-publications
#opendata #opensource #dateno #thoughts
Я на всё это смотрю с точки зрения улучшения классификации датасетов в Dateno [4]. Сейчас в Dateno используется два классификатора. Европейский Data Theme [5] используемый в их портале data.europe.eu, но у него всего 13 тем очень верхнеуровневых и тематические категории (topic category) из ISO 19115 [6] которых 19 штук и тоже без иерархии. Тематические категории используются в каталогах данных на базе Geonetwork и в программе INSPIRE Евросоюза и они применимы к геоданным, в первую очередь.
Это одна из особенностей Dateno, да и остальных индексаторов датасетов. По разным блокам и типам каталогов данных свои тематические категории, не связанные между собой и кроме обычных датасетов и геоданных есть ещё и большие банки статистических данных живущих по своим правилам и своим группам.
Сложностей несколько:
- в отличие от научных работ здесь нет цитирования или аналогичных связей, значительно сложнее строить смысловые кластеры. Их можно строить на названиях, оригинальных тематиках в первоисточнике, тематиках самого первоисточника, но не на цитировании и не на связях.
- язык науки в мире почти весь английский, а там где не английский то французский, но в целом все исходят из того что он английский. А среди датасетов много данных на самых разных языках. Тут как раз проще со статистикой которая почти всегда имеет английскую версию и сложнее с остальным.
Тем не менее своя классификация необходима и её идеальные параметры были бы когда одна тема охватывает не более 10 тысяч наборов данных или временных рядов. То есть если мы имеем базу в 22 миллиона набора датасетов, то тематик должно быть не менее 2.2 тысяч, а ещё лучше не менее 5 тысяч. Тогда пользователь получает возможность быстро сузить поиск до нужной ему темы. Тогда у Dateno появляется ещё одна важная модель его применения, это подписка на появление нужных данных в одной или нескольких узких областях избегая ложных срабатываний при ключевых словах.
Без ИИ тут, кстати, не обойтись и ребята из OpenAlex использовали модель GPT 3.5 Turbo [7] для кластеризации научных работ и подбора названий выявленным кластерам.
Ссылки:
[1] https://docs.google.com/document/d/1bDopkhuGieQ4F8gGNj7sEc8WSE8mvLZS/edit?tab=t.0
[2] https://docs.google.com/spreadsheets/d/1v-MAq64x4YjhO7RWcB-yrKV5D_2vOOsxl4u6GBKEXY8/edit?gid=983250122#gid=983250122
[3] https://zenodo.org/records/10560276
[4] https://dateno.io
[5] https://op.europa.eu/en/web/eu-vocabularies/concept-scheme/-/resource?uri=http://publications.europa.eu/resource/authority/data-theme
[6] https://apps.usgs.gov/thesaurus/term-simple.php?thcode=15&code=000
[7] https://www.leidenmadtrics.nl/articles/an-open-approach-for-classifying-research-publications
#opendata #opensource #dateno #thoughts
Полезные ссылки про данные, технологии и не только:
- Towards Inserting One Billion Rows in SQLite Under A Minute [1] заметка 2021 года о том как высокопроизводительно загружать миллиарды строк а базы SQLite. Актуально для всех кто делает высокопроизводительные системы не имея больших бюджетов.
- GROBID [2] переводится как GeneRation Of BIbliographic Data, инструментарий с открытым кодом по извлечению структурированного содержания из PDF файлов, особенно применяется к научным статьям. Активно используется для извлечения библиографических данных.
- Depsy [3] онлайн база цитирования пакетов с открытым кодом в научных статьях. От той же команды что делает OpenAlex. Этот проект более не развивается уже лет 7, а жаль, но исходный код доступен как и API.
- Cadent Open Data [4] раздел с открытыми данных в Cadent, британской газовой компании. Открытые данные прописаны в стратегии цифровизации и отдельный портал с данными [5] которые раскрываются по регуляторным требованиям и инициативами по data sharing
- Schneider Electric Datasets [6] коллекция наборов данных на портале для разработчиков Schneider Electric. В основном данные по энергопотреблению. Бесплатные, но требуют регистрации
Ссылки:
[1] https://avi.im/blag/2021/fast-sqlite-inserts/
[2] https://grobid.readthedocs.io/en/latest/
[3] http://depsy.org
[4] https://cadentgas.com/reports/open-data
[5] https://cadentgas.opendatasoft.com/pages/welcome/
[6] https://exchange.se.com/develop/developer-resources?source=developerResources&developerResources=Datasets
#opendata #opensource #readings
- Towards Inserting One Billion Rows in SQLite Under A Minute [1] заметка 2021 года о том как высокопроизводительно загружать миллиарды строк а базы SQLite. Актуально для всех кто делает высокопроизводительные системы не имея больших бюджетов.
- GROBID [2] переводится как GeneRation Of BIbliographic Data, инструментарий с открытым кодом по извлечению структурированного содержания из PDF файлов, особенно применяется к научным статьям. Активно используется для извлечения библиографических данных.
- Depsy [3] онлайн база цитирования пакетов с открытым кодом в научных статьях. От той же команды что делает OpenAlex. Этот проект более не развивается уже лет 7, а жаль, но исходный код доступен как и API.
- Cadent Open Data [4] раздел с открытыми данных в Cadent, британской газовой компании. Открытые данные прописаны в стратегии цифровизации и отдельный портал с данными [5] которые раскрываются по регуляторным требованиям и инициативами по data sharing
- Schneider Electric Datasets [6] коллекция наборов данных на портале для разработчиков Schneider Electric. В основном данные по энергопотреблению. Бесплатные, но требуют регистрации
Ссылки:
[1] https://avi.im/blag/2021/fast-sqlite-inserts/
[2] https://grobid.readthedocs.io/en/latest/
[3] http://depsy.org
[4] https://cadentgas.com/reports/open-data
[5] https://cadentgas.opendatasoft.com/pages/welcome/
[6] https://exchange.se.com/develop/developer-resources?source=developerResources&developerResources=Datasets
#opendata #opensource #readings
Для разнообразия, следующим постом опрос Что делать с развитием открытых данных в России? А пока вы ещё не прочитали сам опрос и не начали его проходить, важный вопрос в том что вообще делать. Лично мне, в каком-то смысле, это проще в той части что есть области жизни которым текущая политическая ситуация в РФ не мешает. Не помогает, но и не мешает. И своё любопытство в данных я всегда могу наполнить в Dateno или в Open Data Armenia. Но в России тренды не в развитие открытости. Так что вот такой далее опрос;)
#opendata #russia #polls
#opendata #russia #polls
Что делать с открытыми данными в России чтобы их было больше и они были лучше? (можно несколько ответов)
Final Results
33%
Продолжать убеждать чиновников открывать госданные
38%
Сфокусироваться на открытии данных исследователей и для исследователей
30%
Убеждать бизнес публиковать данные в рамках корп. соцответственности
27%
Вернуться к тому чтобы самим извлекать и публиковать датасеты
30%
Устраивать дататоны (datathons) и премии за создание датасетов активистами
28%
Усилить архивацию данных и не рассчитывать на новое
15%
Тут уже ничего не поделаешь / ничем не поможешь ...
18%
Я тут случайно, просто хочу ответы посмотреть
В качестве регулярных напоминаний, за долгое время я написал немало инструментов с открытым кодом для работы с данными. За что члены команды меня регулярно ругают потому что основная моя работа искать клиентов и профессионалов в команду, но слишком я люблю работать руками, поэтому разного рода инструментов создал много и часть поддерживаю.
- newsworker - библиотека для Python по автоматическому извлечению новостей из веб страниц. Анализирует структуру веб страницы, кластеризует блоки, идентифицирует элементы блоков, парсит даты и создаёт RSS ленту на основе. Написал это много лет назад и до сих пор использую, но уже не обновляю
- qddate - библиотека для Python для парсинга дат в условно любом формате, которые могут быть написаны на 8 языках, в разных стилях и тд. Особенность в том что работает она очень быстро, не использует регулярные выражения, а вместо этого внутри используется библиотека pyparsing. Плюс куча оптимизаций по тому как парсить даты максимально быстро. До сих пор использую, но код практически не обновлялся
- undatum - утилита командной строки для обработки данных в форматах CSV, JSON, NDJSON, Parquet, BSON и др. Изначально была цель сделать аналог xsv для NDJSON. В целом получилось и я ей пользуюсь до сих пор, но с недавних пор чаще использую DuckDB из-за значительно большей производительности. Возможно утилиту переделаю однажды.
- apibackuper - утилита командной строки для архивации API. Странно звучит, но да, утилита через API выгружает все данные последовательным перебором и сохраняет их в виде датасета JSON Lines/NDJSON. Активно используется внутри Dateno для сбора метаданных и в Ruarxive для архивации
- metacrafter - утилита и библиотека для идентификации семантических типов данных. Полезна для выявления смысловых полей в датасетах: адресов, названий компаний, кодов типа ИНН, ОГРН, КПП и тд., а также для идентификации персональных данных. Делал я её относительно недавно, умеет она работать и с файлами и с базами данных. Тоже используется в Dateno
- docx2csv - утилита извлечения таблиц из файлов docx. Очень простая и были планы перенести этот код в универсальный дата конвертер.
- pyiterable - библиотека для Python для потокового чтения дата файлов таких как BSON, JSON, NDJSON, Parquet, ORC, XLS, XLSX и XML в том числе сжатых Gzip, Bzip2, ZStandard и другими компрессорами. Используется внутри metacrafter и undatum.
—
По прошествии лет многие инструменты хочется переделать, а многие устаревают, но их написание часто сильно ускоряет работу с теми данными с которыми я работаю постоянно.
#opensource #data #datatools
- newsworker - библиотека для Python по автоматическому извлечению новостей из веб страниц. Анализирует структуру веб страницы, кластеризует блоки, идентифицирует элементы блоков, парсит даты и создаёт RSS ленту на основе. Написал это много лет назад и до сих пор использую, но уже не обновляю
- qddate - библиотека для Python для парсинга дат в условно любом формате, которые могут быть написаны на 8 языках, в разных стилях и тд. Особенность в том что работает она очень быстро, не использует регулярные выражения, а вместо этого внутри используется библиотека pyparsing. Плюс куча оптимизаций по тому как парсить даты максимально быстро. До сих пор использую, но код практически не обновлялся
- undatum - утилита командной строки для обработки данных в форматах CSV, JSON, NDJSON, Parquet, BSON и др. Изначально была цель сделать аналог xsv для NDJSON. В целом получилось и я ей пользуюсь до сих пор, но с недавних пор чаще использую DuckDB из-за значительно большей производительности. Возможно утилиту переделаю однажды.
- apibackuper - утилита командной строки для архивации API. Странно звучит, но да, утилита через API выгружает все данные последовательным перебором и сохраняет их в виде датасета JSON Lines/NDJSON. Активно используется внутри Dateno для сбора метаданных и в Ruarxive для архивации
- metacrafter - утилита и библиотека для идентификации семантических типов данных. Полезна для выявления смысловых полей в датасетах: адресов, названий компаний, кодов типа ИНН, ОГРН, КПП и тд., а также для идентификации персональных данных. Делал я её относительно недавно, умеет она работать и с файлами и с базами данных. Тоже используется в Dateno
- docx2csv - утилита извлечения таблиц из файлов docx. Очень простая и были планы перенести этот код в универсальный дата конвертер.
- pyiterable - библиотека для Python для потокового чтения дата файлов таких как BSON, JSON, NDJSON, Parquet, ORC, XLS, XLSX и XML в том числе сжатых Gzip, Bzip2, ZStandard и другими компрессорами. Используется внутри metacrafter и undatum.
—
По прошествии лет многие инструменты хочется переделать, а многие устаревают, но их написание часто сильно ускоряет работу с теми данными с которыми я работаю постоянно.
#opensource #data #datatools
GitHub
GitHub - ivbeg/newsworker: Advanced news feeds extractor and finder library. Helps to automatically extract news from websites…
Advanced news feeds extractor and finder library. Helps to automatically extract news from websites without RSS/ATOM feeds - ivbeg/newsworker
Можно подвести и прокомментировать итоги опроса, всего 216 проголосовавших это неплохо для такой не самой широкой темы.
- Большинство поддерживают большую открытость данных для исследователей и я тут соглашусь, это важная тема во всех смыслах, развитая во всех странах где есть живая наука и, почему-то, запущенная в России.
- В том чтобы продолжать убеждать далее чиновников главная сложность в том что госинициативы, либо мертвы вспомним data.gov.ru, либо постепенно гибнут, вспомним opendata.mkrf.ru или бессмысленны, вспомним многие региональные порталы. Нужна точка опоры, а этой точки опоры сейчас нет(
- Дататоны и премии - это то о чём я давно думаю и как только будет окончательно понятен формат и темы мы такое сделаем от Инфокультуры и партнёров. Если, кстати, Вы готовы быть спонсорами таких дататонов и премий или видите модели партнёрства по ним - напишите мне
- Убедить бизнес публиковать данные - это давняя моя цель, пока плоходостижимая потому как российский бизнес до открытого кода то дозрел не так давно, а с данными ещё сложнее. Но руки здесь опускать не стоит
В целом опрос на удивление оптимистичный, я думал что гораздо больше читателей отреагируют что "уже ничего не исправить".
#opendata
- Большинство поддерживают большую открытость данных для исследователей и я тут соглашусь, это важная тема во всех смыслах, развитая во всех странах где есть живая наука и, почему-то, запущенная в России.
- В том чтобы продолжать убеждать далее чиновников главная сложность в том что госинициативы, либо мертвы вспомним data.gov.ru, либо постепенно гибнут, вспомним opendata.mkrf.ru или бессмысленны, вспомним многие региональные порталы. Нужна точка опоры, а этой точки опоры сейчас нет(
- Дататоны и премии - это то о чём я давно думаю и как только будет окончательно понятен формат и темы мы такое сделаем от Инфокультуры и партнёров. Если, кстати, Вы готовы быть спонсорами таких дататонов и премий или видите модели партнёрства по ним - напишите мне
- Убедить бизнес публиковать данные - это давняя моя цель, пока плоходостижимая потому как российский бизнес до открытого кода то дозрел не так давно, а с данными ещё сложнее. Но руки здесь опускать не стоит
В целом опрос на удивление оптимистичный, я думал что гораздо больше читателей отреагируют что "уже ничего не исправить".
#opendata
Forwarded from Координация профанации
Please open Telegram to view this post
VIEW IN TELEGRAM
Совсем не первоапрельская новость, закрывается проект openSNP [1] о чём пишет его создатель у себя в блоге [2]. Это была и пока ещё есть открытая база расшифрованных геномов позволявшая искать родственников, делиться результатами расшифровки генома с другими, а исследователям ещё и находить связи между генотипом и фенотипом.
Причин закрытия проекта множество, важнейшая озвучиваемая автором - это всё большее внимание к этим данным со стороны авторитарных властей. Важно то что пользователи могли делиться добровольно своими данными с исследователями.
В рассуждениях автора стоит ещё и почитать об общем кризисе открытых проектов - открытого кода, репозиториев, Википедии и др. Причины разные, но связанные - это хайп вокруг ИИ, неэтичные ИИ боты и др.
Я к этим мыслям добавлю лишь то что о кризисе движений за открытость слышу уже давно и оно звучит именно в контекстах отступления от демократии и том что "ИИ пожирает всё". Это демотивирует многих
А судьба проекта openSNP, безусловно, печалит.
Ссылки:
[1] https://opensnp.org
[2] https://tzovar.as/sunsetting-opensnp/
#opendata #openaccess #genetics #data
Причин закрытия проекта множество, важнейшая озвучиваемая автором - это всё большее внимание к этим данным со стороны авторитарных властей. Важно то что пользователи могли делиться добровольно своими данными с исследователями.
В рассуждениях автора стоит ещё и почитать об общем кризисе открытых проектов - открытого кода, репозиториев, Википедии и др. Причины разные, но связанные - это хайп вокруг ИИ, неэтичные ИИ боты и др.
Я к этим мыслям добавлю лишь то что о кризисе движений за открытость слышу уже давно и оно звучит именно в контекстах отступления от демократии и том что "ИИ пожирает всё". Это демотивирует многих
А судьба проекта openSNP, безусловно, печалит.
Ссылки:
[1] https://opensnp.org
[2] https://tzovar.as/sunsetting-opensnp/
#opendata #openaccess #genetics #data
Какое-то время я рассуждал о том как было бы хорошо если бы был инструмент для очистки и подготовки данных вроде OpenRefine, но более производительным движком внутри. Потому что OpenRefine хорошая штука, но с собственным движком на Java по работе с данными в памяти и всеми вытекающими из этого ограничениями на размеры датасетов. По личному опыту датасет в несколько гигабайт он уже тянет с трудом, на "стандартном настольном железе".
И вот вижу первый такой продукт, Coco Alemana [1] настольное приложение для очистки данных с DuckDB в качестве внутреннего движка. Обещают что работает с файлами до 50ГБ и нативную поддержку Parquet. Чем-то похоже на недавно появившийся DuckDB UI, но с акцентами на чистке и обработке данных.
Из дополнительных плюсов - быстрый поиск по данным и UI к базам данных.
Из минусов:
- работает только на Mac OS X, так что проверить лично смогут пока только маководы
- открытого кода нет, скорее это будет коммерческий продукт в будущем
Ссылки:
[1] https://www.cocoalemana.com
#duckdb #data #datatools #dataquality
И вот вижу первый такой продукт, Coco Alemana [1] настольное приложение для очистки данных с DuckDB в качестве внутреннего движка. Обещают что работает с файлами до 50ГБ и нативную поддержку Parquet. Чем-то похоже на недавно появившийся DuckDB UI, но с акцентами на чистке и обработке данных.
Из дополнительных плюсов - быстрый поиск по данным и UI к базам данных.
Из минусов:
- работает только на Mac OS X, так что проверить лично смогут пока только маководы
- открытого кода нет, скорее это будет коммерческий продукт в будущем
Ссылки:
[1] https://www.cocoalemana.com
#duckdb #data #datatools #dataquality
Что я понял про дата инженерию за N лет работы с данными:
1. Из всех ресурсов всегда более всего, почти всегда, нехватает места для хранения и каналов для передачи данных. А когда начинает хватать, то потребности вырастают
2 Держи данные сжатыми, желательно всегда, но выбирая между способами сжатия выбирай те что позволяют использовать данные при потоковом разжимании данных.
3. Всегда имей архивную копию данных которые когда либо использовались. Если только нет юридических ограничений и ограничения в хранилищах не припёрли жёстко к стенке.
4. Не документировать данные тяжкий грех. Большинство патологические тяжкие грешники.
5. Если ты не платишь за данные поставщику они могут исчезнуть из доступа в любой момент. Если платишь то тоже, но реже и можно быстрее отреагировать.
6. Инструментарий очень быстро меняется, зацикливаться на инструментах 10-15 летней давности опасно для потери квалификации.
7. Все ненавидят облака, но жрут этот кактус. Иногда надо заставлять других этот кактус есть . Пользователей жалко, но всё идет туда.
8. Владей хотя бы одним ETL/ELT инструментом хорошо и ещё 2-3 хотя бы базово.
9. Данные всегда грязные. С небольшими табличками аналитики могут справиться сами, а большие требуют навыков дата инженеров.
10. Командная строка имеет значение (с). Многое работает значительно быстрее и эффективнее с командной строки.
Добавляйте ваши пункты😜
#dataengineering #thoughts
1. Из всех ресурсов всегда более всего, почти всегда, нехватает места для хранения и каналов для передачи данных. А когда начинает хватать, то потребности вырастают
2 Держи данные сжатыми, желательно всегда, но выбирая между способами сжатия выбирай те что позволяют использовать данные при потоковом разжимании данных.
3. Всегда имей архивную копию данных которые когда либо использовались. Если только нет юридических ограничений и ограничения в хранилищах не припёрли жёстко к стенке.
4. Не документировать данные тяжкий грех. Большинство патологические тяжкие грешники.
5. Если ты не платишь за данные поставщику они могут исчезнуть из доступа в любой момент. Если платишь то тоже, но реже и можно быстрее отреагировать.
6. Инструментарий очень быстро меняется, зацикливаться на инструментах 10-15 летней давности опасно для потери квалификации.
7. Все ненавидят облака, но жрут этот кактус. Иногда надо заставлять других этот кактус есть . Пользователей жалко, но всё идет туда.
8. Владей хотя бы одним ETL/ELT инструментом хорошо и ещё 2-3 хотя бы базово.
9. Данные всегда грязные. С небольшими табличками аналитики могут справиться сами, а большие требуют навыков дата инженеров.
10. Командная строка имеет значение (с). Многое работает значительно быстрее и эффективнее с командной строки.
Добавляйте ваши пункты😜
#dataengineering #thoughts
В рубрике как это устроено у них портал открытых данных Франции data.gouv.fr [1]. Всего на портале опубликовано 61 947 набора данных, на 2 апреля 2025 г, а также 338 точек подключения к API к которым предоставлена документация, есть возможность связаться с разработчиками и тд.
Особенность их портала в большом сообществе из 131.4 тысячи зарегистрированных пользователей и 15.1 тысяче дискуссий вокруг опубликованных датасетов и API.
Параллельно с этим они создают портал открытых научных данных entrepot.recherche.data.gouv.fr [2] на базе продукта Dataverse . Там сейчас чуть менее 7 тысяч наборов данных и список постоянно растёт.
Многие команды и компании публикуют свои проекты сделанные на открытых данных Франции в специальном разделе на сайте [3].
Во Франции порталом занимается их национальная команда Etalab, почти все что они делают является открытым кодом и портал открытых данных создан на непривычном ПО - uData, используемом ещё в паре-тройке стран.
Ссылки:
[1] https://www.data.gouv.fr
[2] https://entrepot.recherche.data.gouv.fr
[3] https://www.data.gouv.fr/fr/reuses/
#opendata #datasets #france #data
Особенность их портала в большом сообществе из 131.4 тысячи зарегистрированных пользователей и 15.1 тысяче дискуссий вокруг опубликованных датасетов и API.
Параллельно с этим они создают портал открытых научных данных entrepot.recherche.data.gouv.fr [2] на базе продукта Dataverse . Там сейчас чуть менее 7 тысяч наборов данных и список постоянно растёт.
Многие команды и компании публикуют свои проекты сделанные на открытых данных Франции в специальном разделе на сайте [3].
Во Франции порталом занимается их национальная команда Etalab, почти все что они делают является открытым кодом и портал открытых данных создан на непривычном ПО - uData, используемом ещё в паре-тройке стран.
Ссылки:
[1] https://www.data.gouv.fr
[2] https://entrepot.recherche.data.gouv.fr
[3] https://www.data.gouv.fr/fr/reuses/
#opendata #datasets #france #data
В продолжение портала открытых данных Франции, из его фишек то что можно зарегистрироваться и публиковать свои датасеты. Вот я там разместил реестр каталогов данных из Dateno [1], просто примера ради. Потом могу добавить отдельно API Dateno (но там уже будет не CC-BY лицензия).
Хороший государственный портал открытых данных должен позволять публиковать данные не только госорганами.
Ссылки:
[1] https://www.data.gouv.fr/fr/datasets/data-portals-registry/
#opendata #dateno #datacatalogs
Хороший государственный портал открытых данных должен позволять публиковать данные не только госорганами.
Ссылки:
[1] https://www.data.gouv.fr/fr/datasets/data-portals-registry/
#opendata #dateno #datacatalogs
Ребята из Если быть точным начали публиковать открытые данные в формате Parquet [1] за что их можно похвалить, это правильный выбор. А если кто-то ещё не пользовался данных в этом формате, то самое время это попробовать. У ребят небольшой каталог тщательно отобранных данных и эта их работа и красивая инфографика в канале - это хороший труд, они молодцы.
Ссылки:
[1] https://t.me/tochno_st/476
#opendata #datasets
Ссылки:
[1] https://t.me/tochno_st/476
#opendata #datasets
Telegram
Если быть точным
В нашем каталоге пополнение! Там появились данные о заболеваемости пожилых, бюджеты регионов и новый формат данных PARQUET
Больше года назад мы запустили собственный каталог данных. За это время вышло 35 датасетов — их скачали более 25 тысяч раз. Наборов…
Больше года назад мы запустили собственный каталог данных. За это время вышло 35 датасетов — их скачали более 25 тысяч раз. Наборов…