Ivan Begtin
9.09K subscribers
2.49K photos
4 videos
113 files
5.24K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
Объёмы задач в Dateno у нас постоянно растут, есть потребность в ещё одном Data инженере, с акцентом на конвееры данных, обработку большого числа наборов данных из разных источников. Напомню что Dateno - это международный стартап с командой разбросанной по разным странам и работающий по принципу remote-only, вся команда работает дистанционно.
5
Forwarded from Dateno
Data engineer needed!

We are looking for a data engineer to develop an ambitious modern dataset search engine Dateno (dateno.io). Fully remote

Today the technology stack includes FastAPI, Airflow, MongoDB, Elasticsearch. We use Github + Discord for management.

Our technology stack more https://stackshare.io/dateno/dateno

Responsibilities:
Development and maintaining of Dateno data infrastructure
Preparing, adjusting and monitoring data pipelines
Resolving data quality issues

Requirements:
Experience with Python data stack 1+ year with real product;
Experience with building data pipelines with open source data stack;
Understating data quality management and monitoring;
Knowledge of the data observability issues and frameworks
Experience with REST API;
Knowledge of English at the level of reading technical documentation and basic communication;
Strong technical problem solving skills
Responsibility, ability to work independently.

Pros are:
Data engineering education: MS degree or equivalent industry experience
Experience or willingness to work with NoSQL databases such as MongoDB and Elasticsearch;
Experience and willingness to use modern database engines stack as DuckDB, Clickhouse and e.t.c.
Portfolio - github link with example projects/modules/code/contributions to open source projects;
Love for open data and open source is a definite plus.

Conditions: Full-time, salary based on the results of the interview.

The main thing - compliance with deadlines and the desire to make the world a better place.

Company: Dateno
Contact: dateno@dateno.io
64🤩1
Полезные ссылки про данные, технологии и не только:
- DuckDB XML Extension - расширение для DuckDB для парсинга XML/HTML, пока не пробовал и интересно как он сможет съесть XML в пару пару десятков гигабайт, но выглядит полезно
- remote-jobs - репозиторий с огромным числом IT компаний имеющих вакансии для дистанционной работы. Некоторые компании remote-only, без офисов, в некоторых гибридный подход, в любом случае список полезный для тех кто ищет работу дистанционно
- Embedding User-Defined Indexes in Apache Parquet Files - для тех кто хочет поглубже разобраться с тем что такое Parquet, разбор реализации специализированного индекса внутри Parquet файлов.
- Rethinking CLI interfaces for AI у автора рефлексия о переосмыслении подхода к созданию и развитию утилит командной строки в контексте MCP и LLM. Текст довольно короткий, но здравый
- Edit перевыпуск древнего редактора Edit для MS-DOS переписанного на Rust под множество платформ. Для тех кого пробивает на ностальгию, но у меня лично по Edit'у никакой ностальгии не осталось, он мне не нравился ещё тогда;)

#opensource #ai #datatools
👍832🔥1
Когда я начал смотреть на то как поисковые системы по данным и крупнейшие агрегаторы репозитории устроены изнутри то единственный вывод который напрашивался - все врут! многое недоговаривают

Самое главная проблема о которой не говорят - это data diversity, то насколько у поисковых систем общего типа доступно данных из разных областей и для разных пользователей.

А это важно, потому что всегда есть возможность сделать поисковую систему по какой-либо тематике и выдавать её за просто поисковую систему или просто, скажем так, лукавить с цифрами.

Я расскажу об этом на примере индекса Datacite, их поисковик commons.datacite.org один из крупнейших для научных данных, но надо понимать как он формируется.

Например, в индексе Datacite, я недавно рассказывал, 43 миллиона наборов данных из исследовательских репозиториев. Всё это данные которым были присвоены DOI с помощью самого Datacite или Crossref. 43 миллиона кажется огромным количеством данных, очень и очень много. Когда я анализировал потенциальные источники данных для Dateno я не так то много находил каталогов данных где есть хотя бы миллион наборов данных. Так откуда 43 миллиона?

У меня возникли подозрения которая оправдались. Из 19.8 миллионов наборов данных имеют лишь один источник происхождения, это японский National Institute for Fusion Science которые присвоили DOI этому числу своих экспериментов, каждый из которых назван набором данных и проиндексирован в Datacite. Таким образом можно было бы сказать что Datacite Commons - это поисковик по данным ядерной физики, но никаких специфичных для этой области фильтров в нём не предусмотрено, а все данные имеют почти идентичные название отличающиеся лишь номером эксперимента с префиксом LHD Fast-RF-Spec.

Ещё от 3.5 миллионов наборов данных - это биоразнообразие, из систем GBIF и GBIF совместимых репозиториев. Это отличается от числа датасетов в самом GBIF, там их всего 115 тысяч, а эти самые 3 миллиона формируются из списка occurences (возникновений), фактов регистрации событий в привязке к биологическим видам. Это то что можно отнести к данным, но в терминах GBIF это не набор данных, это occurence.

И тут мы приходим к разнице в терминологии. Внутри Datacite все дата объекты - это наборы данных. Вне зависимости от размера и типа. Поэтому и occurences из GBIF там наборы данных и, к примеру, кристаллографические структуры из Кэмбриджского кристаллографического центра данных - это тоже наборы данных, хотя, по сути, это экспорт единичных объектов из базы данных.

Чтобы было понятнее поясню на примере Википедии. У каждой страницы Википедии есть ссылка на её XML представление. Это как если бы сделать поисковую систему по данным где проиндексировать все статьи Википедии и сказать что у тебя крупнейшая поисковая система/крупнейший каталог данных.

Когда я писал вредные советы для data.gov.ru у меня было немало примеров перед глазами.

Для сравнения, в OpenAIRE это проблему уже, частично, понимают. У них понятие набора данных уже имеет некоторое число подтипов таких как:
- dataset - собственно набор данных
- bioentity - биологическое понятие имеющие машинное представление
- collection - список объектов
- Image - изображения
- Clinical Trial - данные клинических исследований
и так далее

Но все те же проблемы что с Datacite там сохраняются, результаты ядерных экспериментов в отдельный тип там не выделены и National Institute for Fusion Science (NIFS) даже не упоминается как репозиторий (интересно почему?).

Поэтому индексирование научных каталогов данных и их агрегаторов это такая непростая задача с точки зрения их содержания. Многое из того что там содержится не является набором данных в общепринятом понимании, в лучшем случае некоторым подтипом или цифровым объектом. С их помощью мы могли бы в Dateno в очень короткие сроки сказать что у нас на 22 миллиона, в 60 или даже 100 миллионов наборов данных, но достаточно очевидно что для десятков миллионов из них пользователей в мире насчитывалось бы пара сотен человек и у них всех давно есть свои инструменты поиска и работы с этими данными в 2-3 первоисточниках.
👍5🔥431
Universal Tool Calling Protocol (UTCP) спецификация и SDK для тех кто думает об альтернативах MCP. Вместо специальной доработки инструментов они описываются в специальном файле utcp.json и вся взаимодействие с инструментом осуществляется через HTTP/gRPC/cli, с акцентом на то что нет накладных расходов на обращение к инструментам/сервисам.

Подробная документация на сайте utcp.io, но пока нет ни одного LLM провайдера который бы эту спецификацию поддерживал. Вот если будет хотя бы 1-2 то сможет (потенциально) потеснить MCP.

#ai #mcp #utcp #specifications
👍73🙏2
Devising a Strategic Approach to Artificial Intelligence : A Handbook for Policy Makers [1] свежий документ от Всемирного банка в виде руководства для нормотворцев и чиновников по регулированию ИИ.

Почти все примеры там из развивающихся стран и чуть-чуть из развитых, ни одна из стран постсоветского пространства не упоминается.

Выглядит как документ по которому в дальнейшем тот же Всемирный банк или какая-то из поддерживаемых им структур будет создавать AI Government maturity index или что-то вроде этого.

С одной стороны небесполезно, а с другой я столько уже видел похожих документов по другим тематикам.

Ссылки:
[1] https://documents.worldbank.org/en/publication/documents-reports/documentdetail/099060525125542871

#ai #regulation #readings
👍51
Про российский портал открытых данных data.gov.ru я писать в канале почти перестал, почти потому что одно из российских изданий попросило написать авторскую колонку на эту тему и я напишу, причём с тем о чём писал в лонгриде ранее повторяться не буду.

Скажу лишь что все технические проблемы портала - это ничего по сравнению с системной проблемой непонимания у вполне конкретных чиновников того как и какие данные создаются, кто их создаёт и так далее. Даже при всех ограничениях, политических прежде всего, конечно же, есть данные и их много которые востребованы. Но их не будут выкачивать с data.gov.ru потому что их там просто не будет.

Ну вот ещё одну мысль выдал, придётся в колонку хорошо писать чтобы сохранить ощущение новизны😉

#opendata #russia
😁15💯32👍1
Оказывается Яндекс сертифицировался по ISO/IEC 42001:2023 до этого это сделали не так уж много компаний. Amazon AWS в декабре 2024, Microsoft несколько дней назад, Thompson Reuters в марте 2025, Anthropic в январе 2025. В любом случае их немного.

Что важно, нельзя получить сертификат используя чужую облачную LLM, это сертификат на управление ИИ, рисками и тд.
Сертификация по этому стандарту, в любом случае, никого не спасёт от регулирования, но некую планку этической разработки ИИ задаёт.

#ai
👍10🤔2🤣2
Наряду с быстрым развитием ИИ возникают вопросы о его безопасности. Чтобы уменьшить возможные риски, ведущие российские компании, работающие с ИИ, следуют Кодексу этики — принципам для всех, кто связан с созданием, развитием и применением ИИ в России.

Теперь же Яндекс первым в России получил международный сертификат ISO/IEC 42001. Это означает, что компания соблюдает высокие стандарты безопасности и этики при разработке YandexGPT.

Для пользователей это дополнительная гарантия надежности. Для рынка — сигнал, что российские технологии соответствуют мировым требованиям.

Важный шаг в развитии генеративных нейросетей в стране и хороший пример для всей отрасли. Такое ответственное саморегулирование — ключевое качество для компаний, стремящихся стать лидерами в ИИ.
🤣5🌚21👍1
Стандарты работы с данными о которых вы могли ничего ранее не слышать:
- Oxford Common File Layout (OCFL) [1] спецификация описывающая способ хранения цифровых объектов независимо от использующего приложения с прицелом на долгосрочное хранение и использование. Используется, преимущественно, в академических проектах хранения цифровых объектов [2]
- Research Object Crate (RO-Crate) [3] "легковесная" спецификация для упаковки исследовательских данных вместе с метаданными. Отличается большим числом разных профилем под разные научные дисциплины [4]. Стандарт уже довольно зрелый, активно применяется во многих исследовательских проектах.
- The Open Data Product Standard (ODPS) [5] открытый стандарт описания дата продуктов из проекта Bitlol при Linux Foundation. Судя по спецификации всё ещё сыровато [6] и сама подача стандартов мне не очень нравится, я лично больше предпочитаю читать их в W3C стиле, но тем не менее, спецификаций на дата продукты как дата продукты мало. Текущая версия 0.9, явно ещё будет меняться
- The BagIt File Packaging Format (BagIt) [7] стандарт хранения цифровых объектов, в том числе данных, от библиотеки Конгресса США. В 2018 году его приняли как RFC 8493, но и до этого он давно существовал. Стандарт OCFL создавался как доработка BagIt поскольку в BagIt не было предусмотрено версионирование.
- FAIR4ML Metadata Schema [8] спецификация метаданных для описания моделей для машинного обучения, включая расширение для Schema.org. В основе спецификация для публикации кода Codemeta [9] тоже в виде расширения для Schema.org

Ссылки:
[1] https://ocfl.io
[2] https://github.com/OCFL/spec/wiki/Implementation
[3] https://www.researchobject.org/ro-crate/
[4] https://www.researchobject.org/ro-crate/profiles
[5] https://bitol.io/announcing-odps-major-step-toward-standardizing-data-products/
[6] https://github.com/bitol-io/open-data-product-standard/tree/main/docs
[7] https://datatracker.ietf.org/doc/html/rfc8493
[8] https://rda-fair4ml.github.io/FAIR4ML-schema/release/0.1.0/index.html
[9] https://codemeta.github.io/

#openstandards #opensource #readings
8👍2🔥21
Похоже организаторы конференции Dialog по компьютерной лингвистике продолбали потеряли сайт с материалами конференций с 2008 по 2022 годы - www.dialog-21.ru, вместо сайта теперь заглушка, на новом сайте dialogue-conf.org есть материалы только за 2025 год.

Что там случилось неизвестно, но может быть кто-то в контакте с их организаторами и есть возможность материалы восстановить?

#webarchives
4
Я буду изредка разбавлять рассуждения про технологии разным публицистическим оффтопиком и вот недавно я писал про всяческие предсказания будущего регулирования, но таких идей чтобы прям взял и положил в основание рассказа пока не увидел. Так что поделюсь одной идеей далёкого регулирования которая не даёт мне покоя, но пока я её недостаточно хорошо продумал чтобы описать, но достаточно чтобы обсудить.

Это налоговая лотерея! Как это выглядит.

Представим себе что вместо уплаты штрафов за парковку, несвоевременное предоставление отчетности, штрафов за превышение скорости и тд. налоговая служба устраивала бы лотерею где ты мог за платить меньшую сумму, например, 10 тысяч рублей вместо 50 тысяч рублей, но имел бы вероятность заплатить 100 тысяч рублей или даже 200 тысяч рублей при некоторой вероятности.

Представим себе что налоговая служба собирает около 5 миллиардов рублей в год которые выплачивают 100 тысяч человек по примерно 50 тысяч рублей каждый. Как правильно составить вероятности и пропорции платежей чтобы налоговая служба могла бы собирать до 10 миллиардов рублей в год используя такой механизм лотереи?

У идеи сразу несколько плюсов:
1. Государство собирает больше денег
2. Высокая, больше 50% вероятность заплатить штраф куда меньший
3. Высокая мотивация избегать повторных штрафов если пришлось платить больший штраф
4. Возможность автоматического выявления граждан с "паранормальной удачей".
5. Удовлетворение потребности определённых категорий граждан в азартных играх.

Применение к России очень условно, можно реализовать в любой стране. Понятно что не в ближайшем будущем, но к 2050 году как раз

#humour #ideas #writings
😁133👍3🌚1💊1
В рубрике как это устроено у них
Virtual Language Observatory [1] агрегатор и поисковая система по ресурсам компьютерной лингвистики в Европейском союзе.

Включает более 530 тысяч ресурсов из которых как наборы данных отмечены более 100 тысяч. Охватывает более 5 тысяч языков и диалектов.

В свою очередь и поиск в VLO имеют лингвистическую специфику с возможностью фильтрации по доступности, коллекциям, модальности и тд. Для этого репозитории входящие в европейский проект CLARIN предоставляют метаданные по согласованным спецификациям на основе которых и формируются карточки каждого ресурса.

Ссылки:
[1] https://vlo.clarin.eu

#opendata #datacatalogs #datasets #lingustics
👍32
Свежее исследование из Microsoft Research о том какие профессии более и какие менее подвержены замене на ИИ Working with AI: Measuring the Occupational Implications of Generative AI. Полезно чтобы задуматься о своей нынешней и будущей профессии.

К примеру, флеботомистам ничего не грозит (это такие мед специалисты которые берут венозную кровь из вены), ничего не грозит рабочим убирающим токсичные отходы, автослесарям тоже и тем кто чинит медицинское оборудование.

А вот переводчикам, историкам, писателям, редакторам, политологам и много кому ещё надо готовится к сокращению рынка труда.

#ai #work
🤣8💅3😢21🥰1😁1
В рубрике как это устроено у них один из крупнейших публичных репозиториев научных данных по биоразнообразию это PlutoF [1] созданный командой в Тартуском университете и интегрированный в цифровую инфраструктуру других европейских проектов.

В PlutoF собрано более 3 миллионов 200 тысяч ресурсов (наборов данных), каждому из которых присвоен идентификатор DOI.

Поиск по репозиторий организован неудобно, он очень минималистичен, но этот репозиторий хорошо индексируется Datacite Commons, OpenAIRE и другими поисковиками по научным результатам.

Ссылки:
[1] https://plutof.ut.ee/en

#opendata #datacatalogs #biodiversity #datasets
52
В рубрике как это устроено у них в США существует Research Data Alliance (Альянс исследовательских данных) и они, в том числе, занимаются тем что архивируют данные ликвидируемых госагенств США и их дочерних структур.

Например, они 7 августа проводят хакатон Data Rescue Hackathon for USAID Education Data [1], совместно с ICPSR и DataFirst, командами работающими над репозиториями исследовательских данных. Архивировать там собираются образовательные данные и иные материалы USAID поскольку уже окончательно стало понятно что USAID ликвидируется.

Мне лично интересно как они его организуют, как мотивируют участников (если дополнительно мотивируют), какие задачи ставят и так далее.

Потому что организация классических хакатонов это понятный для меня механизм, а организация хакатонов по спасению данных - это новый, но важный жанр. И он ещё много где и много раз будет актуален.

Ссылки:
[1] https://rdapassociation.org/event-6266055

#opendata #digitalpreservation #events
👍62🔥2