Ivan Begtin
9.31K subscribers
2.08K photos
3 videos
102 files
4.81K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Ещё одна любопытная СУБД для аналитики GreptimeDB [1] на высоких позициях в метриках JSONBench [2] и похоже что хорошо годится для сохранения логов и как JSON хранилище.
Существует в форме открытого кода, коммерческого продукта и облака. Открытый код под лицензией Apache 2.0

Не удалось найти какой движок внутри, похоже какой-то собственный.

Продукт относительно новый, менее 2-х лет, но с венчурным финансированием в 2022 и 2023 годах.

Даже странно что он не так уж популярен.

Ссылки:
[1] https://greptime.com
[2] https://jsonbench.com

#opensource #rdbms #data #datatools
В рубрике закрытых данных в РФ последнее обновление статистических сборников Минздрава РФ было за 2018 год [1] и там не то чтобы открытые данные, а просто таблицы внутри файлов MS Word (.doc), спасибо что хотя бы не PDF документы и что хотя бы там таблицы, а не просто графики.

Вся остальная статистика рассеяна по их сайту в самых разных форматах [2].


Ссылки:
[1] https://minzdrav.gov.ru/ministry/61/22/stranitsa-979/statisticheskie-i-informatsionnye-materialy/statisticheskie-materialy
[2] https://minzdrav.gov.ru/search?q=%D1%81%D1%82%D0%B0%D1%82%D0%B8%D1%81%D1%82%D0%B8

#opendata #closeddata #datasets #data
Полезные ссылки про данные, технологии и не только:

AI & Science

- AI Scientist [1] фреймворки и примеры научных статей созданных полностью с помощью больших языковых моделей. Создано в японской AI лаборатории Sakana, у них же в блоге подробности [2]
- Accelerating scientific breakthroughs with an AI co-scientist [3] в блоге Google о мультиагентной системе на базе Gemini 2.0 для помощи исследователям в формировании гипотез и предложений исследователям. С акцентом на биомедицину, ожидаемо. Кстати, я до сих пор не видел ни одного исследования о потенциальном влиянии ИИ на разные научные дисциплины, а ведь потребность в таком анализе есть.
- ScienceOS [4] коммерческий сервис помощи исследователям с помощью ИИ. Как я понимаю пока там три основных сервиса: поговорить о науке в чате, поговорить вокруг PDF документа и управление ссылками.
- Awesome MCP Servers [5] большая коллекция серверов с Model Context Protocol в самых разных областях, в том числе с интеграцией с СУБД: Clickhouse, Elastic, BigQuery, Postgres и др.

Open Source
- Make Ubuntu packages 90% faster by rebuilding them [6] автор рассказывает как пересобирать пакеты для Linux ускоряя их приложения на примере утилиты jq. Почему это важно? jq используется во многих системах преобразования данных (ELT/ETL/скрейпинг) и сами советы дают некоторое понимание того как оптимизировать приложения с открытым кодом не меняя сам код
- Plane [7] аналог системы управления проектами Asana/Monday с открытым кодом. У открытой версии лицензия AGPL-3.0, так что использовать локально можно, а вот перепродавать свой сервис на их основе не получится.

Government & Data
- Government data is disappearing before our eyes [8] в целом ничего нового, но много ссылок на старое и происходящее сейчас с исчезновением открытых госданных в США.
- The State of Open Humanitarian Data 2025 [9] обзор состояния данных в сфере гуманитарной помощи от United Nations Office for the Coordination of Humanitarian Affairs (OCHA).

Ссылки:
[1] https://github.com/SakanaAI/AI-Scientist
[2] https://sakana.ai/ai-scientist-first-publication/
[3] https://research.google/blog/accelerating-scientific-breakthroughs-with-an-ai-co-scientist/
[4] https://www.scienceos.ai/
[5] https://github.com/punkpeye/awesome-mcp-servers
[6] https://gist.github.com/jwbee/7e8b27e298de8bbbf8abfa4c232db097
[7] https://github.com/makeplane/plane
[8] https://thehill.com/opinion/technology/5201889-government-data-is-disappearing-before-our-eyes/

#opendata #opensource #openaccess #ai #science #government #data
Marimo [1] альтернатива Jupyter Notebook по созданию аналитических и научных тетрадок. Среди многих альтернатив отличается наличием открытого кода под лицензией Apache 2.0. Даёт некоторое число фич которых нет у Jupyter, например, встраивание UI элементов, ячейки с SQL, визуализации и ряд других фич.

Конечно, объективно, сравнивать надо не только с Jupyter, но и с Deepnote, Hex, Google Collab, но те врядли будут доступны с исходным кодом.

Ссылки:
[1] https://marimo.io

#opensource #datascience #data #datatools
У Benn Stancil очередная замечательная заметка Most graduate degrees in analytics are scams [1] на более чем актуальную тему - многочисленных магистерских программ по аналитике (применительно к данным) в колледжах и университетах. Он сам и ему в комментариях там набрасывают немало инсайтов почему эти магистерские дипломы никак не влияют на привлекательность человека на рынке или влияют в обратную сторону и являются "красным флажком".

Ключевое в его посыле в том что академические программы по дата аналитике учат тому как работать сложными методами с очень простыми и лёгкими данными в том время как в реальной жизни всё наоборот, ты работаешь очень простыми методами с очень сложными данными. Сложными во всех смыслах: собрать, связать, очистить, ощутить неполноту не поддающуюся исправлениям и тд. Причём сложная математика, за очень и очень редким исключением, возникает только в data science, а сложные методы почти вообще никогда.

И там же у него о том почему стартапы ищут тех кто поступил в Гарвард или Стенфорд, но их не волнует учился ли там человек далее, потому что экзамен в эти университеты - это как IQ тест, говорит о человеке больше чем готовность учиться далее.

И наконец, как правильно пишет один из комментаторов, слишком часто люди отучившиеся по магистерским программам по аналитике теряют профессиональное любопытство. Это нормально для некоторых профессий, но не в IT, и не в аналитике в частности где всё довольно быстро меняется.

У Benn'а много хороших текстов и это один из них, стоит почитать хотя бы чтобы просто подумать над этой темой.

Что я могу добавить так это то что хуже чем магистерские программы - это многочисленные курсы по аналитике продаваемые под соусом "увеличь свою зарплату в 4 раза". В них есть худшее от обоих миров, это про обучение как работать с очень простыми данными очень простыми методами. Чем более массовыми такие курсы являются, тем больше они являются красными флажками для любого профессионального работодателя.
Потому что их прохождение говорит следующее:
1. Вас можно обмануть заманухой о быстром повышении зарплаты через явный скам.
2. Вы готовы потратить много времени на курс по которому можно было бы учиться самостоятельно, открытых материалов множество

У Benn'а есть совет в том что важнее взять данные которые реально вам интересны и сделать самостоятельную аналитику на их основе, копаясь в них до тех пока пока не найдётся нечто реально интересное.

Я к этому совету готов присоединится и усилить. Индустриальный опыт и любопытство в работе с данными в резюме и собеседовании значительно превосходят почти любое образование и курсы.

Ссылки:
[1] https://benn.substack.com/p/most-graduate-degrees-in-analytics

#it #dataanalytics #data #thoughts
Для тех кто работает с CSV файлами, неплохой и даже немного смешной текст A love letter to the CSV format [1] где автор рассуждает и расхваливает преимущества CSV формата для данных и аргументы его неплохи, но... лично мне недостатки не перевешивают. На его 9 пунктов я могу пару десятков пунктов написать о недостатках CSV, но плюсы тоже есть, чего уж тут скрывать. И, правильнее сказать что не один автор, а авторы, создатели утилиты xan, the CSV magician [2] для обработки CSV файлов.

Утилита эта является переписанной и переработой утилиты xsv [3] и позволяет вытворять самое разное с CSV файлами, включая визуализации, параллельную обработку, просмотр с командной строки и ещё многое другое.

Хороший инструмент, у него только один недостаток, он работает только с CSV файлами😂

Для тех кто любит командную строку и CSV формат - незаменимая штука.

Ссылки:
[1] https://github.com/medialab/xan/blob/master/docs/LOVE_LETTER.md
[2] https://github.com/medialab/xan
[3] https://github.com/BurntSushi/xsv

#opensource #data #datatools
Полезные ссылки про данные, технологии и не только:
- DuckDB Roadmap [1] команда DuckDB опубликовала дорожную карту. Много любопытного, обещают шифрование базы данных в будущем, поддержку парсинга XML
- FastOpenAPI [2] библиотека для Python для быстрого создания документации и схемы API по стандарту OpenAPI. Поддерживает Flask, Falcon, Starlette, Sanic и Tornado. Полезно для очень быстрого развертывания API с помощью Python.
- CSVConf [3] пройдёт в сентябре 2025 года в Болонье, Италия. Это конференция больше про сообщество чем про индустрию, там про применение данных в исследованиях и гражданском обществе. Ещё есть время подать заявку на выступление [4]
- Streamlining access to tabular datasets stored in Amazon S3 Tables with DuckDB [5] в блоге Amazon о том как настраивать хранилище файлов для прямого доступа к S3 таблицам через DuckDB.
- Unstructuted [6] open source и SaaS сервис для обработки данных через извлечение их из PDF, HTML, Word и других документов. Интересная бизнес модель, открытый код доступен, а через его же библиотеку и утилиту командной строки можно подключить аккаунт их облачного продукта и преобразовывать данные быстрее с его помощью. Такая бизнес модель аллергии не вызывает, похоже на хороший, годный продукт.

Ссылки:
[1] https://duckdb.org/docs/stable/dev/roadmap.html
[2] https://github.com/mr-fatalyst/fastopenapi
[3] https://csvconf.com/
[4] https://docs.google.com/forms/d/e/1FAIpQLSdoCI37INVkMMI3tcRLJ5dr2Lfrd86TqH_NjvhT02xoSUMYmw/viewform
[5] https://aws.amazon.com/ru/blogs/storage/streamlining-access-to-tabular-datasets-stored-in-amazon-s3-tables-with-duckdb/
[6] https://github.com/Unstructured-IO/unstructured

#opensource #data #datatools
В ответ на список любви к CSV формату, я напишу свои 5 пунктов в пользу формата данных Parquet:

1. Parquet гораздо компактнее CSV и других форматов которые в него преобразуют, даже если они сжаты. Колоночное сжатие в Parquet работает гораздо эффективнее и это особенно ярко ощущается на денормализованных данных, например, статпоказателях в формате плоских файлов в режиме "1 строка=1 значение".
2. Parquet позволяет работать с данными как с базами данных позволяя на недорогих устройствах работать с данными большого объёма и быстро выполнять аналитические запросы.
3. Parquet имеет строгую схему описания и хорошую типизацию полей, а большая часть инструментов по работе с ним умеют определять типы данных динамически при создании Parquet файлов.
4. Parquet может иметь вложенные объекты в отличие от CSV файлов в Parquet есть возможность хранить структурированные вложенные объекты и Parquet файлы могут создаваться на базе JSON / NDJSON / JSON lines файлов
5. Все современные аналитические инструменты работы с данными умеют работать с этим форматом это Pandas, Polars, Clickhouse, DuckDB и многие другие. Новые инструменты появляются ежегодно и работают всё более производительно.

#data #dataformats #csv #parquet
В качестве регулярных напоминаний, за долгое время я написал немало инструментов с открытым кодом для работы с данными. За что члены команды меня регулярно ругают потому что основная моя работа искать клиентов и профессионалов в команду, но слишком я люблю работать руками, поэтому разного рода инструментов создал много и часть поддерживаю.

- newsworker - библиотека для Python по автоматическому извлечению новостей из веб страниц. Анализирует структуру веб страницы, кластеризует блоки, идентифицирует элементы блоков, парсит даты и создаёт RSS ленту на основе. Написал это много лет назад и до сих пор использую, но уже не обновляю

- qddate - библиотека для Python для парсинга дат в условно любом формате, которые могут быть написаны на 8 языках, в разных стилях и тд. Особенность в том что работает она очень быстро, не использует регулярные выражения, а вместо этого внутри используется библиотека pyparsing. Плюс куча оптимизаций по тому как парсить даты максимально быстро. До сих пор использую, но код практически не обновлялся

- undatum - утилита командной строки для обработки данных в форматах CSV, JSON, NDJSON, Parquet, BSON и др. Изначально была цель сделать аналог xsv для NDJSON. В целом получилось и я ей пользуюсь до сих пор, но с недавних пор чаще использую DuckDB из-за значительно большей производительности. Возможно утилиту переделаю однажды.

- apibackuper - утилита командной строки для архивации API. Странно звучит, но да, утилита через API выгружает все данные последовательным перебором и сохраняет их в виде датасета JSON Lines/NDJSON. Активно используется внутри Dateno для сбора метаданных и в Ruarxive для архивации

- metacrafter - утилита и библиотека для идентификации семантических типов данных. Полезна для выявления смысловых полей в датасетах: адресов, названий компаний, кодов типа ИНН, ОГРН, КПП и тд., а также для идентификации персональных данных. Делал я её относительно недавно, умеет она работать и с файлами и с базами данных. Тоже используется в Dateno

- docx2csv - утилита извлечения таблиц из файлов docx. Очень простая и были планы перенести этот код в универсальный дата конвертер.

- pyiterable - библиотека для Python для потокового чтения дата файлов таких как BSON, JSON, NDJSON, Parquet, ORC, XLS, XLSX и XML в том числе сжатых Gzip, Bzip2, ZStandard и другими компрессорами. Используется внутри metacrafter и undatum.

По прошествии лет многие инструменты хочется переделать, а многие устаревают, но их написание часто сильно ускоряет работу с теми данными с которыми я работаю постоянно.

#opensource #data #datatools