Ivan Begtin
9.09K subscribers
2.48K photos
4 videos
113 files
5.22K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
Проект «Цифровой архив госфинансов и госуправления» запускает регулярные посты в телеграм-канале

Наш телеграм-канал был создан весной 2024 года - одновременно с запуском веб-сайта проекта. Все это время мы разрабатывали наш сайт, создавали наборы открытых данных и накапливали базу документов, агрегируя общедоступные источники. И вот сейчас наступил тот самый момент, когда мы наконец определили, каким этот канал должен быть, и готовы делиться нашими обновлениями, находками в книгах и инсайтами в данных.

Большинство постов в канале будут базироваться на коллекции книг и документов «Цифрового архива госфинансов и госуправления (ЦАГГ)». Мы будем рассказывать о редких и уникальных изданиях, об авторах книг и государственных деятелях, будем публиковать интересные факты и данные. Наши творческие планы уже сейчас содержат порядка десяти тематических направлений, но начнем мы с трех основных — «Книги», «Персоны» и «Датасеты». Кроме этого, мы будем рассказывать о работе с финансовыми данными, о найденных особенностях исторической финансовой системы и многом другом.

Откроем регулярные публикации в Телеграм-канале мы текстом о Сергее Юльевиче Витте — министре путей сообщения (1892), министре финансов (1892-1903), а впоследствии и премьер-министре (1903-1906) России.

И, конечно, напоминаем ссылку на сайт нашего проекта, в котором собрано уже более 8 тыс. документов и 175 наборов данных: finlibrary.ru
9👍21🤩1🌚1
Я написал таки лонгрид про новую версию data.gov.ru https://begtin.substack.com/p/datagovru
Выводы спойлерить не буду, но они, да, очевидны.

#opendata #russia #datacatalogs
🔥23💯10😢6👍3😱21
Ivan Begtin pinned a photo
Ivan Begtin
pinned a photo
База официальных коннекторов для Claude доступна от Anthropic [1]. Интересно, в какой момент владельцы больших облачных языковых моделей начнут взимать плату за подключением к ним сервисов? Или их бизнес модель будет исключительно через взимание платы за запросы к LLM ?

Ссылки:
[1] https://www.anthropic.com/news/connectors-directory

#ai #claude
2
В за полтора дня со свежеоткрытого портала открытых данных data.gov.ru исчезло более 300 наборов данных
Когда открывали было более 5000, сейчас 4 686. Очень быстро удаляют, скоро ничего не останется😜Такими темпами дней за 20 все удалят🌚

А что я всё рекламирую да рекламирую госпортал, во первых интересные датасеты по России есть в каталоге данных Инфокультуры https://hubofdata.ru/dataset/, а во вторых в Датено https://dateno.io.

В Датено данные о России/по России есть ещё и из разных источников, включая международные каталоги статистики и датасетов, то чего в на российский госпорталах вообще не встретишь.

#opendata #datacatalogs
👍15🤣9🔥21
Полезные ссылки для работы с данными, технологиями и не только:
- DocsGPT и LocalGPT два похожих продукта для извлечения знаний и чата с локальными документами. Первый под лицензией MIT, второй под Apache 2.0. Поддерживают множество форматов документов, работают с облачными и локальными моделями ИИ. Какой лучше не знаю, надо пробовать оба продукта.
- Markitdown утилита от Microsoft по преобразованию чего угодно в формат markdown. Поддерживает документы MS Office, PDF, HTML, аудио и изображения и многое другое.
- AI Dataset generator генератор синтетических наборов данных с помощью ИИ. Умеет подключаться к разным LLM и интегрировано с инструментом визуализации Metabase. Открытый код, лицензия MIT
- gt-extras расширение для пакета great-tables для Python позволяющее рисовать красивые таблицы в Python в средах научных тетрадок Jupyter или в Quatro из фреймов данных Pandas и Polars. Удобное для всех кто занимается аналитикой на данных
- OpenAIRE changelog хороший пример версионирования и журнала большого открытого дата-продукта.

#opensource #data #datatools
👍6🔥52
Я не устаю повторять что государство не должно лезть в твою голову, в твою постель и в твой телефон (с)

Начнут со штрафов за использование VPN, а далее решат обязать предустанавливать антивирусы и иные мониторинговые программы которые должны будут стучать о наличие у тебя VPN на устройстве, потом к ним добавят ещё инструменты сильной криптографии, потом создадут реестр потенциально опасных мобильных приложений, потом оснастят патрульно-постовые службы флешками с ПО для быстрого сканирования устройств. Что бы ещё такого придумать для нашего светлого будущего?

P.S. Автор картинки Анатолий Чилик https://t.me/chilikto

#irony #privacy #russia
💯33👍7❤‍🔥53😢2🌚2
В рубрике как это устроено у них портал исследовательских данных Австралии researchdata.edu.au

Включает 224 тысячи наборов данных из которых 96 тысяч доступны онлайн.

Портал является поисковой системой по десяткам академических репозиториев, архивов, госпорталов открытых данных и геопорталам.

Он более похож на Dateno, позволяя искать по 9 видам фасетов (фильтров).

Кроме данных в нём также доступен поиск по исследовательским проектам, персонам и организациям, сервисам и программным продуктам и так далее.

Большая часть материалов опубликованы под свободными лицензиями.

Это довольно много, для сравнения в Dateno присутствует 676 тысяч наборов данных относящихся к Австралии, преимущественно относящихся к порталам открытых данных и геопорталам.

При этом в Dateno до сих сильно меньше исследовательских данных, в основном по той причине что по исследовательским данным есть много альтернативных инструментов поиска. Поэтому Research Data и Dateno скорее дополняют друг друга и скорее всего индексировать именно этот портал мы не будем, а вот индексировать первоисточники индексируемые Research Data определенно стоит.

Кроме того в Research Data практически нет статистических данных и временных рядов, кстати, не знаю почему, в Австралии довольно продвинутые системы публикации официальной статистики.

#opendata #datacatalogs #australia
31
Я как мог сдерживался, но такое сдерживать сложно, да и обязательно придут те кто скажут не подсказывай им, но... а я подскажу😉 Вредные советы для делателей порталов открытых данных, ну может не в России, а в стране Вредносоветии.

Итак, сделать очень-очень много наборов данных и думаете где бы их раздобыть? И неважно нужные данные или нет, полезные или нет, большие или нет, главное чтобы формально были машиночитаемые в CSV или JSON или XML ? А я скажу вам как!

1. Берете базу официальную законодательства, в РФ это база ФСО или база Минюста. Документов там много, по моим самым скромным подсчётам не менее 1.5 миллиона документов - это всё приказы, законы, постановления, указы, распоряжения и тд. Ловким движением руки, загружаете каждый документ на портал открытых данных и у вас там сразу 1.5 миллиона наборов данных. Готов поспорить что полезных, востребованных и даже машиночитаемых потому что все будут в формате XML. Сложно это сделать? Очень просто! Даже разрешения ФСО или Минюста не потребуется.
2. Открываем госкаталог музейного фонда, а там, вы не поверите, но 52 миллиона записей. Фотографии, картины, изображения антиквариата, чего только нет. И хоть и куцое, но хоть такое есть описание к каждому доступное в виде JSON документа. Тут задача чуть посложнее, его скачать сложнее, займёт это не один, а целых два дня, зато загружаете их на портал открытых данных и там сразу +52 миллиона наборов данных и это в добавок к ранее опубликованным 1.5 миллионам машиночитаемых нормативных документов.
3. Открываете официальную статистику Росстата. Там в ЕМИСС более 6 тысяч показателей, выглядит так что немного. Но ведь у показателей есть разные размерности (dimensions). Если даже взять только регионы, которые есть у большинства показателей и даже если предположить что не по всем регионам есть статистика, то минимум этот будет 80*6000 = 480 тысяч свежесварганеных наборов данных. Что-то мало получается. Можно ещё разрезать по размерностям, к примеру, по полу, там где он указан или по виду продукции если он есть да и много других размерностей большого объёма. Путем нехитрых манипуляций можно получить от 1 до 100 миллионов наборов данных.

Итого минимум 53.5 миллиона, максимум 153.5 миллиона наборов данных можно создать в кратчайшие сроки.

Куда там европейцам с их 1.9 миллионами наборами данных на data.europa.eu.

Главное не стесняться своего успеха. Чаще меня читать и прислушиваться к моим вредным советам!

#irony #datacatalogs #opendata
😁30👏16🤣12👍433🔥1
Знаете ли Вы что... существует спецификация /llms.txt в виде сайта [1] с документацией. Спецификация - это что-то вроде карты сайта (sitemap) совмещенного с подробной документацией, но отформатированное в Markdown и приспособленное для упрощённого поглощения с помощью LLM.

Мне казалось что очень хотеть чтобы LLM съел твой контент - это странное желание, но для кого-то, видимо важное, и десятки сайтов спецификацию поддерживают [2], например, такой файл доступен у Sourcegraph [3] и у Bitcoin.com [4] и у LMStudio [5]

В большинстве случаев это документация к продуктам, иногда весьма и весьма детальная.

В отличие от MCP вокруг это спецификации хайп не наблюдается, но знать о ней стоит всем кто документацию к своим продуктам создаёт.

Ссылки:
[1] https://llmstxt.org/
[2] https://llmstxt.site/
[3] https://sourcegraph.com/docs/llms.txt
[4] https://www.bitcoin.com/llms.txt
[5] https://lmstudio.ai/llms.txt

#opensource #standards #ai
👍7
В рубрике интересных стартапов по работе с данными и малоизвестных каталогов данных.

Data.world когда-то один из первых общедоступных облачных каталогов данных. Отличался тем что предоставлял интерфейсы для визуализации и запросов к данным которые пользователи загружали на платформу, как правило в CSV или форматах.

Со временем облачная платформа осталась только после авторизации (но всё ещё работает), а основным способом монетизации стало внедрение платформы у крупных клиентов. Это редкий случай когда платформа изначально для открытых данных эффективна перешла в корпоративный сектор.

В общей сложности за 9 лет они подняли $132 миллиона инвестиций с последним раундом в 2022 году.

При этом их облачный каталог сообщества всё ещё доступен и там можно искать по более чем 133 тысячам наборов данных опубликованных за примерно, 10 лет.

#opendata #datacatalogs
👍7
В продолжение изысканий Ивана Бегтина о данных на новом портале ОД.
Мы поискали геоданные...и можно сказать, что не нашли. Может быть плохо искали?
https://gisgeo.org/opendata_portal/
🤨1
Я очень скоро прекращу так часто упоминать российский портал открытых данных, всё таки реально применения у опубликованных там данных очень немного и одно из них более-менее не бесполезное - это обучение алгоритмов выявления семантических / смысловых типов данных. Это когда поле/колонка таблицы аннотируется пометками о том что там реально содержится. Я в своё время создавал инструмент metacrafter это такая довольно продвинутая штука с большой базой этих самых семантических типов и многое из типов там имеет реальное отношение к российским данным, всё таки русскоязычные/российские наборы данных были для меня в большей доступности долгое время.

Сейчас я metacrafter натравил на ранее скачанные из новой версии data.gov.ru наборы данных. И вот первые результаты по популярным классам данных.

1. Всего выявлено 13334 колонки с 76 семантическими типами (dataclass)
2. Более всего в наборах данных упоминаются наименования организаций, адреса, наименования в принципе (чего либо), email'ы, ссылки, даты, телефоны, полные ФИО, названия регионов и так далее.
3. Геоданные встречаются в адресах (1429 случаев), долготе (212 случаев), широте (189 случаев). Почему числа долгот и широт не совпадают я не разбирался, но в целом выходит что адреса есть в от 10 до 20% всех датасетов,
3. Данных по юрлицам и ИП с одной стороны невелики, около 10% по частоте нахождения кодов inn, ogrn, ogrn_ogrnip, а с другой, наименования организаций повсеместны. Скорее всего дело в огромном числе административных данных которые органы публикуют про себя, вроде своих адресов местонахождения или вакансий.
4. Финансовых данных практически нет. Встречаемость кодов КБК, кодов бюджетов и тд минимальна.
5. Есть какое-то число ложных срабатываний по названиям полей и типовым шаблонам, вроде определение кодов ОКПД как адресов IPv4, но это минимально.

Какие выводы:
1. Смысловые - содержание data.gov.ru по прежнему бесполезно. Я напомню что все опубликованные там данные умещаются в один 100 мегабайтный ZIP архив
2. Технические - metacrafter неплохо разбирает российские коды, для чего он и писался.

А для общего просвещения добавлю скриншот с портала открытых данных Сингапура где используя подход похожий с тем что я делал с metacrafter'ом добавили возможность фильтрации датасетов по типам полей с данными. Их там пока всего 6, но тем не менее.

Вот это можно назвать полезным развитием портала открытых данных, а не "хихикающий голосовой помощник" который на data.gov.ru отключили почти сразу после запуска.

P.S. Для тех кто хочет изучить самостоятельно, по ссылке meta.zip содержит данные о всех выявленных семантических типах в датасетах. Внутри файл JSON lines сгенерированный metacrafter'ом и небольшой файл detected_dataclasses.csv полученный из этих результатов, содержащий перечень всех идентифицированных семантических типов данных, то что я привел на скриншоте.

#opendata #opensource #datacatalogs #russia
75🤣5😢2💯1
По моему Ольга даже излишне оптимистично отзывается о новом российском портале открытых данных. Мой вердикт ему гораздо более суров. Это что-то между "очень плохо" и просто "плохо". И я об этом написал уже несколько раз. Это просто деньги выброшенные на ветер. Серьёзно. Портал открытых данных Москвы data.mos.ru созданный чёрт знает когда или портал открытых данных Минкультуры РФ opendata.mkrf.ru выглядят значительно лучше. И это то что называется "примеры рядом", а есть сотни примеров в мире.

Или посмотрите на портал данных Санкт-Петербурга data.gov.spb.ru и ещё на десятки порталов открытых данных, геопорталов и баз индикаторов в России. В реестре Dateno 170 российских порталов с данными и они не все проиндексированы только потому что российские сайты ставят геоблокировку.

Даже чёртов Роскосмос предоставляет свои открытые данные через STAC сервер, а не вот это всё.

На самом то деле я стал относится к российскому порталу с существенной долей пофигизма после того как понял что исправить там что-либо невозможно. Потому и занялся Dateno. Там было есть и будет гораздо больше данных, лучшего качества и в удобной форме

#opendata #russia #datacatalogs
1👍142
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Минэк опубликовал видео с ответами на вопросы про Портал открытых данных

На удивление, видео неплохое и даже содержательное (https://t.me/minec_russia/10643): есть ответы на часть вопросов, обсуждавшихся в профильных чатах, даже опубликовали тайм-коды.

Но, публиковать только в формате видео ответы на волнующие пользователей-айтишников вопросы - это не тот формат коммуникации, который можно было бы назвать удобным. Продублировать видео текстом-интервью или FAQ было бы намного удобнее.

Нерешенными все еще остаются, как минимум, следующие вопросы:

- Почему Минэк не публикует и не создает свои открытые данные?

- Почему полностью обошли стороной данные по финансам? От Минфина и Казначейства датасетов на портале нет, Казначейство, правда, вскользь упомянули в конце видео в разделе "планы».

- Почему на портале не опубликованы условия (лицензия) использования открытых данных? В разделе «Нормативные документы» можно найти типовые условия почти 10-летней давности, но надпись «Все права защищены» в футере сайта заставляет сомневаться в возможности использования данных.

- Чат-бот, судя по тексту в видео, починили. Но он до сих пор не может ответить ни на один вопрос и просто молчит.

- С момента открытия Портала открытых данных удалено несколько сотен датасетов. В видео говорили о 200, но сейчас на портале еще почти на 100 датасетов меньше. Объясняется это наличием ошибок в датасетах и модерацией. Но ошибки надо исправлять (а не удалять дотасет), а модерацию надо проводить до публикации датасета, а не после.

Единственное положительное в данном случае то, что о Портале Минэк хотя бы заговорил, есть шанс, что что-то изменится. И отдельный респект Минэку за то, что прямо и открыто признали ручную публикацию наборов открытых данных и отсутствие интеграции с другими системами.
👍72
В рубрике закрытых в России данных, я обнаружил что не писал про портал открытых данных Самарской области opendata.samregion.ru который был закрыт где-то между 2022 и 2024 году. В Интернет архиве на февраль 2022 года , а позже только слепки страниц с упоминанием геоблокировки. Сейчас портал перенаправляет на страницу на сайте Пр-ва Самарской области где вместо данных просто свалка разноформатных документов.

Архивная копия в формате WARC была сделана нами в апреле 2024 года. Данных там было немного, всего 24МБ в сжатом виде, но тем не менее.

#opendata #datasets #russia
👍522