Ivan Begtin
9.09K subscribers
2.48K photos
4 videos
113 files
5.22K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
Я всё не успеваю сам что-то написать про портал открытых данных. А тут столько всего интересного. Зам министра, конечно, не дурак, вовремя опомнился и его вовремя убрали из пресс релиза. Догадываетесь почему?😜

Лично я своё мнение о портале напишу сильно позже и в режиме лонгрида, коротко ну никак не получится.
😁71
Говорила мне мама: "Всегда делай скриншоты, сынок! На суде пригодятся"
Вот я и успел сделать скриншот успевшего стать раритетным текста пресс-релиза, в котором ключевым спикером про "портал Оди" выступал замминистра Колесников. Однако, не прошло и часа, как замминистра понял, что ассоциирование его фамилии с этим выкидышем совместного творчества рукожопых погромистов и методолухов "открытости государства" может негативно сказаться на его имидже - и мальчиком для битья в прессухе был подставлен подчиненный замминистру дирдеп.
Ничего не скажешь - искусство переобуваться на лету у минэковских не отнимешь!
Слева - текущий вариант пресс-релиза, справа - исходный
😁18🔥2
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Портал открытых данных все-таки запустили, но без «финансов»

Очень много вопросов к структуре и качеству реализации. Начнем с финансов:

- финансы, к сожалению, отдельной категории не удостоились;

- у Минфина России на портале 0 датасетов (что, конечно, говорит об отсутствии интеграции Портала открытых данных с внешними системами);

- Федеральному казначейству повезло чуть больше: у них аж 9 датасетов, обновленных в 2014 году (11,5 лет назад);

- Счетной палате РФ повезло еще меньше, чем Минфину России - их даже как организации нет.

Напомню, что курирует Портал ОД Минэк, который (как поставщик) разместил на портале 31 набор данных, 5 из которых были обновлены в 2021 году, 1 - в 2019, 6 - в 1970. Не густо пока.

Можно было бы предположить, что Минэк публикует свои данные на сайте Министерства, но тоже нет - там всего три датасета, правда от 2024 и 2025 годов. То есть интеграции с Порталом открытых данных нет даже у курирующего его министерства.

Напоминаю ссылку на портал: data.gov.ru
🤨32😁2👍1
Проект «Цифровой архив госфинансов и госуправления» запускает регулярные посты в телеграм-канале

Наш телеграм-канал был создан весной 2024 года - одновременно с запуском веб-сайта проекта. Все это время мы разрабатывали наш сайт, создавали наборы открытых данных и накапливали базу документов, агрегируя общедоступные источники. И вот сейчас наступил тот самый момент, когда мы наконец определили, каким этот канал должен быть, и готовы делиться нашими обновлениями, находками в книгах и инсайтами в данных.

Большинство постов в канале будут базироваться на коллекции книг и документов «Цифрового архива госфинансов и госуправления (ЦАГГ)». Мы будем рассказывать о редких и уникальных изданиях, об авторах книг и государственных деятелях, будем публиковать интересные факты и данные. Наши творческие планы уже сейчас содержат порядка десяти тематических направлений, но начнем мы с трех основных — «Книги», «Персоны» и «Датасеты». Кроме этого, мы будем рассказывать о работе с финансовыми данными, о найденных особенностях исторической финансовой системы и многом другом.

Откроем регулярные публикации в Телеграм-канале мы текстом о Сергее Юльевиче Витте — министре путей сообщения (1892), министре финансов (1892-1903), а впоследствии и премьер-министре (1903-1906) России.

И, конечно, напоминаем ссылку на сайт нашего проекта, в котором собрано уже более 8 тыс. документов и 175 наборов данных: finlibrary.ru
9👍21🤩1🌚1
Я написал таки лонгрид про новую версию data.gov.ru https://begtin.substack.com/p/datagovru
Выводы спойлерить не буду, но они, да, очевидны.

#opendata #russia #datacatalogs
🔥23💯10😢6👍3😱21
Ivan Begtin pinned a photo
Ivan Begtin
pinned a photo
База официальных коннекторов для Claude доступна от Anthropic [1]. Интересно, в какой момент владельцы больших облачных языковых моделей начнут взимать плату за подключением к ним сервисов? Или их бизнес модель будет исключительно через взимание платы за запросы к LLM ?

Ссылки:
[1] https://www.anthropic.com/news/connectors-directory

#ai #claude
2
В за полтора дня со свежеоткрытого портала открытых данных data.gov.ru исчезло более 300 наборов данных
Когда открывали было более 5000, сейчас 4 686. Очень быстро удаляют, скоро ничего не останется😜Такими темпами дней за 20 все удалят🌚

А что я всё рекламирую да рекламирую госпортал, во первых интересные датасеты по России есть в каталоге данных Инфокультуры https://hubofdata.ru/dataset/, а во вторых в Датено https://dateno.io.

В Датено данные о России/по России есть ещё и из разных источников, включая международные каталоги статистики и датасетов, то чего в на российский госпорталах вообще не встретишь.

#opendata #datacatalogs
👍15🤣9🔥21
Полезные ссылки для работы с данными, технологиями и не только:
- DocsGPT и LocalGPT два похожих продукта для извлечения знаний и чата с локальными документами. Первый под лицензией MIT, второй под Apache 2.0. Поддерживают множество форматов документов, работают с облачными и локальными моделями ИИ. Какой лучше не знаю, надо пробовать оба продукта.
- Markitdown утилита от Microsoft по преобразованию чего угодно в формат markdown. Поддерживает документы MS Office, PDF, HTML, аудио и изображения и многое другое.
- AI Dataset generator генератор синтетических наборов данных с помощью ИИ. Умеет подключаться к разным LLM и интегрировано с инструментом визуализации Metabase. Открытый код, лицензия MIT
- gt-extras расширение для пакета great-tables для Python позволяющее рисовать красивые таблицы в Python в средах научных тетрадок Jupyter или в Quatro из фреймов данных Pandas и Polars. Удобное для всех кто занимается аналитикой на данных
- OpenAIRE changelog хороший пример версионирования и журнала большого открытого дата-продукта.

#opensource #data #datatools
👍6🔥52
Я не устаю повторять что государство не должно лезть в твою голову, в твою постель и в твой телефон (с)

Начнут со штрафов за использование VPN, а далее решат обязать предустанавливать антивирусы и иные мониторинговые программы которые должны будут стучать о наличие у тебя VPN на устройстве, потом к ним добавят ещё инструменты сильной криптографии, потом создадут реестр потенциально опасных мобильных приложений, потом оснастят патрульно-постовые службы флешками с ПО для быстрого сканирования устройств. Что бы ещё такого придумать для нашего светлого будущего?

P.S. Автор картинки Анатолий Чилик https://t.me/chilikto

#irony #privacy #russia
💯33👍7❤‍🔥53😢2🌚2
В рубрике как это устроено у них портал исследовательских данных Австралии researchdata.edu.au

Включает 224 тысячи наборов данных из которых 96 тысяч доступны онлайн.

Портал является поисковой системой по десяткам академических репозиториев, архивов, госпорталов открытых данных и геопорталам.

Он более похож на Dateno, позволяя искать по 9 видам фасетов (фильтров).

Кроме данных в нём также доступен поиск по исследовательским проектам, персонам и организациям, сервисам и программным продуктам и так далее.

Большая часть материалов опубликованы под свободными лицензиями.

Это довольно много, для сравнения в Dateno присутствует 676 тысяч наборов данных относящихся к Австралии, преимущественно относящихся к порталам открытых данных и геопорталам.

При этом в Dateno до сих сильно меньше исследовательских данных, в основном по той причине что по исследовательским данным есть много альтернативных инструментов поиска. Поэтому Research Data и Dateno скорее дополняют друг друга и скорее всего индексировать именно этот портал мы не будем, а вот индексировать первоисточники индексируемые Research Data определенно стоит.

Кроме того в Research Data практически нет статистических данных и временных рядов, кстати, не знаю почему, в Австралии довольно продвинутые системы публикации официальной статистики.

#opendata #datacatalogs #australia
31
Я как мог сдерживался, но такое сдерживать сложно, да и обязательно придут те кто скажут не подсказывай им, но... а я подскажу😉 Вредные советы для делателей порталов открытых данных, ну может не в России, а в стране Вредносоветии.

Итак, сделать очень-очень много наборов данных и думаете где бы их раздобыть? И неважно нужные данные или нет, полезные или нет, большие или нет, главное чтобы формально были машиночитаемые в CSV или JSON или XML ? А я скажу вам как!

1. Берете базу официальную законодательства, в РФ это база ФСО или база Минюста. Документов там много, по моим самым скромным подсчётам не менее 1.5 миллиона документов - это всё приказы, законы, постановления, указы, распоряжения и тд. Ловким движением руки, загружаете каждый документ на портал открытых данных и у вас там сразу 1.5 миллиона наборов данных. Готов поспорить что полезных, востребованных и даже машиночитаемых потому что все будут в формате XML. Сложно это сделать? Очень просто! Даже разрешения ФСО или Минюста не потребуется.
2. Открываем госкаталог музейного фонда, а там, вы не поверите, но 52 миллиона записей. Фотографии, картины, изображения антиквариата, чего только нет. И хоть и куцое, но хоть такое есть описание к каждому доступное в виде JSON документа. Тут задача чуть посложнее, его скачать сложнее, займёт это не один, а целых два дня, зато загружаете их на портал открытых данных и там сразу +52 миллиона наборов данных и это в добавок к ранее опубликованным 1.5 миллионам машиночитаемых нормативных документов.
3. Открываете официальную статистику Росстата. Там в ЕМИСС более 6 тысяч показателей, выглядит так что немного. Но ведь у показателей есть разные размерности (dimensions). Если даже взять только регионы, которые есть у большинства показателей и даже если предположить что не по всем регионам есть статистика, то минимум этот будет 80*6000 = 480 тысяч свежесварганеных наборов данных. Что-то мало получается. Можно ещё разрезать по размерностям, к примеру, по полу, там где он указан или по виду продукции если он есть да и много других размерностей большого объёма. Путем нехитрых манипуляций можно получить от 1 до 100 миллионов наборов данных.

Итого минимум 53.5 миллиона, максимум 153.5 миллиона наборов данных можно создать в кратчайшие сроки.

Куда там европейцам с их 1.9 миллионами наборами данных на data.europa.eu.

Главное не стесняться своего успеха. Чаще меня читать и прислушиваться к моим вредным советам!

#irony #datacatalogs #opendata
😁30👏16🤣12👍433🔥1
Знаете ли Вы что... существует спецификация /llms.txt в виде сайта [1] с документацией. Спецификация - это что-то вроде карты сайта (sitemap) совмещенного с подробной документацией, но отформатированное в Markdown и приспособленное для упрощённого поглощения с помощью LLM.

Мне казалось что очень хотеть чтобы LLM съел твой контент - это странное желание, но для кого-то, видимо важное, и десятки сайтов спецификацию поддерживают [2], например, такой файл доступен у Sourcegraph [3] и у Bitcoin.com [4] и у LMStudio [5]

В большинстве случаев это документация к продуктам, иногда весьма и весьма детальная.

В отличие от MCP вокруг это спецификации хайп не наблюдается, но знать о ней стоит всем кто документацию к своим продуктам создаёт.

Ссылки:
[1] https://llmstxt.org/
[2] https://llmstxt.site/
[3] https://sourcegraph.com/docs/llms.txt
[4] https://www.bitcoin.com/llms.txt
[5] https://lmstudio.ai/llms.txt

#opensource #standards #ai
👍7
В рубрике интересных стартапов по работе с данными и малоизвестных каталогов данных.

Data.world когда-то один из первых общедоступных облачных каталогов данных. Отличался тем что предоставлял интерфейсы для визуализации и запросов к данным которые пользователи загружали на платформу, как правило в CSV или форматах.

Со временем облачная платформа осталась только после авторизации (но всё ещё работает), а основным способом монетизации стало внедрение платформы у крупных клиентов. Это редкий случай когда платформа изначально для открытых данных эффективна перешла в корпоративный сектор.

В общей сложности за 9 лет они подняли $132 миллиона инвестиций с последним раундом в 2022 году.

При этом их облачный каталог сообщества всё ещё доступен и там можно искать по более чем 133 тысячам наборов данных опубликованных за примерно, 10 лет.

#opendata #datacatalogs
👍7