Ivan Begtin
9.37K subscribers
2.27K photos
4 videos
106 files
4.97K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
Полезные ссылки про данные, технологии и не только:
- Towards Inserting One Billion Rows in SQLite Under A Minute [1] заметка 2021 года о том как высокопроизводительно загружать миллиарды строк а базы SQLite. Актуально для всех кто делает высокопроизводительные системы не имея больших бюджетов.
- GROBID [2] переводится как GeneRation Of BIbliographic Data, инструментарий с открытым кодом по извлечению структурированного содержания из PDF файлов, особенно применяется к научным статьям. Активно используется для извлечения библиографических данных.
- Depsy [3] онлайн база цитирования пакетов с открытым кодом в научных статьях. От той же команды что делает OpenAlex. Этот проект более не развивается уже лет 7, а жаль, но исходный код доступен как и API.
- Cadent Open Data [4] раздел с открытыми данных в Cadent, британской газовой компании. Открытые данные прописаны в стратегии цифровизации и отдельный портал с данными [5] которые раскрываются по регуляторным требованиям и инициативами по data sharing
- Schneider Electric Datasets [6] коллекция наборов данных на портале для разработчиков Schneider Electric. В основном данные по энергопотреблению. Бесплатные, но требуют регистрации

Ссылки:
[1] https://avi.im/blag/2021/fast-sqlite-inserts/
[2] https://grobid.readthedocs.io/en/latest/
[3] http://depsy.org
[4] https://cadentgas.com/reports/open-data
[5] https://cadentgas.opendatasoft.com/pages/welcome/
[6] https://exchange.se.com/develop/developer-resources?source=developerResources&developerResources=Datasets

#opendata #opensource #readings
4👍1
В продолжение влияния тарифов на технологические компании, полезная заметка Trade, Tariffs, and Tech [1] от Бена Томпсона. Там много интересных рассуждений о параллелях между текущей ситуацией и Никсоновским шоком [2] в виде приостановки Бреттон-Вудских соглашений. Но это макроэкономика и это интересно, но, важнее практический исход.

Собственно из технологических компаний, похоже, более всего может пострадать Apple из-за высокой зависимости от производство в Китае и, в принципе, за пределами США, но безболезненный перенос его в США маловероятен. Далее он пишет про высокую вероятность снижения доходов всех рекламных BigTech'ов поскольку меньше дешёвых товаров=меньше массовых рекламных контрактов и, наконец, с меньшей вероятностью это затронет Microsoft с их бизнесом по продаже софта кроме разве что увеличения стоимости строительства дата центров.

Ссылки:
[1] https://stratechery.com/2025/trade-tariffs-and-tech/
[2] https://ru.wikipedia.org/wiki/%D0%9D%D0%B8%D0%BA%D1%81%D0%BE%D0%BD%D0%BE%D0%B2%D1%81%D0%BA%D0%B8%D0%B9_%D1%88%D0%BE%D0%BA

#tech #tariffs #readings
2👍2
Полезные ссылки про данные, технологии и не только:
- vanna [1] движок с открытым кодом по генерации SQL запросов к СУБД на основе промптов. Относится к классу продуктов text-to-sql. Поддерживает много видом LLM и много баз данных. Выглядит многообещающие и его есть куда применить. Лицензия MIT.
- Boring Data [2] готовые шаблоны для Terraform для развёртывания своего стека данных. А я даже не думал что это может быть чем-то большим чем консультации, а оказывается тут просто таки автоматизированный сервис с немалым ценником.
- Understanding beneficial ownership data use [3] отчет о том как используются данные о бенефициарных собственниках компании, от Open Ownership. Пример того как делать исследования аудитории по большим общедоступным значимым базам данных / наборам данных.
- Дашборд по качеству данных в opendata.swiss [4] а ещё точнее по качеству метаданных, этим многие озадачены кто создавал большие каталоги данных.
- Open Data in D: Perfekte Idee, halbherzige Umsetzung? Ein Erfahrungsbericht. [5] выступление с рассказом о состоянии доступа к геоданным в Германии с конференции FOSSIG Munster. Всё на немецком, но всё понятно😜 там же презентации. TLDR: все геоданные в Германии доступны, но не во всех территориях одинаково. Можно только позавидовать
- Legal frictions for data openness [6] инсайты из 41 юридического случая проблем с использованием открытых данных для обучения ИИ.

Ссылки:
[1] https://github.com/vanna-ai/vanna
[2] https://www.boringdata.io/
[3] https://www.openownership.org/en/publications/understanding-beneficial-ownership-data-use/
[4] https://dashboard.opendata.swiss/fr/
[5] https://pretalx.com/fossgis2025/talk/XBXSVJ/
[6] https://ok.hypotheses.org/files/2025/03/Legal-frictions-for-data-openness-open-web-and-AI-RC-2025-final.pdf

#opendata #data #dataengineering #readings #ai #dataquality #geodata
1👍8
Команда DBT выложила их State of Analytics Engineering Report 2025 [1] с некоторым числом полезных инсайтов по результатам опроса их пользователей. Тут главное не забывать что analytics engineer не то чтобы зафиксированная профессия, скорее некое предположение что они есть. Но инсайты полезны во многих смыслах того как работают современные дата аналитики и какие продукты создаются.

Ссылки:
[1] https://www.getdbt.com/resources/reports/state-of-analytics-engineering-2025

#analytics #readings #data
2
A framework for Al-ready data [1] свежий доклад от Open Data Institute о том как публиковать наборы данных для машинного обучения. Характерно что ссылаются на стандарт Croissant и Hugging Face и не ссылаются на Frictionless Data.

Всё выглядит разумно с примерами из публикации открытых данных и открытой научной инфраструктуры.

Ссылки:
[1] https://theodi.org/insights/reports/a-framework-for-ai-ready-data/

#opendsata #readings #standards
👍41
Anthropic запустили программу AI for Science [1] обещая выдавать существенное количество кредитов для запросов к их AI моделям. Акцент в их программе на проекты в областях биологии и наук о жизни, обещают выдавать кредитов до 20 тысяч USD, так что это вполне себе серьёзные гранты для небольших целевых проектов. Ограничения по странам не указаны, но указание научного учреждения и ещё многих других данных в заявке обязательно.

И на близкую тему Charting the AI for Good Landscape – A New Look [2] о инициативах в области ИИ затрагивающих НКО и инициативы по улучшению жизни, так называемые AI for Good. Применение AI в науках о жизни - это почти всегда AI for Good, так что всё это очень взаимосвязано.

Ссылки:
[1] https://www.anthropic.com/news/ai-for-science-program
[2] https://data.org/news/charting-the-ai-for-good-landscape-a-new-look/

#openaccess #openscience #ai #grants #readings
👍32
В продолжение короткого анализа плана мероприятий по реформе статистики в РФ напомню мои многочисленные тексты про статистику в России и не только:
- Российская статистика: немашиночитаемая институциональная фрагментация - о том российская статистика рассеяна по сотням сайтов
- Статистика как дата продукт - о том как рассматривать статистику как дата продукты
- Дашборд Германии (Dashboard Deutchland) - о том как публикуются статистические индикаторы статслужбой ФРГ
- Обзор сайта Office for National Statistics в Великобритании - о том как раскрывают данные статслужбы Великобритании
- Обзор геопространственной статистики Мексики - от их Национального института статистики
- Признаки хорошей статистической системы - о том как можно публиковать статданные удобным образом
- О статслужбах Канады и Хорватии - и о том как официальные сайты статслужб становятся поисковиком
- О DBNomics - французском проекте по агрегации статистики со всего мира.
- Публикация данных IMF - о том как публикуются данные международного валютного фонда

И многое другое по тегу #statistics тут в телеграм канале.

Учитывая что с самого начала я заводил этот телеграм канал как базу заметок, уже чувствую необходимость превратить его в базу знаний с автоматической синхронизацией того что пишу здесь, в том что разворачивалось бы как Markdown тексты с движком вроде Docusaurus или аналогичными Wiki подобными open source продуктами. Или с автоматической синхронизацией с Obsidian или Notion.

#statistics #readings
2👍102🔥2
Полезные свежие научные статьи про работу с данными:
- Large Language Models for Data Discovery and Integration: Challenges and Opportunities - обзор подходов по обнаружению и интеграции данных с помощью LLM
- Unveiling Challenges for LLMs in Enterprise Data Engineering - оценка областей применения LLM в корпоративной дата инженерии
- Magneto: Combining Small and Large Language Models for Schema Matching - про одно из решений сопоставления схем через использование LLM и SLM
- Interactive Data Harmonization with LLM Agents - интерактивная гармонизация данных с помощью LLM агентов
- Towards Efficient Data Wrangling with LLMs using Code Generation - про автоматизацию обработки данных с помощью кодогенерирующих LLM

#readings #data
👍7
Про MCP ещё полезное чтение

A Critical Look at MCP [1] автор задаётся вопросом о том как же так получилось что протокол MCP (Model Context Protocol) используемый для интеграции сервисов, инструментов и данных с LLM спроектирован так посредственно и описан довольно плохо. О том же пишет другой автор в заметке MCP: Untrusted Servers and Confused Clients, Plus a Sneaky Exploit [2].

Думаю что дальше будет больше критики, но популярности MCP это пока никак не отменяет

Ссылки:
[1] https://raz.sh/blog/2025-05-02_a_critical_look_at_mcp
[2] https://embracethered.com/blog/posts/2025/model-context-protocol-security-risks-and-exploits/

#ai #llm #readings
👍61💯1
Для тех кто любит не только читать, но и слушать книжки. Audiblez [1] генератор аудиокниг по текстам, с открытым кодом, командной строкой и UI интерфейсом. Поддерживает английский, испанский, французский, хинди, итальянский, японский, португальский и китайский. Русский не поддерживает и даже армянского языка нет - это минус, в основном из-за того что внутри используется Kokoro-82M [2] модель где только эти языки. Можно выбрать книгу в epub формате и голос и создать аудиокнигу.

Сама генерация аудиокниги весьма ресурсоёмкая, но реалистичная.

Лицензия MIT.

Ссылки:
[1] https://github.com/santinic/audiblez
[2] https://huggingface.co/hexgrad/Kokoro-82M

#opensource #ai #books #readings
6❤‍🔥1
К новостям о том что в РФ опять обсуждают блокировку Википедии и пытаются продвигать РуВики, как идеологически верную альтернативу, мне вспомнился апрельский лонгрид Саймона Кемпа Digital 2025: exploring trends in Wikipedia traffic [1] с весьма подробным разбором о том как снижается трафик и пользовательская база Википедии и что происходит это не вчера и не сегодня, а уже много лет.

Для тех кому лень читать текст целиком, вот основные тезисы:
1. Трафик на сайты Википедии неуклонно снижается и за 3 года с марта 2022 года по март 2025 года он снизился на 23 процента.

2. Основная причина снижения - это политика Google по выдаче результатов прямо в поиске. Потому что прямой трафик на Википедию довольно стабилен, а вот поисковый трафик, преимущественно из Google, существенно снизился.

3. Применение облачных ИИ Агентов (ChatGPT, Claude, Perplexity) идёт в том же тренде что и поисковый трафик, но отдаёт ещё меньше трафика чем поисковые системы. В среднем, происходит снижение на треть переходов на внешние источники.

От себя я добавлю что инициативы Фонда Викимедия перейти от модели существования как дата дистрибьютора, торгуя датасетами и доступом к "высококачественному API" - это всё попытки преодолеть этот кризис. В котором кроме Википедии находятся и значительное число сайтов ориентированных на создание контента и вынужденные менять бизнес модели, например, переходя на пэйволы и ограничивая доступ к контенту.

Поэтому главный мой посыл в том что Фонд Викимедия в целом и Википедия уже много лет как находятся в кризисе, достаточно медленно ползущем чтобы всё не рухнуло, но достаточно явным чтобы за них беспокоиться.

Кто выигрывает от блокировки Википедии? Думаете РуВики? Нет. Даже если они станут не про-государственным, а полностью госпроектом на 100% бюджетном финансировании (если ещё не), то даже в этом случае РуВики станет популярным только если начнётся принуждение поисковых систем ставить ссылки на него, а не на Википедию. Но Гугл на это никогда не пойдет, а Яндекс будет сопротивляться до последнего. Да и как можно было понять ранее, поисковики всё меньше трафика отдают контентным проектам, стараясь держать пользователей в своей экосистеме. Потому что это им выгоднее и ничего более.

В итоге от запрета Википедии в РФ выиграют по списку:
1. Поисковые системы Google и Яндекс (думаю что Google существенно больше)
2. Облачные AI агенты (ChatGPT, Perplexity, Claude и др.)
3. Продавцы коммерческих VPN сервисов

Я не знаю чьими лоббистами являются ратующие за запрет Википедии, но выгодоприобретатели понятны и очевидны.

Ссылки:
[1] https://datareportal.com/reports/digital-2025-exploring-trends-in-wikipedia-traffic

#wikipedia #thoughts #ai #readings
👍9😱4😢21
Свежая колонка в российском Forbes за моим авторством по поводу того как МВД начнёт следить за иностранцами в РФ в ближайшем будущем https://www.forbes.ru/tekhnologii/538203-test-na-antiutopiu-na-cto-pohoz-zakon-o-kontrole-inostrancev-cerez-smartfony

Честно говоря, я бы на эту тему скорее рассказ написал потому что сюжет уж очень просится на антиутопическую социальную фантастику.

Трудно писать о подобном не абстрагируясь. Лично мне абстрагироваться помогает написание всякой фантастики, в этом плане окружающая действительность это находка для начинающего фантаста-антиутописта.

#readings #writings #privacy
👍11💯3🤣3🤔21😢1🌚1
Статья Teachers Are Not OK [1] в 404 Media о том как LLM повлияли на образование в США через взгляд учителей. Если вкратце, то взгляды апокалиптичные. Автор собрал полученные письма от учителей после предыдущей его статьи на тему LLM в образовании и получил ещё более яркую картину того как учителя смотрят на происходящее.

Кстати, стоит исходить из того что в США использование LLM студентами стало массовым довольно быстро, но это происходит по всему миру.

Уверен что многие читающие меня преподают, что скажете о своём опыте? Ваши студенты уже все используют LLM? И как меняется процесс обучения?

Ссылки:
[1] https://www.404media.co/teachers-are-not-ok-ai-chatgpt/

#ai #teaching #readings
🔥42
Свежий The AI Policy Playbook [1] документ с обзор политики в области ИИ в ряде стран Глобального Юга и рекомендаций. В списке Гана, Индия, Индонезия, Кения, Руанда, Южная Африка и Уганда. Для тех кто изучает эти страны и ИИ политику в мире в целом будет полезно.

Документ опубликован в рамках программы FAIR Forward, поддержки Пр-вом Германии развивающихся стран, чем, собственно, выбор стран и обусловлен, ибо это страны их присутствия и активности.

Ссылки:
[1] https://www.bmz-digital.global/wp-content/uploads/2025/05/AI-Playbook-2025-WEB-1.pdf

#ai #policies #readings
👍143
Выводят ли боты с искусственным интеллектом культурное наследие из строя? [1] свежий доклад Макла Вайнберга из GLASB e-Lab посвящённый тому что ИИ боты нарушают работу открытых культурных ресурсов.

И это куда серьёзнее чем ранее существовавшие проблемы открытого доступа, теперь ИИ боты напрямую злоупотребляют открытостью и от них отбиваются с помощью многочисленных CDN и иных сервисов блокирующих любое индексирование сайтов и проверяющих доступ к материалам на "человечность" запрашивающего.

Почитать стоит о том что теперь поддержание открытых коллекций стоит существенно дороже и о разных мерах применяемых к ботам, самые радикальные из этих мер - это блокировка по географии, когда блокируются некоторые страны. Например, я знаю довольно много онлайн ресурсов которые более не открываются с IP адресов относимых к России и к Китаю именно по этой причине.

При всех полезных сторонах ИИ, есть реальная угроза того что многие общедоступные культурные ресурсы будут уходить в режим доступа только после авторизации и их доступность будет существенно снижаться.

#opendata #culturalheritage #readings
8😱8
Совсем свежее The OpenAI Files [1] сайт посвящённый практикам ведения бизнеса в OpenAI собранный группой расследователей The Midas Project и The Tech Oversight Project.

Ценность его в сжатости изложения проблем и наборе конкретных рекомендаций [2] о том что с этим всем делать.

Не стоит полагать что OpenAI единственная компания с такими практиками, но они стремительно выросли, обладают всё большим влиянием и очень высокой непрозрачностью.

Чтение полезное для всех кто интересуется AI и этикой.

Ссылки:
[1] https://www.openaifiles.org/
[2] https://www.openaifiles.org/vision-for-change

#readings #ai #openai #ethics
❤‍🔥32
Полезное чтение про данные, технологии и не только:
- I feel open source has turned into two worlds [1] автор пишет про то как классический open source мир столкнулся с корпоративным и это ещё один водораздел между теми кто исповедует открытость как ценность и теми кто зарабатывает на этом деньги.
- Can A.I. Quicken the Pace of Math Discovery? [2] могут ли ИИ помощники усилить и ускорить научные открытия в высшей математике ? Тема очень и очень непростая, но в США DARPA запускают инициативу в которой хотят это попробовать.
- The Brute Squad [3] автор поёт оды вайб-кодингу, насколько оправданные - вот в чём вопрос. Но прочитать стоит

Ссылки:
[1] https://utcc.utoronto.ca/~cks/space/blog/tech/OpenSourceTwoWorlds
[2] https://www.nytimes.com/2025/06/19/science/math-ai-darpa.html
[3] https://sourcegraph.com/blog/the-brute-squad

#readings #ai #opensource
👍84
Свежее исследование How do people feel about AI? [1] о восприятии ИИ в Великобритании от Института Алана Тюринга и Института Ады Лавлейс. Последний раз оно проводилось в 2023 году, поэтому в исследовании 2025 года много сравнений и отражение изменений с 2023 года.

Вот ключевые факты:
- 72% британцев считают что регулирование сделает для них использование ИИ более комфортным. Два года назад так говорили лишь 62%
- большие языковые модели стали мейнстримом и о их использовании говорят уже 61% респондентов
- уровень доверия ИИ стабилен, а уровень тревожности в отношении ИИ вырос с 44% в 2023 году, до 59% в 2025 году
- 75% жителей считают важным появление регулятора ИИ
- есть большой разброс того что люди знают об ИИ. Почти все знают об автомобилях без водителей и немногие знают о ИИ для распределения социальных пособий.
- пользователи по разному относятся к применению LLM к разным задачам. Менее всего они склонны их использовать в задачах имеющих юридические последствия, более всего для поиска
- самым позитивным применением считаются технологии распознавания лиц (!)
- самым негативным - автомобили без водителей

Там ещё много всего, исследование весьма подробное и его стоит почитать всем кто изучает влияние ИИ на общество.

Важно не забывать что оно проводилось в Великобритании и в разных странах опасения могут быть и будут разными.

Ссылки:
[1] https://attitudestoai.uk/

#readings #ai #uk
6🤔4👍2
Свежий доклад по регулированию и использованию ИИ экспертов ООН в рамках рабочей группы по правам человека. Если вкратце то выводы и рекомендации о том что права человека должны быть основным ориентиром для разработчиков и заказчик продуктов на базе ИИ и учитываться при их создании и закупке.

Документ там небольшой, 26 страниц, вот тут прямая ссылка на версию на русском языке [2], но читать документы ООН всегда очень тяжело. Их не пишут простым языком, они всегда забюрократизированы, но читать их важно, в том числе учитывать при разработке новых ИИ продуктов.

Ссылки:
[1] https://www.ohchr.org/en/documents/thematic-reports/ahrc5953-artificial-intelligence-procurement-and-deployment-ensuring
[2] https://docs.un.org/ru/A/HRC/59/53

#readings #ai #UN
👍32🙏2🤣2
Вышел отчёт ОЭСР Government at Glance 2025 [1] с обзором состояния и трендов государств членов и кандидатов в ОЭСР по таким темам как бюджетные расходы (дефицит), цифровизация, открытость и многое другое.

Для тех кто следит за публикациями ОЭСР будет не так интересно, поскольку в отчетах приводятся данные прошлых лет, 2022-2024 в данном случае, например, цифры по открытости данных из индекса OURIndex за 2023 год и так далее.

Но отчет будет интересен тем что предпочитает читать слова, а не таблицы.

Там же доступны отчеты по отдельным странам.

Из постсоветских стран в ОЭСР представлены только Латвия, Литва и Эстония.

Лично я эти отчеты читаю по диагонали потому что там только общие оценки и графики, а не разбор конкретных кейсов, такие материалы в других документах, но любопытное встречается.

Например, то что в РФ называют проактивными госуслугами, в терминологии ОЭСР звучит как life events approach to service design and delivery и далеко не во всех развитых странах он существует.


Ссылки:
[1] https://www.oecd.org/en/publications/government-at-a-glance-2025_0efd0bcd-en.html

#opengovernment #opendata #readings #oecd #reports
4👍2