Ivan Begtin

В рубрике как это устроено у них ASEANStats портал статистических данных стран входящих АСЕАН. Включает данные нескольких сотен индикаторов, в том числе метаданные, возможность экспорта в Excel, отображение в виде графиков и тд. Из особенностей - это акцент на экономических индикаторах. Из минусов - нет документированного API, нет массовой выгрузки. Из плюсов - все данные доступны под свободной лицензией CC-BY 4.0 что явно указано.

У АСЕАН нет портала открытых данных да и вообще не у всех межгосударственных блоков они есть, но есть вот такой портал статистики приближенный к тому что можно было бы назвать порталом с открытыми данными.

#opendata #datacatalogs #statistics #ASEAN

👍4✍1

1.44K viewsIvan Begtin, 07:12

Ivan Begtin

Также в рубрике как это устроено у них у Всемирной организации здравоохранения (WHO) существует множество информационных систем и банков данных, начиная с центральной data.who.int и продолжая информационным и системами по региональным блокам. Большая часть из них - это довольно консервативные системы отображения графиков и дашбордов статистики. Но отдельно стоит Western Pacific Health Data Platform (Западно-Тихоокеанская платформа данных о здоровье). Она относительно недавно была обновлена и является гибридом между системой управления статистистикой, визуализации данных и каталога открытых данных. Она содержит 2433 показателя по 38 странам, опубликованные в 4051 наборе данном доступном в форматах CSV, JSON, XLSX, RDATA, Parquet.

Достоинства - современные форматы доступности данных, свободные лицензии (WHO Data Policy = CC BY 4.0), большое число индикаторов

Недостатки - недокументированое REST API, нет bulk download (компенсируется наличием bulk download и API у самого WHO)

#opendata #datasets #WHO #datacatalogs

👍3✍2❤1

1.49K viewsIvan Begtin, 08:00

Ivan Begtin

Forwarded from Неискусственный интеллект (Ruslan Dz)

Выжженная китайцами земля

Алармизма пост. Китайский бигтех и лабы открывают веса своих LLM, но совсем не от доброты душевной.

К концу 2025 года доля китайских open source моделей в глобальном использовании выросла с 1,2% до 30%. По данным OpenRouter и a16z, из топ-5 открытых моделей четыре китайские: MiniMax, Alibaba, DeepSeek, Z.ai.

Стартапы Кремниевой долины тихо пересаживаются на китайский фундамент. Cursor: нашли токенизатор DeepSeek. Cognition (аналог курсора под названием Devin): судя по всему, использует GLM от Zhipu AI под капотом. CEO Airbnb Брайан Чески прямо говорит Bloomberg: «Мы сильно полагаемся на Qwen от Alibaba», а модели OpenAI «обычно не так много используем в продакшене, есть быстрее и дешевле». Чамат Палихапития, венчурный инвестор и сооснователь Social Capital, перетащил рабочие нагрузки на Kimi K2 от Moonshot AI. Потому что «значительно производительнее и просто намного дешевле, чем OpenAI и Anthropic».

Экономика простая. Даже через API китайские модели стоят в пять раз дешевле западных. MiniMax M2 выдаёт производительность на уровне Claude Sonnet 4.5 за 8% его цены. Внутри Китая ещё жёстче: ценовая война обрушила стоимость токенов на 92% с мая 2024. DeepSeek начал, Alibaba подхватила, ByteDance добила.

Но дело не только в цене. Каждый китайский гигант раздаёт веса бесплатно, потому что монетизация этажом ниже. Alibaba: PAI + Alibaba Cloud. Baidu: PaddlePaddle + Kunlun. Huawei: MindSpore + Ascend. Модель это воронка, инфраструктура это бизнес. Ровно как Google отдавал Android бесплатно, а зарабатывал на Play Services. Только здесь каждый строит свой Android.

Стратегия читается в три хода. Сначала модели становятся стандартом, на основе Qwen построено уже 170 000 производных моделей. Потом разработчики привыкают к фреймворкам. Потом фреймворки оптимизируются под китайское железо. Мягкая сила в чистом виде: сначала удобно, потом привычно, потом безальтернативно.

Удар приходится точно по бизнес-модели западных лаб. У OpenAI и Anthropic нет своего железа, а монетизация идёт на уровне модели и API. Именно этот слой китайцы целенаправленно коммодитизируют. Microsoft и Google в лучшей позиции за счёт облаков. Чистые LLM-провайдеры в тисках. Миша Ласкин, которого мы уже упоминали, поднял $8 млрд на Reflection AI ровно на тезисе, что Америке нужна своя открытая альтернатива. Сам факт существования такого стартапа это признание масштаба проблемы.

В сухом остатке: Китай коммодитизирует слой, на котором зарабатывает Запад. Стартапы считают деньги и выбирают Qwen. Разработчики привыкают к китайским стекам. Все получают бесплатные модели, никто не задумывается о зависимости. Классическая мягкая сила с ценником «бесплатно». Пока что бесплатно. Как всегда у китайцев.

@anti_agi

👍25😱3🌚3❤2🤝2😁1

1.5K viewsIvan Begtin, 15:38

Ivan Begtin

Forwarded from Радио Земля

🗺Недавно при составлении социально-экономической карты региона возникла трудность – примерно в середине 2025 года федеральная служба государственной статистики прекратила обновлять данные по ключевым категориям, а те, что уже были сейчас засекречены. Карта, все же получилась, но не такая, как задумывалась. Этот момент заставил задуматься о том, где брать данные для социально-экономических карт и как их составлять в ближайшем будущем, потому что хороших аналогов росстата вроде как нет.
Тем не менее, вот несколько источников данных на РФ:
1. Каталог каталогов. База данных из каталогов, геопорталов и других источников данных. Датасеты разделены по тематикам, странам и регионам.
2. Dateno. Сервис от создателей каталога каталогов, здесь собраны открытые данные на весь мир, регулярно обновляются.
3. Федеральный портал пространственных данных. Портал с картографическими и геодезическими материалами, хранящихся в государственных фондах.
4. Хаб открытых данных. Почти 10 тысяч наборов данных из официальных источников в различных форматах.
5. Пространственные данные МГИМО. Несколько открытых датасетов на социально-экономическую тематику.
6. ИКИ РАН покрытие лесов РФ. Карты лесного покрова. Возможно, есть что-то еще во вкладке архивы данных.

В комментариях можете делиться, какие источники данных можно упомянуть еще. Ставьте реакции, если было полезно, у меня есть еще много источников на другие тематики и страны, буду знать, если интересно.

#материалы@radio_Earth

1👍16🙏5❤4⚡2✍1

1.44K viewsIvan Begtin, 07:45

Ivan Begtin

Я тут уже не раз рассказывал про то как работаю над реестром каталогов данных который воплотился в Dateno registry и который доступен в открытом репозитории.

Я только-только закончил релиз версии 1.4.0 в которую добавил 208 новых каталогов с данными и общее число достигло 12 489, существенная их часть была добавлено из ecosystem.ckan.org нового проекта OKFN с карточками сайтов на базе CKAN - это примерно 80 каталогов. Кроме того много изменений с исправлением ошибок в метаданных, обновлением документации, переходу к спецификациям OpenSpec.

По своей природе этот реестр можно отнести к проектам контролируемых справочников или справочных баз данных. Он несколько сложнее чем простые одномерные справочники, тем не менее, он подходит под эту категорию и на его основе можно делать много чего. И он лежит в ядре системы индексации данных внутри Dateno, конечно же.

Сейчас практически полностью он обновляется с помощью Cursor, Antigravity и последующими ручными правками. Это не идеальный процесс, эти инструменты тоже делают ошибки, но с их помощью очень хорошо отрабатываются задачи в стиле добавления новых каталогов данных и исправления ошибок в имеющихся.

На старте Dateno я оценивал работу по чистке и расширению этого реестра в 4-6 человека месяца и не меньше двух аналитиков мне в помощь и то что у меня самого это занимало бы 20-25% времени, в итоге оказалось что сейчас у меня это занимает 5% и привлекать аналитиков к его ведению не потребовалось. Экономия времени в человеко-часах примерно в 25 раз. Без преувеличений.

Но также важно что качество реестра сильно выросло за счет внутреннего инструмента валидации его качества. Скрипт создает отчеты по большому перечню правил контроля качества записей что важно поскольку огромное число записей в реестре создавались вручную или импортом и многих метаданных просто не было или было трудоемко собирать вручную. Сейчас почти все они есть.

Я лично веду несколько проектов таких контролируемых справочников и могу сказать что такой подход себя очень оправдывает.

#opendata #datasets #dateno #data #datacatalogs

👍12❤‍🔥3🔥3❤1

1.56K viewsIvan Begtin, edited 10:42

Ivan Begtin

ИИ по факсу в Германии https://simple-fax.de/fax-ki

Внутри LLM модели от OpenAI.

Как ответ на вопрос "использует ли ещё кто-то факсы?"😎

Никто еще не подключил ИИ к СМС?

#ai #curiosities #germany

Please open Telegram to view this post

VIEW IN TELEGRAM

😁23🔥2

3.65K viewsIvan Begtin, 11:33

Ivan Begtin

Ещё немного рефлексии по поводу применения ИИ в разработке и не только:
1. Важная проблема с ИИ сейчас - психологическая. Изменения происходят значительно быстрее чем многие могут к ним адаптироваться. И если в ИТ все более-менее привыкли уже к быстрым изменениям, то во многих других профессиях это происходит существенно тяжелее и с большой психологической нагрузкой. Разница в работе тех кто использует ИИ постоянно и тех кто сопротивляется очень заметна. Скоро потребуются курсы адаптации к этим изменениям (психологам работы прибавится).

2. В ИТ видно что ИИ ассистенты хорошо охватили блоки дизайна и разработки ПО, существенно эффективны в задачах devOps, продвигаются в задачах дата инженерии, но пока не видно специализированных продуктов по тестированию ПО. Но возможно я этого пласта применения просто не вижу, хотя он всё важнее.

3. Свежий доклад World Bank про распространение ИИ в развивающихся странах о том что есть новая форма неравенства в том как ИИ создается и применяется в странах с невысокими доходами. Акцент на малых моделях SLM работающих на повседневных устройствах. Тут важно не забывать что ИИ модели - это не только инструменты, но и де-факто срез мировых знаний локальные страновые модели будут применяться для цензурирования контента. Регуляторы к этому медленно адаптируются, они просто не успевают за потоком изменений, но этот поток не вечно будет столь изменчивым. Когда поток изменений поубавится или хотя бы станет предсказуемым жесткое регулирование будет неизбежным.

#thoughts #ai #itmarket

World Bank

Strengthening AI Foundations: Emerging Opportunities for Developing Countries

The World Bank’s Digital Progress and Trends Report 2025 explores how AI is accelerating growth in developing countries, while highlighting persistent gaps in access, infrastructure, and skills. Discover key trends, challenges, and the ‘Four Cs’ needed to…

👍12🔥5🤝4

1.82K viewsIvan Begtin, 18:37

Ivan Begtin

Судя по новостям в России начали банить Telegram и я мог бы много чего сказать про глупость этого, про то что по рядовым чиновникам и госслужащим это бьет не меньше чем по всем остальными о том что внутри российских госорганов недоверие MAX'у не меньшее чем у простых и продвинутых россиян. Политическая целесообразность, тем не менее, в РФ абсолютно затмевает экономическую.

Тем не менее я не сомневаюсь что аудиторию мой канал не потеряет как и большая часть коммуникаций сохранится. Самое очевидное и значимое то что:
1. Многие команды работающие в РФ частично или полностью будут вынуждены теперь повсеместно использовать VPN. Я, кстати, не испытываю сомнений что пока SSH протокол не начали замедлять будет сложно заблокировать что VPN'ы что прокси для отдельных приложений.
2. Не только в контексте РФ, но и других стран есть явная ниша для zero-config сервисов вроде Tailscale или Twingate для организации внутрикорпоративных сетей. Применительно к РФ их главный недостаток сейчас в том что они работают с использованием Wireguard как основного протокола.

#thoughts

❤29💯15🤝7🤔2

2.28K viewsIvan Begtin, 14:48

Ivan Begtin

Для меня один из давних вопросов в том могут ли LLM работать с двоичными данными и делать это хорошо. Но если я только задумывался об этом то ребята из Quesma проделали серию тестов с внедрением вредоносов в несколько бинарников популярных серверных продуктов и попробовали с помощью разных LLM их выявить используя опенсорные инструменты Ghidra и Radare2. А по итогам они написали подробный отчет в котором есть еще и ссылки на детали замеров и исходники.

В качестве короткого резюме - да, возможно. Лучше всего себя показал последняя модель Claude Opus 4.6, хуже всего Grok-4.1-fast. Впрочем использование Claude Opus 4.6 было самым дорогим, его использование вышло в $300, но и выявил он 49% всего вредоносного кода (бинарного в исполняемых файлах)

Результат интересен еще и его обратимостью, если ИИ ассистенты так хороши в обнаружении вредоносного кода в бинарниках, то они же могут быть хороши и в его сокрытии. А значит и хакеры могут получить более опасные инструменты и борьба с ними станет тяжелее.

#opensource #ai #itsecurity

👍7❤6

1.78K viewsIvan Begtin, 19:09

Ivan Begtin

Ещё в рубрике как это устроено у них о том что порталы и каталоги открытых данных даже со свободными лицензиями не всегда содержат открытые данные.

Портал открытых данных The AIDS Data Repository содержит 598 наборов данных которые организованы так что для доступа к ним нужна регистрация в их внутренней системе. На портале доступны карточки метаданных, но сами ресурсы вынесены в отдельную систему с авторизацией.

Проект OpenHeritage3D содержит 3D модели многочисленных культурных объектов по всему миру, как правило на условиях CC BY-NC-ND, довольно ограничивающих, но дело не только в них. Данные напрямую скачать нельзя, нужно заполнить Download Submission Form и только после этого получить ссылки на закачку данных на почту.

Собственно это одна из причин почему открытыми данными называют то что соответствует Open Data Principles, а не все что де факто так называется или общедоступно.

#opendata #datacatalogs

🔥3❤‍🔥2

1.63K viewsIvan Begtin, 09:41

Ivan Begtin

В рубрике интересных и малоизвестных проектов:
- PyDI малоизвестный широкой публике инструмент интеграции данных через LLM. Делается в Университете Маннхейма. Много полезного чтобы посмотреть как реализуют задачи schema matching, сопоставления структур данных для интеграции
- Web Data Commons коллекция огромного объёма (ну ладно, не огромного, просто не маленьких) наборов данных веб разметки объектов извлеченных из Common Crawl. Если проще - результаты извлечения объектов Schema.org из дампов Common Crawl. Уже год не добавляют нового, но и имеющееся весьма полезно
- DuckDB eurostat расширение для DuckDB для работы с данными Евростата. Я смотрю на это и думаю, ну почему, ну почему это сделал не я😱. Идея отличная, может сделать расширение поиска данных в Dateno через DuckDB? Но у нас нет SDK для C++, но можно и без SDK. Я вот не писал на C++ уже лет 30, только читал, патчил, собирал, но не вел полноценной разработки. Но самому такое делать и не надо, конечно. Надо привлечь кого-то к этому прекрасному делу.
- DOOMQL реализация игры DOOM на SQL в базе CedarDB. Для всех кто любит DOOM. В основе аналогичная реализация игры для DuckDB, на неё там приведены ссылки.

#opensource #data #datasets #dataengineering

GitHub

GitHub - wbsg-uni-mannheim/PyDI: The PyDI framework provides methods for end-to-end data integration. The framework covers all…

The PyDI framework provides methods for end-to-end data integration. The framework covers all steps of the integration process, including schema matching, data translation, entity matching, and dat...

👍8

1.56K viewsIvan Begtin, 18:42

Ivan Begtin

Мысли вслух, если все эти разговоры что РФ и США будут укреплять экономические связи если/когда закончится активная фаза военного конфликта, то звучит это всё так что существенная часть импортозамещения пойдет, выражаясь образно, ослу под хвост.

То есть от "отечественных ИТ продуктов" внутри госорганов отказа не будет, а вот бизнес крупняк может если не полностью то существенно вернуться к покупке лицензий на ПО из США. Кто-то может быть и нет, но кто-то точно да, те кто дольше всех тянул с переходом и пользовался пиратскими версиями сколько мог.

Но и это не так критично как то что американские ИИ-бигтехи быстро сожрут весь потребительский рынок прикладных ИИ ассистентов для конечных потребителей. Что Сбер, что Яндекс, им сейчас не конкуренты по множеству объективных причин.

#thoughts #itmarket

❤11👍8😁6

1.49K viewsIvan Begtin, 17:47

Ivan Begtin

В рубрике как это устроено у них Osti.gov портал с результатами исследований профинансированными Департаментом энергетики США (IS Department of Energy). Включает более 3 миллионов научных результатов: статей, книг, видеозаписей, отчетов, ПО, патентов и, конечно же, данных. которых там более 652 тысяч записей. Это не просто много, а очень много и в целом описывает подход федеральных органов в США к раскрытию данных. В отличие от Китая где научные данный собираются в единый Science Data Bank и в отличие от Европы где действует единый агрегатор OpenAIRE, в США существует несколько крупных тематических агрегаторов каталогов научных данных объединённых под крупными федеральными ведомствами.

Так, помимо Osti.gov, существует ScienceBase.gov с геологическими данными и NASA Earthdata с космическими данными о Земле и NOAA Onestop единый поисковик данных о погоде и FRED банк данных по экономии и социологии от резервного банка Сент-Луиса.

Важная характеристика открытости данных в США в доступности данных для исследователей практически всех научных дисциплин. И важно помнить что их федеральный портал data.gov это далеко не самый крупный государственный портал данных страны.

#opendata #usa #energy #datacatalogs #datasets

⚡6👍3❤1🔥1

1.51K viewsIvan Begtin, 19:28

Ivan Begtin

Я как то рассказывал что я мэйнтейню репозиторий awesome-status-pages на Github'е и так исторически сложилось что до сих пор я не делал ни одного проекта который собрал бы такое же количество звезд (3 617). Совершенно непредсказуемая популярность от побочного awesome листа который я сварганил когда-то за час после того как сам исследовал эту тему. Тем не менее это оказалось именно тем куда потоком стекаются каждый новый создатель таких сервисов, а их сотни, иногда кажется что каждый разработчик хочет сделать свой ~~велосипед~~ проект status pages.

Пока массово не применяли ИИ - это было нормально, а теперь пошел поток ИИ запросов от Claude Code, и вот тут пришлось уже писать пугающее предупреждение и начать банить тех кто отправляет такие пулл реквесты через Claude Code. Их очень легко отличить от человеческих, они слишком грамотно написаны😉

Но чую это только начало, а дальше будет только хуже.

#opensource

😁10👍5

1.51K viewsIvan Begtin, 09:05

Ivan Begtin

Свежий доклад Building Open Digital States: Country Case Studies on the Impact of DPGs for DPI от Digital Public Goods Alliance по продвижению использования продуктов с открытым кодом среди органов власти и международных НКО для решения задач предоставления услуг, повышения эффективности госуправления и не только.

Доклад любопытный, в первую очередь, кейсами по развивающимся странам. Например, можно прочитать про внедрение X-Road в Кыргызстане и про системы моментальных платежей в Руанде и на Филлипинах.

Сама инициатива полезная для понимания как альтернативно может развиваться цифровая инфраструктура без коллосальных инвестиций или опоры на бигтехи и ИТ крупняк вендоров-внедренцев. При этом, конечно, все эти примеры это капли в море реальных ИТ расходов государств по странам, но тем не менее это показательные примеры.

А ещё есть много вопросов. Например, почему в Кыргызстане внедряют X-Road из Эстонии (на самом деле теперь его продвигает Nordic Institute for Interoperability Solutions куда еще входят Финляндия и Исландия), а не российский Гостех? И ответ не только в том что ~~Гостеха не существует~~ Сбер под международными санкциями, но и в том что исходный код X-Road открыт и средства международной помощи выделяются на его внедрение.

#opensource #publicgood

👍5🔥3❤2

1.34K viewsIvan Begtin, 10:49

Ivan Begtin

Читаю с удовольствием историю про появление RevPDF оффлайнового редактора для PDF (а заодно и просмотрщика и конвертера). Автор всерьез заморочился тем чтобы создать ПО с минимальным футпринтом, работающее оффлайн и быстро. Честно говоря выглядит этого особенно хорошо на фоне того в какое неприятное приложение превратился Acrobat Reader и того что редактора PDF почти все платные.

У приложения нет открытого кода, сам автор пишет что во всяком случае пока.

Если автор еще и код откроет так совсем бесценным приложением это будет.

#apps #productivity #softwareengineering

👍19🔥8⚡5✍1❤1

1.52K viewsIvan Begtin, 14:53

Ivan Begtin

Новая версия 1.1 стандарта Croissant как хороший пример эволюции стандартизации описания данных. Стандарт создавался для датасетов для ИИ. Важная его часть - это аннотирование семантическими типами, объектами из Wikidata и иными тематическими справочниками. Это более чем важно для автоматизации понимания содержимого датасета и это то что можно реализовывать уже сейчас для описания наборов данных.

Кроме того в версию стандарта добавлена интеграция с онтологиями прав использования DUO и W3C ORDL и применение W3C PROV онтологии происхождения цифрового объекта.

Как ни посмотри, одни плюсы. Этот стандарт однозначно надо использовать для описания данных в открытых каталогах данных и не только.

#opendata #standards #data #datasets

👍8❤2🤝1

1.29K viewsIvan Begtin, 16:21

Ivan Begtin

Полезные ссылки про данные, технологии и не только:
- Village SQL форк MySQL с возможностью написания расширений и несколькими готовыми расширениями для криптографических функций, генерации UUID и, конечно же, функций для промптинга LLM. Код под GPL2, команда с большим опытом разработки СУБД. Для тех чья жизнь связана с MySQL может быть полезной альтернативой
- Where Data Engineering Is Heading in 2026 - 5+ Trends автор рассуждает о трендах дата инженерии, я бы выделил ту мысль что скоро в вакансиях перестанут упоминать применение ИИ ассистентов как обязательное требование потому что оно будет подразумеваться.
- Polyglot програмная библиотека для Rust для парсинга SQL. Нужный инструмент для самых разнообразных задач. Пока выглядит как наиболее продвинутый из всех мне известных.
- What the fastest-growing tools reveal about how software is being built в блоге Github о том что AI теперь всегда синонимичен Python, о том что Typescript напирает популярность, а Javascript теряет и ряд других интересностей из анализов трендов на Github'е
- Monty облегченная версия интерпретатора Python'а написанная на Rust. Главное - безопасная работа и минимизированная скорость запуска. Зачем? Для экономии ресурсов при запуске в изолированных контейнерах ИИ агентов. Делают ребята из Pydantic. Выглядит как важный и нужный продукт, заодно у них есть сравнение с альтернативами.

#tools #datatools #opensource #dataengineering

GitHub

GitHub - villagesql/villagesql-server: VillageSQL - a drop-in replacement for MySQL with extensions

VillageSQL - a drop-in replacement for MySQL with extensions - villagesql/villagesql-server

🔥5🤔1

1.25K viewsIvan Begtin, 11:49

About

Blog

Apps

Platform