Интересный взгляд на ИИ разработку в тексте про Gas town от Steve Egge. Много уникальной терминологии так что сразу ещё один текст Gas town decoded
Подход интересный, но к терминологии надо привыкнуть ибо сложное описание процессов через большое число новых понятий.
Почитать точно стоит всем кто проектирует ПО
#readings #aiagents
Подход интересный, но к терминологии надо привыкнуть ибо сложное описание процессов через большое число новых понятий.
Почитать точно стоит всем кто проектирует ПО
#readings #aiagents
✍5
Разные мысли вслух:
1. Термин "большие данные" в 2026 году выглядит анахронизмом, а экономика больших данных особенно. Когда слышу его от кого-либо то вот прямо таки ощущаю что человек находится вне контекста и, либо не понимает предметной области (увы), либо довольно долго был от нее оторван. Условно нет никакой "экономики больших данных", есть экономика данных, но и она, условно, слепляется с ИИ стартапами и ИИ экономикой. В этом есть странное смешение хайпа, реальности и страха потому что это гораздо большие изменения цифровых экосистем чем что-то ещё.
2. Евросоюз запустил публичное обсуждение стратегии импортозамещения и снижения зависимости от США стратегии открытой цифровой экосистемы которая должна помочь цифровому суверенитету ЕС и которая формируется из открытости кода, открытости данных и так далее. Мне такой подход нравится больше чем российское импортозамещение, но реалистичность реального цифрового суверенитета для ЕС, по моему, невелика. Однако если ВЫ резидент ЕС и работаете с открытым кодом и данными, то почему бы не поддержать такое хорошее дело?
#opendata #bigdata #thoughts #opensource #eu
1. Термин "большие данные" в 2026 году выглядит анахронизмом, а экономика больших данных особенно. Когда слышу его от кого-либо то вот прямо таки ощущаю что человек находится вне контекста и, либо не понимает предметной области (увы), либо довольно долго был от нее оторван. Условно нет никакой "экономики больших данных", есть экономика данных, но и она, условно, слепляется с ИИ стартапами и ИИ экономикой. В этом есть странное смешение хайпа, реальности и страха потому что это гораздо большие изменения цифровых экосистем чем что-то ещё.
2. Евросоюз запустил публичное обсуждение с
#opendata #bigdata #thoughts #opensource #eu
European Commission - Have your say
❤8👍5👏2
Forwarded from Библиотека для открытой науки
🇺🇸 Выход США из ЮНЕСКО: что это значит для открытой науки?
Выход США из ЮНЕСКО и растущее расхождение американского законодательства с ценностями открытой науки вызывают у экспертов опасения относительно инфраструктуры открытой науки в США. Хотя многое еще неясно, старший научный сотрудник Луиза Безуиденхаут и старший научный советник Нидерландской комиссии по делам ЮНЕСКО Джон Верриет считают, что глобальные последствия для открытой науки могут быть весьма серьезными.
Более подробная информация здесь.
Выход США из ЮНЕСКО и растущее расхождение американского законодательства с ценностями открытой науки вызывают у экспертов опасения относительно инфраструктуры открытой науки в США. Хотя многое еще неясно, старший научный сотрудник Луиза Безуиденхаут и старший научный советник Нидерландской комиссии по делам ЮНЕСКО Джон Верриет считают, что глобальные последствия для открытой науки могут быть весьма серьезными.
Более подробная информация здесь.
www.leidenmadtrics.nl
The withdrawal of the US from UNESCO: What does this mean for Open Science?
The withdrawal of the US from UNESCO and US legislation being increasingly at odds with Open Science values raises concerns regarding Open Science infrastructure in the US. While much is still unclear, our authors argue that the implications for Open Science…
😢14👏2💔2🕊1
Полезные ссылки про данные, технологии и не только:
- Open Responses открытая спецификация на API для LLM на базе OpenAI Responses API. Вообще API OpenAI и так уже было стандартом де-факто, а тут уже и формализированный и описанный стандарт. Не вижу какой-то конкретной организации за его разработкой, похоже на частную инициативу
- Using AI as a Design Engineer о работе дизайн инженера с использованием ИИ, многое похоже на разработку ПО в целом, но есть свои особенности вроде интеграции с Figma MCP
- Can A.I. Generate New Ideas? может ли ИИ генерировать новые идеи? Статья в NYT, под пэйволом. Краткое изложение можно прочитать тут
- How UK museums are embracing citizens’ assemblies to help frame their futures интересное явление когда британские музеи начали создавать общественные советы которые должны помогать им определять их будущее
#uk #museums #ai #llms #design #ideas #readings
- Open Responses открытая спецификация на API для LLM на базе OpenAI Responses API. Вообще API OpenAI и так уже было стандартом де-факто, а тут уже и формализированный и описанный стандарт. Не вижу какой-то конкретной организации за его разработкой, похоже на частную инициативу
- Using AI as a Design Engineer о работе дизайн инженера с использованием ИИ, многое похоже на разработку ПО в целом, но есть свои особенности вроде интеграции с Figma MCP
- Can A.I. Generate New Ideas? может ли ИИ генерировать новые идеи? Статья в NYT, под пэйволом. Краткое изложение можно прочитать тут
- How UK museums are embracing citizens’ assemblies to help frame their futures интересное явление когда британские музеи начали создавать общественные советы которые должны помогать им определять их будущее
#uk #museums #ai #llms #design #ideas #readings
www.openresponses.org
Open Responses
Open Responses documentation overview.
✍5⚡2
В качестве регулярных напоминаний, большое количество открытого кода который я лично создавал и поддерживаю:
- iterabledata библиотека для Python по работе с любыми файлами с записями с помощью прямого их перебора и возвращением каждой записи как словаря (dict). Фактически реализация интерфейсов csv.DictReader и csv.DictWriter для десятков форматов файлов таких как JSON, JSON lines, XML, Parquet, ORC и множества более специфических и отраслевых таких как PCAP, WARC и др.
- internacia-db референсная база данных с базовыми данными по странам и по страновым блокам. Распространяется в форматах JSONL, Parquet, DuckDB, YAML. Полезно для задач обогащения данных, поиска и фильтрации результатов в территориальной привязке, сравнении стран и территориальных блоков.
- undatum это инструмент командной строки для работы с файлами со сложной иерархией так как работают с CSV файлами. Он умеет считать статистику, преобразовывать файлы, анализировать их, разрезать на части и тд. Внутри используется библиотека iterabledata и большое число форматов файлов поддерживаются
- metacrafter библиотека для Python и инструмент командной строки для работы с семантическими типами данных, используется для выявления персональных идентификаторов и иных объектов (кодов организаций, кадастровых и почтовых кодов и так далее)
А также много другого открытого кода о котором я регулярно тут пишу.
#opensource #data #dataengineering #datatools
- iterabledata библиотека для Python по работе с любыми файлами с записями с помощью прямого их перебора и возвращением каждой записи как словаря (dict). Фактически реализация интерфейсов csv.DictReader и csv.DictWriter для десятков форматов файлов таких как JSON, JSON lines, XML, Parquet, ORC и множества более специфических и отраслевых таких как PCAP, WARC и др.
- internacia-db референсная база данных с базовыми данными по странам и по страновым блокам. Распространяется в форматах JSONL, Parquet, DuckDB, YAML. Полезно для задач обогащения данных, поиска и фильтрации результатов в территориальной привязке, сравнении стран и территориальных блоков.
- undatum это инструмент командной строки для работы с файлами со сложной иерархией так как работают с CSV файлами. Он умеет считать статистику, преобразовывать файлы, анализировать их, разрезать на части и тд. Внутри используется библиотека iterabledata и большое число форматов файлов поддерживаются
- metacrafter библиотека для Python и инструмент командной строки для работы с семантическими типами данных, используется для выявления персональных идентификаторов и иных объектов (кодов организаций, кадастровых и почтовых кодов и так далее)
А также много другого открытого кода о котором я регулярно тут пишу.
#opensource #data #dataengineering #datatools
GitHub
GitHub - datenoio/iterabledata: Python library to read, write and convert data files with formats BSON, JSON, NDJSON, Parquet,…
Python library to read, write and convert data files with formats BSON, JSON, NDJSON, Parquet, ORC, XLS, XLSX, XML and many others - datenoio/iterabledata
👍15
Фонд Викимедиа анонсировал партнерство с ещё несколькими ИИ бигтехами - это Amazon, Meta, Microsoft и Mistral AI, вдобавок к уже имевшимся партнерствам с Google, Ecosia, Nomic, Pleias, ProRata и Reef Media. Можно сказать что, вполне возможно, у Википедии появится таки устойчивое финансирование и проект будет жить. Это с одной стороны, с другой стороны не превратится ли в Викимедиа в коммерческий продукт под видом некоммерческого и не оттолкнет ли это многих редакторов от вклада в её тексты? Я слишком мало знаю о том что происходит там внутри, так что интересно. Что еще интересно так то что AI крупняк, не считая X.ai с его Грокипедией, не пытается воспроизвести продукты Фонда, а заключает соглашения с ним. Полагаю что причиной может быть и то что у Фонда Викимедиа есть техническая возможность ограничивать ИИ краулеры, а одни лишь дампы Википроектов содержат только текстовый контент и не в реальном времени.
#opendata #API #wikipedia #data #ai
#opendata #API #wikipedia #data #ai
Wikimedia Enterprise
New Wikimedia Enterprise Partners: Wikipedia’s 25th Birthday
Amazon, Meta, Microsoft, Mistral AI, and Perplexity have officially joined the Wikimedia Enterprise ecosystem as we celebrate 25 years of Wikipedia. Discover how we provide the dedicated infrastructure to deliver human-governed knowledge to the world’s most…
👍12❤2👌1
Я про политику и макрополитику в особенности не пишу давно и особо писать об этом не планирую ибо слишком много срани неприличного там происходит повсеместно, но есть и то что затрагивает вопросы открытости. Например, свежая новость что США выходят из 66 международных организаций и международных групп включая 31 группу и структуру ООН включая UN Oceans, UN Population Fund, UN Water, UN Energy, Department of Economic and Social Affairs (DESA) и многих других.
Последствия могут быть весьма разнообразны, учитывая что выход США практически наверняка означает потерю существенного финансирования ООН, но не менее важно и то что многие структуры ООН создают и распространяют данные используемые по всему. миру. Например, DESA ведёт data.un.org портал официальной статистики.
Что будет со многими международными инициативами про данные на базе ООН в 2026 году? Я вот не знаю, похоже что надо отслеживать эту ситуацию.
Другой аспект в структурах из которых США пока формально не вышли, но перестали финансировать. Формально США всё еще участвуют в Open Government Partnership, а де факто с января 2025 года они перестали финансировать эту организацию и НКО внутри США ещё в марте 2025 года писали письмо в OGP о том чтобы провести ревизию обязательств Правительства США по открытости.
По поводу OGP я уже вижу что там гораздо большую роль сейчас играют страны ЕС и врядли сама инициатива закроется, скорее превратится в инструмент распространения европейских ценностей.
В любом случае вот эта вот разборка мирового порядка затрагивает многое и не только отношения между странами, но и доступность данных. К примеру, если торговый конфликт между ЕС и США и другие конфликты начнут развиваться то многие страны начнут закрывать информацию о себе. Такое уже происходит во многих идущих военных и не-военных конфликтах и будет продолжаться.
Хочется тут сделать какой-то хороший вывод или мораль, но ничего на ум не приходит. Мир меняется, может и не к лучшему, но к чему-то другому.
#opendata #opengov #thoughts #international #usa
Последствия могут быть весьма разнообразны, учитывая что выход США практически наверняка означает потерю существенного финансирования ООН, но не менее важно и то что многие структуры ООН создают и распространяют данные используемые по всему. миру. Например, DESA ведёт data.un.org портал официальной статистики.
Что будет со многими международными инициативами про данные на базе ООН в 2026 году? Я вот не знаю, похоже что надо отслеживать эту ситуацию.
Другой аспект в структурах из которых США пока формально не вышли, но перестали финансировать. Формально США всё еще участвуют в Open Government Partnership, а де факто с января 2025 года они перестали финансировать эту организацию и НКО внутри США ещё в марте 2025 года писали письмо в OGP о том чтобы провести ревизию обязательств Правительства США по открытости.
По поводу OGP я уже вижу что там гораздо большую роль сейчас играют страны ЕС и врядли сама инициатива закроется, скорее превратится в инструмент распространения европейских ценностей.
В любом случае вот эта вот разборка мирового порядка затрагивает многое и не только отношения между странами, но и доступность данных. К примеру, если торговый конфликт между ЕС и США и другие конфликты начнут развиваться то многие страны начнут закрывать информацию о себе. Такое уже происходит во многих идущих военных и не-военных конфликтах и будет продолжаться.
Хочется тут сделать какой-то хороший вывод или мораль, но ничего на ум не приходит. Мир меняется, может и не к лучшему, но к чему-то другому.
#opendata #opengov #thoughts #international #usa
Earth.Org
US Withdraws From 66 Int'l Bodies, Including Key Climate Treaties
The US under President Trump is withdrawing from dozens of international organizations, including the IPCC and UNFCCC.
😢15👍3🤔1💔1
Я не раз писал о том что документирование датасетов вполне поддается автоматизации и некоторое количество раз экспериментировал с этим. Сейчас я в итоге обновил утилиту undatum к которой добавил команду doc с помощью которой можно сгенерировать описание набора данных в форматах markdown, yaml, json или text и так далее. Из плюсов - сразу готовая документация весьма подробная, из минусов - это документирование только на основе содержания файла без каких-либо дополнительных метаданных поэтому там нет инфы по происхождению (lineage) и метаданных источника.
Я пока думаю над тем чтобы эффективно интегрировать автоматическое документирование в Dateno, а это полезный инструмент для тех кто разбирается с "дикими файлами", недокументированными дата файлами.
#opendata #datasets #data #datadocumentation
Я пока думаю над тем чтобы эффективно интегрировать автоматическое документирование в Dateno, а это полезный инструмент для тех кто разбирается с "дикими файлами", недокументированными дата файлами.
#opendata #datasets #data #datadocumentation
👍6⚡2🔥2❤1
MiroThinker Хорошая открытая альтернатива многим функциям Manus'а и этапам планирования для ИИ ассистентом для программирования.
По моим экспериментам он дает лучший результат чем если те же промпты погружать в Manus или в модели интегрированные в Cursor.
Более-менее серьёзный режим разработки с ИИ ассистентом включает:
- исследование
- ревью результатов
- запросы на корректировку исследования и уточнения
...
- планирование на основе исследования
- ревью плана
- запросы на корректировку плана или ручная правка
...
- реализация плана (чаще в несколько шагов)
...
- автоматическое и ручное тестирование
- ревью
—
И вот первую стадию можно делать не внутри ИИ ассистента для разработки, можно использовать внешний инструменты, а ещё чаще инструменты поскольку они дают разные инсайты. Самые "глупые" то как поправить текущий код, самые "продвинутые" о том как похожие задачи решаются в других инструментах.
Всё это к тому что MiroThinker очень неплохо выступает на стадии исследования проектирования новых фич. Ему бы больше интеграции в другие инструменты и было бы ещё лучше. А учитывая что Manus теперь приобретён Meta предсказать вектор его развития однозначно нельзя, нужны альтернативы.
Ну и открытый код - это всегда плюс
#coding #ai #aiagents #opensource
По моим экспериментам он дает лучший результат чем если те же промпты погружать в Manus или в модели интегрированные в Cursor.
Более-менее серьёзный режим разработки с ИИ ассистентом включает:
- исследование
- ревью результатов
- запросы на корректировку исследования и уточнения
...
- планирование на основе исследования
- ревью плана
- запросы на корректировку плана или ручная правка
...
- реализация плана (чаще в несколько шагов)
...
- автоматическое и ручное тестирование
- ревью
—
И вот первую стадию можно делать не внутри ИИ ассистента для разработки, можно использовать внешний инструменты, а ещё чаще инструменты поскольку они дают разные инсайты. Самые "глупые" то как поправить текущий код, самые "продвинутые" о том как похожие задачи решаются в других инструментах.
Всё это к тому что MiroThinker очень неплохо выступает на стадии исследования проектирования новых фич. Ему бы больше интеграции в другие инструменты и было бы ещё лучше. А учитывая что Manus теперь приобретён Meta предсказать вектор его развития однозначно нельзя, нужны альтернативы.
Ну и открытый код - это всегда плюс
#coding #ai #aiagents #opensource
👏4⚡2❤2👍2
Я, кстати, пропустил эту новость, а тем временем NVIDIA обвинили в получении 500ТБ пиратских книг из Anna's Archive. Это к вопросу о роли пиратских библиотек в скорости роста бума ИИ. Если представить себе какой-то другой мир с гораздо более правовой моделью распространения информации то такой стремительный взлёт ИИ инструментов был бы просто невозможен. Но это какая-то альтернативная вселенная была бы, а де-факто пиратскими материалами пользуются если не весь AI бигтех, то большинство.
#ai #piracy #books
#ai #piracy #books
Torrentfreak
'NVIDIA Contacted Anna’s Archive to Secure Access to Millions of Pirated Books' * TorrentFreak
NVIDIA executives allegedly authorized the use of millions of pirated books from Anna's Archive to fuel its AI training.
👍15👏3❤🔥2❤1🔥1
Forwarded from Национальный цифровой архив
Где узнать больше о цифровых архивах, цифровой архивации, инструментах, курсах и так далее? Подборка каталогов ресурсов:
- Awesome Digital Preservation - список инструментов и ресурсов посвященных цифровой архивации, преимущественно ссылки на открытый код и открытые сервисы и наиболее известные платформы (от Ruarxive)
- Awesome Digital Preservation аналогичный список от Digipress сообщества по цифровой архивации, множество ссылок на существующие инструменты и сервисы
- Awesome Web Archiving - список инструментов и ресурсов по веб-архивации, созданы и поддерживается Международным консорциумом сохранения интернета (IIPC)
- ArchiveTeam Wiki большой вики проект от команды ArchiveTeam посвященный веб архивации и архивационным кампаниям для сохранения гибнущих онлайн ресурсов.
- База знания Ruarxive база знаний по цифровой и веб архивации на русском языке от проекта Ruarxive, инструкции по использованию инструментов и сервисов
#webarchives #digitalpreservation #readings
- Awesome Digital Preservation - список инструментов и ресурсов посвященных цифровой архивации, преимущественно ссылки на открытый код и открытые сервисы и наиболее известные платформы (от Ruarxive)
- Awesome Digital Preservation аналогичный список от Digipress сообщества по цифровой архивации, множество ссылок на существующие инструменты и сервисы
- Awesome Web Archiving - список инструментов и ресурсов по веб-архивации, созданы и поддерживается Международным консорциумом сохранения интернета (IIPC)
- ArchiveTeam Wiki большой вики проект от команды ArchiveTeam посвященный веб архивации и архивационным кампаниям для сохранения гибнущих онлайн ресурсов.
- База знания Ruarxive база знаний по цифровой и веб архивации на русском языке от проекта Ruarxive, инструкции по использованию инструментов и сервисов
#webarchives #digitalpreservation #readings
👍6
Data Engineering Design Patterns свежая бесплатная книга от ORelly профинансированная стартапом Buf по дата инженерии.
Полезная для тех кто уже понял что в дата инженерии есть шаблоны, но не знает как они правильно называются/рисуются/описываются/проектируются.
Для тех кому неохота регистрироваться, следующим постом закину в телеграм канал саму книжку в PDF.
А я смотрю на книгу и думаю не написать ли мне самому книжку по data discovery, но объективно понимаю что столько сейчас операционной работы что не до этого.
#dataengineering #readings #data
Полезная для тех кто уже понял что в дата инженерии есть шаблоны, но не знает как они правильно называются/рисуются/описываются/проектируются.
Для тех кому неохота регистрироваться, следующим постом закину в телеграм канал саму книжку в PDF.
А я смотрю на книгу и думаю не написать ли мне самому книжку по data discovery, но объективно понимаю что столько сейчас операционной работы что не до этого.
#dataengineering #readings #data
❤17🔥8👍5
Forwarded from Open Data Armenia
Open Data Armenia в третий раз объявляет о ежегодном конкурсе проектов, основанных на открытых данных. В этот раз, помимо традиционных культурных приложений и визуализаций данных, у нас есть специальная номинация: лучшее применение ИИ для интерактивных визуализаций, дата-сторителлинга или сбора баз данных. Дедлайн – 25 февраля 2026 г.
Open Data Armenia-ն հայտարարում է բաց տվյալների վրա հիմնված նախագծերի երրորդ ամենամյա մրցույթը։ Այս անգամ, ավանդական դարձած մշակութային հավելվածներից և տվյալների վիզուալիզացիաներից բացի, ունենք հատուկ անվանակարգ՝ արհեստական բանականության լավագույն կիրառումը ինտերակտիվ վիզուալիզացիաների, տվյալահեն պատմությունների (data storytelling) կամ տվյալների բազաների հավաքագրման համար։ Վերջնաժամկետը` 2026 թ․ փետրվարի 25։
Open Data Armenia announces the third annual competition for open data-based projects. This time, in addition to cultural applications and data visualizations, we have a special category: the best application of AI for interactive visualizations, data storytelling, or database collection. Applications for participation in the competition must be submitted by February 25, 2026.
Open Data Armenia-ն հայտարարում է բաց տվյալների վրա հիմնված նախագծերի երրորդ ամենամյա մրցույթը։ Այս անգամ, ավանդական դարձած մշակութային հավելվածներից և տվյալների վիզուալիզացիաներից բացի, ունենք հատուկ անվանակարգ՝ արհեստական բանականության լավագույն կիրառումը ինտերակտիվ վիզուալիզացիաների, տվյալահեն պատմությունների (data storytelling) կամ տվյալների բազաների հավաքագրման համար։ Վերջնաժամկետը` 2026 թ․ փետրվարի 25։
Open Data Armenia announces the third annual competition for open data-based projects. This time, in addition to cultural applications and data visualizations, we have a special category: the best application of AI for interactive visualizations, data storytelling, or database collection. Applications for participation in the competition must be submitted by February 25, 2026.
contest.opendata.am
Open Data Armenia Contest RU
❤7👍3🔥3
Свежий портал открытых данных data.gov.bt Бутана включает 25 наборов данных, из которых 18 открытые и 7 помечены как common (странное название для данных доступных по запросу).
Портал работает на базе CKAN+PortalJS, видно что он ещё на ранней стадии и даже не вся официальная статистика на нем размещена.
#opendata #bhutan #datacatalogs
Портал работает на базе CKAN+PortalJS, видно что он ещё на ранней стадии и даже не вся официальная статистика на нем размещена.
#opendata #bhutan #datacatalogs
👍3⚡1😁1🌚1