Я не раз писал о том что документирование датасетов вполне поддается автоматизации и некоторое количество раз экспериментировал с этим. Сейчас я в итоге обновил утилиту undatum к которой добавил команду doc с помощью которой можно сгенерировать описание набора данных в форматах markdown, yaml, json или text и так далее. Из плюсов - сразу готовая документация весьма подробная, из минусов - это документирование только на основе содержания файла без каких-либо дополнительных метаданных поэтому там нет инфы по происхождению (lineage) и метаданных источника.
Я пока думаю над тем чтобы эффективно интегрировать автоматическое документирование в Dateno, а это полезный инструмент для тех кто разбирается с "дикими файлами", недокументированными дата файлами.
#opendata #datasets #data #datadocumentation
Я пока думаю над тем чтобы эффективно интегрировать автоматическое документирование в Dateno, а это полезный инструмент для тех кто разбирается с "дикими файлами", недокументированными дата файлами.
#opendata #datasets #data #datadocumentation
👍6⚡2🔥2❤1
MiroThinker Хорошая открытая альтернатива многим функциям Manus'а и этапам планирования для ИИ ассистентом для программирования.
По моим экспериментам он дает лучший результат чем если те же промпты погружать в Manus или в модели интегрированные в Cursor.
Более-менее серьёзный режим разработки с ИИ ассистентом включает:
- исследование
- ревью результатов
- запросы на корректировку исследования и уточнения
...
- планирование на основе исследования
- ревью плана
- запросы на корректировку плана или ручная правка
...
- реализация плана (чаще в несколько шагов)
...
- автоматическое и ручное тестирование
- ревью
—
И вот первую стадию можно делать не внутри ИИ ассистента для разработки, можно использовать внешний инструменты, а ещё чаще инструменты поскольку они дают разные инсайты. Самые "глупые" то как поправить текущий код, самые "продвинутые" о том как похожие задачи решаются в других инструментах.
Всё это к тому что MiroThinker очень неплохо выступает на стадии исследования проектирования новых фич. Ему бы больше интеграции в другие инструменты и было бы ещё лучше. А учитывая что Manus теперь приобретён Meta предсказать вектор его развития однозначно нельзя, нужны альтернативы.
Ну и открытый код - это всегда плюс
#coding #ai #aiagents #opensource
По моим экспериментам он дает лучший результат чем если те же промпты погружать в Manus или в модели интегрированные в Cursor.
Более-менее серьёзный режим разработки с ИИ ассистентом включает:
- исследование
- ревью результатов
- запросы на корректировку исследования и уточнения
...
- планирование на основе исследования
- ревью плана
- запросы на корректировку плана или ручная правка
...
- реализация плана (чаще в несколько шагов)
...
- автоматическое и ручное тестирование
- ревью
—
И вот первую стадию можно делать не внутри ИИ ассистента для разработки, можно использовать внешний инструменты, а ещё чаще инструменты поскольку они дают разные инсайты. Самые "глупые" то как поправить текущий код, самые "продвинутые" о том как похожие задачи решаются в других инструментах.
Всё это к тому что MiroThinker очень неплохо выступает на стадии исследования проектирования новых фич. Ему бы больше интеграции в другие инструменты и было бы ещё лучше. А учитывая что Manus теперь приобретён Meta предсказать вектор его развития однозначно нельзя, нужны альтернативы.
Ну и открытый код - это всегда плюс
#coding #ai #aiagents #opensource
👏4⚡2❤2👍2
Я, кстати, пропустил эту новость, а тем временем NVIDIA обвинили в получении 500ТБ пиратских книг из Anna's Archive. Это к вопросу о роли пиратских библиотек в скорости роста бума ИИ. Если представить себе какой-то другой мир с гораздо более правовой моделью распространения информации то такой стремительный взлёт ИИ инструментов был бы просто невозможен. Но это какая-то альтернативная вселенная была бы, а де-факто пиратскими материалами пользуются если не весь AI бигтех, то большинство.
#ai #piracy #books
#ai #piracy #books
Torrentfreak
'NVIDIA Contacted Anna’s Archive to Secure Access to Millions of Pirated Books' * TorrentFreak
NVIDIA executives allegedly authorized the use of millions of pirated books from Anna's Archive to fuel its AI training.
👍15👏3❤🔥2❤1🔥1
Forwarded from Национальный цифровой архив
Где узнать больше о цифровых архивах, цифровой архивации, инструментах, курсах и так далее? Подборка каталогов ресурсов:
- Awesome Digital Preservation - список инструментов и ресурсов посвященных цифровой архивации, преимущественно ссылки на открытый код и открытые сервисы и наиболее известные платформы (от Ruarxive)
- Awesome Digital Preservation аналогичный список от Digipress сообщества по цифровой архивации, множество ссылок на существующие инструменты и сервисы
- Awesome Web Archiving - список инструментов и ресурсов по веб-архивации, созданы и поддерживается Международным консорциумом сохранения интернета (IIPC)
- ArchiveTeam Wiki большой вики проект от команды ArchiveTeam посвященный веб архивации и архивационным кампаниям для сохранения гибнущих онлайн ресурсов.
- База знания Ruarxive база знаний по цифровой и веб архивации на русском языке от проекта Ruarxive, инструкции по использованию инструментов и сервисов
#webarchives #digitalpreservation #readings
- Awesome Digital Preservation - список инструментов и ресурсов посвященных цифровой архивации, преимущественно ссылки на открытый код и открытые сервисы и наиболее известные платформы (от Ruarxive)
- Awesome Digital Preservation аналогичный список от Digipress сообщества по цифровой архивации, множество ссылок на существующие инструменты и сервисы
- Awesome Web Archiving - список инструментов и ресурсов по веб-архивации, созданы и поддерживается Международным консорциумом сохранения интернета (IIPC)
- ArchiveTeam Wiki большой вики проект от команды ArchiveTeam посвященный веб архивации и архивационным кампаниям для сохранения гибнущих онлайн ресурсов.
- База знания Ruarxive база знаний по цифровой и веб архивации на русском языке от проекта Ruarxive, инструкции по использованию инструментов и сервисов
#webarchives #digitalpreservation #readings
👍6
Data Engineering Design Patterns свежая бесплатная книга от ORelly профинансированная стартапом Buf по дата инженерии.
Полезная для тех кто уже понял что в дата инженерии есть шаблоны, но не знает как они правильно называются/рисуются/описываются/проектируются.
Для тех кому неохота регистрироваться, следующим постом закину в телеграм канал саму книжку в PDF.
А я смотрю на книгу и думаю не написать ли мне самому книжку по data discovery, но объективно понимаю что столько сейчас операционной работы что не до этого.
#dataengineering #readings #data
Полезная для тех кто уже понял что в дата инженерии есть шаблоны, но не знает как они правильно называются/рисуются/описываются/проектируются.
Для тех кому неохота регистрироваться, следующим постом закину в телеграм канал саму книжку в PDF.
А я смотрю на книгу и думаю не написать ли мне самому книжку по data discovery, но объективно понимаю что столько сейчас операционной работы что не до этого.
#dataengineering #readings #data
❤17🔥8👍5
Forwarded from Open Data Armenia
Open Data Armenia в третий раз объявляет о ежегодном конкурсе проектов, основанных на открытых данных. В этот раз, помимо традиционных культурных приложений и визуализаций данных, у нас есть специальная номинация: лучшее применение ИИ для интерактивных визуализаций, дата-сторителлинга или сбора баз данных. Дедлайн – 25 февраля 2026 г.
Open Data Armenia-ն հայտարարում է բաց տվյալների վրա հիմնված նախագծերի երրորդ ամենամյա մրցույթը։ Այս անգամ, ավանդական դարձած մշակութային հավելվածներից և տվյալների վիզուալիզացիաներից բացի, ունենք հատուկ անվանակարգ՝ արհեստական բանականության լավագույն կիրառումը ինտերակտիվ վիզուալիզացիաների, տվյալահեն պատմությունների (data storytelling) կամ տվյալների բազաների հավաքագրման համար։ Վերջնաժամկետը` 2026 թ․ փետրվարի 25։
Open Data Armenia announces the third annual competition for open data-based projects. This time, in addition to cultural applications and data visualizations, we have a special category: the best application of AI for interactive visualizations, data storytelling, or database collection. Applications for participation in the competition must be submitted by February 25, 2026.
Open Data Armenia-ն հայտարարում է բաց տվյալների վրա հիմնված նախագծերի երրորդ ամենամյա մրցույթը։ Այս անգամ, ավանդական դարձած մշակութային հավելվածներից և տվյալների վիզուալիզացիաներից բացի, ունենք հատուկ անվանակարգ՝ արհեստական բանականության լավագույն կիրառումը ինտերակտիվ վիզուալիզացիաների, տվյալահեն պատմությունների (data storytelling) կամ տվյալների բազաների հավաքագրման համար։ Վերջնաժամկետը` 2026 թ․ փետրվարի 25։
Open Data Armenia announces the third annual competition for open data-based projects. This time, in addition to cultural applications and data visualizations, we have a special category: the best application of AI for interactive visualizations, data storytelling, or database collection. Applications for participation in the competition must be submitted by February 25, 2026.
contest.opendata.am
Open Data Armenia Contest RU
❤7👍3🔥3
Свежий портал открытых данных data.gov.bt Бутана включает 25 наборов данных, из которых 18 открытые и 7 помечены как common (странное название для данных доступных по запросу).
Портал работает на базе CKAN+PortalJS, видно что он ещё на ранней стадии и даже не вся официальная статистика на нем размещена.
#opendata #bhutan #datacatalogs
Портал работает на базе CKAN+PortalJS, видно что он ещё на ранней стадии и даже не вся официальная статистика на нем размещена.
#opendata #bhutan #datacatalogs
👍3⚡1😁1🌚1
Европейцы обновили их наднациональный портал с открытыми данными data.europa.eu и добавили интерактивности их мониторингу развития открытости данных в ЕС Open Data Maturity 2025 который охватывает все страны Евросоюза, страны ЕFTA (Норвегия, Исландия, Швейцария) и страны кандидаты (Албания, Сербия, Черногория, Македония, Босния и Герцеговина и Украина). Из стран кандидатов нет разве что Грузии, Турции и Молдовы, но в любом случае это детальный анализ 36 стран с открытой и подробной методологией.
#opendata #datasets #data #europe
#opendata #datasets #data #europe
👍4✍1🔥1🤔1
Наблюдаю взлет сервисов автоматического документирования публичных (и не публичных) репозиториев кода. Помимо хорошо известного DeepWiki есть, как минимум, Zread.ai и os.ninja, DeepWiki-Open, OpenDeepWiki, GitSummarize, DeepDocs и другие.
Некоторые из них даже выглядят симпатично, но ИМХО, в генерации документации для открытых репозиториев есть минус в том что это будет хорошо пока Github не сделает это как часть их подписки и тогда у всех сервисов которые сейчас есть и создаются останется востребованность только для кода вне Github'а или же придется очень сильно конкурировать за качество итоговой документации.
В общем, выглядит это всё это как интересный тренд, но с непонятным итогом потому что неявным маркетмейкером тут является Github (Microsoft) который быстро может убить все эти попытки, ну или как минимум сильно обесценить.
Но сама идея интересная и самое её очевидное применение legaltech. Потому что понятное структурированное и логичное изложение НПА по отдельности и по блокам это то что нехватает очень сильно. Мне, правда, самому легалтех не очень интересен, ибо я много матом ругаться и коньяка пить начинаю когда читаю законы. Но общая идея, ИМХО, понятна - в областях где есть объекты требующие подробного понятного изложения и где нет подобных маркетмейкеров подход через автогенерацию документацию в стиле вики будет оправдан
#thoughts #ai #documentation
Некоторые из них даже выглядят симпатично, но ИМХО, в генерации документации для открытых репозиториев есть минус в том что это будет хорошо пока Github не сделает это как часть их подписки и тогда у всех сервисов которые сейчас есть и создаются останется востребованность только для кода вне Github'а или же придется очень сильно конкурировать за качество итоговой документации.
В общем, выглядит это всё это как интересный тренд, но с непонятным итогом потому что неявным маркетмейкером тут является Github (Microsoft) который быстро может убить все эти попытки, ну или как минимум сильно обесценить.
Но сама идея интересная и самое её очевидное применение legaltech. Потому что понятное структурированное и логичное изложение НПА по отдельности и по блокам это то что нехватает очень сильно. Мне, правда, самому легалтех не очень интересен, ибо я много матом ругаться и коньяка пить начинаю когда читаю законы. Но общая идея, ИМХО, понятна - в областях где есть объекты требующие подробного понятного изложения и где нет подобных маркетмейкеров подход через автогенерацию документацию в стиле вики будет оправдан
#thoughts #ai #documentation
DeepWiki
DeepWiki | AI documentation you can talk to, for every repo
DeepWiki provides up-to-date documentation you can talk to, for every repo in the world. Think Deep Research for GitHub - powered by Devin.
🔥4❤2⚡1🤔1
На днях мне понадобился полный дамп метаданных из европейского портала data.europa.eu для анализа. Там почти 2 миллиона наборов данных и он пока еще не проиндексирован Dateno поскольку работает на нестандартном ПО. Его было бы гораздо проще индексировать скачав полный дамп и индексировать метаданные из него.
Дамп я в итоге нашел, хотя и неочевидным образом, он нашелся только одним из Deep Research инструментом, а вот "гугление" не сработало и другие Depp Research агенты тоже как один предлагали написать скрипт по выкачке этих данных через API.
Однако что оказалось в дампе, в дампе оказались сотни файлов в формате TriG, это такой специальный формат для экспорта спецификации RDF используемой в продуктах Semantic Web/Linked Data. Никакими классическими инструментами аналитики или инженерии данных работать с ним не получится. Нужно писать конвертер по преобразованию этих дампов в какой-либо другой формат, скорее всего в JSON/JSON lines как самый очевидный.
Почему разработчики европейского портала публикуют данные в TriG формате? Потому что они считают это правильным. Связанные данные (Linked Data) это, в первую очередь, европейский концепт описания знаний. В Европе более чем где-либо существуют команды разработчиков разбирающихся в нем и связанных с академической среде где он более популярен.
Но, как бы сказать, связанные данные, RDF, SPARQL - все это стандарты, спецификации и форматы далекие от не только от коммерческой дата инженерии, но и практической аналитики. Я много лет назад глубоко погружался в построение онтологий, публикацию связанных данных и связанные с этим темы и главный вывод что связанные данные можно применять только там где абсолютно очевидно что нет альтернатив. В остальных случаях это малооправдано и публикация данных в RDF тоже, на самом то деле.
Вот и в случае этого большого дампа с TriG файлами мне придется преобразовать их все, скорее всего в Parquet и это уменьших размер этих файлов во много раз, а может и пару десятков раз. И это правильно, и вот это правильно в виде использования современных форматов распространения данных и их компактное представление я считаю более правильным чем распространение файлов в одном из RDF форматов.
#opendata #europe #rdf #semanticweb #linkeddata #thoughts
Дамп я в итоге нашел, хотя и неочевидным образом, он нашелся только одним из Deep Research инструментом, а вот "гугление" не сработало и другие Depp Research агенты тоже как один предлагали написать скрипт по выкачке этих данных через API.
Однако что оказалось в дампе, в дампе оказались сотни файлов в формате TriG, это такой специальный формат для экспорта спецификации RDF используемой в продуктах Semantic Web/Linked Data. Никакими классическими инструментами аналитики или инженерии данных работать с ним не получится. Нужно писать конвертер по преобразованию этих дампов в какой-либо другой формат, скорее всего в JSON/JSON lines как самый очевидный.
Почему разработчики европейского портала публикуют данные в TriG формате? Потому что они считают это правильным. Связанные данные (Linked Data) это, в первую очередь, европейский концепт описания знаний. В Европе более чем где-либо существуют команды разработчиков разбирающихся в нем и связанных с академической среде где он более популярен.
Но, как бы сказать, связанные данные, RDF, SPARQL - все это стандарты, спецификации и форматы далекие от не только от коммерческой дата инженерии, но и практической аналитики. Я много лет назад глубоко погружался в построение онтологий, публикацию связанных данных и связанные с этим темы и главный вывод что связанные данные можно применять только там где абсолютно очевидно что нет альтернатив. В остальных случаях это малооправдано и публикация данных в RDF тоже, на самом то деле.
Вот и в случае этого большого дампа с TriG файлами мне придется преобразовать их все, скорее всего в Parquet и это уменьших размер этих файлов во много раз, а может и пару десятков раз. И это правильно, и вот это правильно в виде использования современных форматов распространения данных и их компактное представление я считаю более правильным чем распространение файлов в одном из RDF форматов.
#opendata #europe #rdf #semanticweb #linkeddata #thoughts
Dateno
Dateno - datasets search engine
A next-generation data search service provides fast, comprehensive access to open datasets worldwide, with powerful filters and an API-first architecture for seamless integration.
👍4🤔2✍1⚡1
Когда-то я делал похожий инструмент, набор библиотеки и тетрадки Jupyter для работы с бюджетными данными в РФ. Он дергал отчеты Федерального казначейства и данные из систем Минфина РФ и давал возможность проводить аналитику над этими данными разными способами и инструментами. Честно говоря я это всё подзабросил после ухода из Счетной палаты где это было актуально, а сейчас есть ограниченное применение у таких данных (но оно есть конечно).
А вот у этого инструмента для работы с бюджетными данными Армении хорошая структура и программная логика, мне нравится его реализация.
Кстати, если подумываете принять участие в Open Data Contest в Армении, то такие данные для него хороши.
#opendata #armenia #budget
А вот у этого инструмента для работы с бюджетными данными Армении хорошая структура и программная логика, мне нравится его реализация.
Кстати, если подумываете принять участие в Open Data Contest в Армении, то такие данные для него хороши.
#opendata #armenia #budget
❤1
Forwarded from Open Data Armenia
Для тех кто интересуется открытыми данными по государственным финансам в Армении, отличная инициатива Armenian State Budget Tools в виде открытого исходно кода и данных на Github.
Охватывает с 2019 по 2025 годы, данные представлены в CSV формате и хорошо структурированы, поддаются визуализации и возможности их наглядного представления, как для отображения структуры бюджета за год, так и изменений в нём.
Для тех кто участвует в конкуре Open Data Contest может быть ценным источником данных, особенно для журналистов думающих о визуализации данных о жизне страны и её государственных органах.
Да и это то что полезно для всех кто изучает бюджет Армении. Является продуктом инициативы Gituzh за что им большое спасибо!
Мы обязательно добавим эти данные в каталог открытых данных data.opendata.am
#opendata #budget #armenia
Охватывает с 2019 по 2025 годы, данные представлены в CSV формате и хорошо структурированы, поддаются визуализации и возможности их наглядного представления, как для отображения структуры бюджета за год, так и изменений в нём.
Для тех кто участвует в конкуре Open Data Contest может быть ценным источником данных, особенно для журналистов думающих о визуализации данных о жизне страны и её государственных органах.
Да и это то что полезно для всех кто изучает бюджет Армении. Является продуктом инициативы Gituzh за что им большое спасибо!
Мы обязательно добавим эти данные в каталог открытых данных data.opendata.am
#opendata #budget #armenia
GitHub
GitHub - gituzh/armenian-budget-tools
Contribute to gituzh/armenian-budget-tools development by creating an account on GitHub.
👍4
Мы забаним вас и высмеем публично, если вы потратите наше время на всякую ерунду. (c)
Если вы ещё не видели, политика работы с заявками отчетами по безопасности от команды инструмента выгрузки файлов curl
Чувствуется что многих уже достал поток малоценных сообщений от LLM-ботов в адрес проектов с открытым кодом.
Можно футболку такую завести: "Спроси меня о ерунде чтобы я тебя высмеял и забанил". Или это совсем по снобски?😂
#opensource
Если вы ещё не видели, политика работы с заявками отчетами по безопасности от команды инструмента выгрузки файлов curl
Чувствуется что многих уже достал поток малоценных сообщений от LLM-ботов в адрес проектов с открытым кодом.
Можно футболку такую завести: "Спроси меня о ерунде чтобы я тебя высмеял и забанил". Или это совсем по снобски?😂
#opensource
👍10💯6🔥5😁3✍1🤔1
В DuckDB добавили поддержку формата Vortex, это такой специальный формат хранения данных который разработали в компании SpiralDB и передали в Linux Foundation в августе 2025 г.Это такой специально оптимизированный формат хранения данных который может быть компактнее и быстрее Parquet.
Собственно в статье есть примеры бенчмарков Parquet версии 1 и версии 2 и Vortex. Собственно запросы к Vortex через DuckDB быстрее примерно в 1.5 раза чем к Parquet версии 1 (самая распространенная версия).
Выглядит это оптимистично, к тому же постепенно Vortex начинают поддерживать и другие инструменты. Так что не только Parquet актуален как формат хранения данных.
#opensource #data #datatools #dataengineering
Собственно в статье есть примеры бенчмарков Parquet версии 1 и версии 2 и Vortex. Собственно запросы к Vortex через DuckDB быстрее примерно в 1.5 раза чем к Parquet версии 1 (самая распространенная версия).
Выглядит это оптимистично, к тому же постепенно Vortex начинают поддерживать и другие инструменты. Так что не только Parquet актуален как формат хранения данных.
#opensource #data #datatools #dataengineering
🔥9👍5😱1