Я тут уже не раз рассказывал про то как работаю над реестром каталогов данных который воплотился в Dateno registry и который доступен в открытом репозитории.
Я только-только закончил релиз версии 1.4.0 в которую добавил 208 новых каталогов с данными и общее число достигло 12 489, существенная их часть была добавлено из ecosystem.ckan.org нового проекта OKFN с карточками сайтов на базе CKAN - это примерно 80 каталогов. Кроме того много изменений с исправлением ошибок в метаданных, обновлением документации, переходу к спецификациям OpenSpec.
По своей природе этот реестр можно отнести к проектам контролируемых справочников или справочных баз данных. Он несколько сложнее чем простые одномерные справочники, тем не менее, он подходит под эту категорию и на его основе можно делать много чего. И он лежит в ядре системы индексации данных внутри Dateno, конечно же.
Сейчас практически полностью он обновляется с помощью Cursor, Antigravity и последующими ручными правками. Это не идеальный процесс, эти инструменты тоже делают ошибки, но с их помощью очень хорошо отрабатываются задачи в стиле добавления новых каталогов данных и исправления ошибок в имеющихся.
На старте Dateno я оценивал работу по чистке и расширению этого реестра в 4-6 человека месяца и не меньше двух аналитиков мне в помощь и то что у меня самого это занимало бы 20-25% времени, в итоге оказалось что сейчас у меня это занимает 5% и привлекать аналитиков к его ведению не потребовалось. Экономия времени в человеко-часах примерно в 25 раз. Без преувеличений.
Но также важно что качество реестра сильно выросло за счет внутреннего инструмента валидации его качества. Скрипт создает отчеты по большому перечню правил контроля качества записей что важно поскольку огромное число записей в реестре создавались вручную или импортом и многих метаданных просто не было или было трудоемко собирать вручную. Сейчас почти все они есть.
Я лично веду несколько проектов таких контролируемых справочников и могу сказать что такой подход себя очень оправдывает.
#opendata #datasets #dateno #data #datacatalogs
Я только-только закончил релиз версии 1.4.0 в которую добавил 208 новых каталогов с данными и общее число достигло 12 489, существенная их часть была добавлено из ecosystem.ckan.org нового проекта OKFN с карточками сайтов на базе CKAN - это примерно 80 каталогов. Кроме того много изменений с исправлением ошибок в метаданных, обновлением документации, переходу к спецификациям OpenSpec.
По своей природе этот реестр можно отнести к проектам контролируемых справочников или справочных баз данных. Он несколько сложнее чем простые одномерные справочники, тем не менее, он подходит под эту категорию и на его основе можно делать много чего. И он лежит в ядре системы индексации данных внутри Dateno, конечно же.
Сейчас практически полностью он обновляется с помощью Cursor, Antigravity и последующими ручными правками. Это не идеальный процесс, эти инструменты тоже делают ошибки, но с их помощью очень хорошо отрабатываются задачи в стиле добавления новых каталогов данных и исправления ошибок в имеющихся.
На старте Dateno я оценивал работу по чистке и расширению этого реестра в 4-6 человека месяца и не меньше двух аналитиков мне в помощь и то что у меня самого это занимало бы 20-25% времени, в итоге оказалось что сейчас у меня это занимает 5% и привлекать аналитиков к его ведению не потребовалось. Экономия времени в человеко-часах примерно в 25 раз. Без преувеличений.
Но также важно что качество реестра сильно выросло за счет внутреннего инструмента валидации его качества. Скрипт создает отчеты по большому перечню правил контроля качества записей что важно поскольку огромное число записей в реестре создавались вручную или импортом и многих метаданных просто не было или было трудоемко собирать вручную. Сейчас почти все они есть.
Я лично веду несколько проектов таких контролируемых справочников и могу сказать что такой подход себя очень оправдывает.
#opendata #datasets #dateno #data #datacatalogs
👍12❤🔥3🔥3❤1
ИИ по факсу в Германии https://simple-fax.de/fax-ki
Внутри LLM модели от OpenAI.
Как ответ на вопрос "использует ли ещё кто-то факсы?"😎
Никто еще не подключил ИИ к СМС?
#ai #curiosities #germany
Внутри LLM модели от OpenAI.
Как ответ на вопрос "использует ли ещё кто-то факсы?"
Никто еще не подключил ИИ к СМС?
#ai #curiosities #germany
Please open Telegram to view this post
VIEW IN TELEGRAM
😁22🔥2
Ещё немного рефлексии по поводу применения ИИ в разработке и не только:
1. Важная проблема с ИИ сейчас - психологическая. Изменения происходят значительно быстрее чем многие могут к ним адаптироваться. И если в ИТ все более-менее привыкли уже к быстрым изменениям, то во многих других профессиях это происходит существенно тяжелее и с большой психологической нагрузкой. Разница в работе тех кто использует ИИ постоянно и тех кто сопротивляется очень заметна. Скоро потребуются курсы адаптации к этим изменениям (психологам работы прибавится).
2. В ИТ видно что ИИ ассистенты хорошо охватили блоки дизайна и разработки ПО, существенно эффективны в задачах devOps, продвигаются в задачах дата инженерии, но пока не видно специализированных продуктов по тестированию ПО. Но возможно я этого пласта применения просто не вижу, хотя он всё важнее.
3. Свежий доклад World Bank про распространение ИИ в развивающихся странах о том что есть новая форма неравенства в том как ИИ создается и применяется в странах с невысокими доходами. Акцент на малых моделях SLM работающих на повседневных устройствах. Тут важно не забывать что ИИ модели - это не только инструменты, но и де-факто срез мировых знаний локальные страновые модели будут применяться для цензурирования контента. Регуляторы к этому медленно адаптируются, они просто не успевают за потоком изменений, но этот поток не вечно будет столь изменчивым. Когда поток изменений поубавится или хотя бы станет предсказуемым жесткое регулирование будет неизбежным.
#thoughts #ai #itmarket
1. Важная проблема с ИИ сейчас - психологическая. Изменения происходят значительно быстрее чем многие могут к ним адаптироваться. И если в ИТ все более-менее привыкли уже к быстрым изменениям, то во многих других профессиях это происходит существенно тяжелее и с большой психологической нагрузкой. Разница в работе тех кто использует ИИ постоянно и тех кто сопротивляется очень заметна. Скоро потребуются курсы адаптации к этим изменениям (психологам работы прибавится).
2. В ИТ видно что ИИ ассистенты хорошо охватили блоки дизайна и разработки ПО, существенно эффективны в задачах devOps, продвигаются в задачах дата инженерии, но пока не видно специализированных продуктов по тестированию ПО. Но возможно я этого пласта применения просто не вижу, хотя он всё важнее.
3. Свежий доклад World Bank про распространение ИИ в развивающихся странах о том что есть новая форма неравенства в том как ИИ создается и применяется в странах с невысокими доходами. Акцент на малых моделях SLM работающих на повседневных устройствах. Тут важно не забывать что ИИ модели - это не только инструменты, но и де-факто срез мировых знаний локальные страновые модели будут применяться для цензурирования контента. Регуляторы к этому медленно адаптируются, они просто не успевают за потоком изменений, но этот поток не вечно будет столь изменчивым. Когда поток изменений поубавится или хотя бы станет предсказуемым жесткое регулирование будет неизбежным.
#thoughts #ai #itmarket
World Bank
Strengthening AI Foundations: Emerging Opportunities for Developing Countries
The World Bank’s Digital Progress and Trends Report 2025 explores how AI is accelerating growth in developing countries, while highlighting persistent gaps in access, infrastructure, and skills. Discover key trends, challenges, and the ‘Four Cs’ needed to…
👍12🔥5🤝4
Судя по новостям в России начали банить Telegram и я мог бы много чего сказать про глупость этого, про то что по рядовым чиновникам и госслужащим это бьет не меньше чем по всем остальными о том что внутри российских госорганов недоверие MAX'у не меньшее чем у простых и продвинутых россиян. Политическая целесообразность, тем не менее, в РФ абсолютно затмевает экономическую.
Тем не менее я не сомневаюсь что аудиторию мой канал не потеряет как и большая часть коммуникаций сохранится. Самое очевидное и значимое то что:
1. Многие команды работающие в РФ частично или полностью будут вынуждены теперь повсеместно использовать VPN. Я, кстати, не испытываю сомнений что пока SSH протокол не начали замедлять будет сложно заблокировать что VPN'ы что прокси для отдельных приложений.
2. Не только в контексте РФ, но и других стран есть явная ниша для zero-config сервисов вроде Tailscale или Twingate для организации внутрикорпоративных сетей. Применительно к РФ их главный недостаток сейчас в том что они работают с использованием Wireguard как основного протокола.
#thoughts
Тем не менее я не сомневаюсь что аудиторию мой канал не потеряет как и большая часть коммуникаций сохранится. Самое очевидное и значимое то что:
1. Многие команды работающие в РФ частично или полностью будут вынуждены теперь повсеместно использовать VPN. Я, кстати, не испытываю сомнений что пока SSH протокол не начали замедлять будет сложно заблокировать что VPN'ы что прокси для отдельных приложений.
2. Не только в контексте РФ, но и других стран есть явная ниша для zero-config сервисов вроде Tailscale или Twingate для организации внутрикорпоративных сетей. Применительно к РФ их главный недостаток сейчас в том что они работают с использованием Wireguard как основного протокола.
#thoughts
❤27💯14🤝6🤔2
Для меня один из давних вопросов в том могут ли LLM работать с двоичными данными и делать это хорошо. Но если я только задумывался об этом то ребята из Quesma проделали серию тестов с внедрением вредоносов в несколько бинарников популярных серверных продуктов и попробовали с помощью разных LLM их выявить используя опенсорные инструменты Ghidra и Radare2. А по итогам они написали подробный отчет в котором есть еще и ссылки на детали замеров и исходники.
В качестве короткого резюме - да, возможно. Лучше всего себя показал последняя модель Claude Opus 4.6, хуже всего Grok-4.1-fast. Впрочем использование Claude Opus 4.6 было самым дорогим, его использование вышло в $300, но и выявил он 49% всего вредоносного кода (бинарного в исполняемых файлах)
Результат интересен еще и его обратимостью, если ИИ ассистенты так хороши в обнаружении вредоносного кода в бинарниках, то они же могут быть хороши и в его сокрытии. А значит и хакеры могут получить более опасные инструменты и борьба с ними станет тяжелее.
#opensource #ai #itsecurity
В качестве короткого резюме - да, возможно. Лучше всего себя показал последняя модель Claude Opus 4.6, хуже всего Grok-4.1-fast. Впрочем использование Claude Opus 4.6 было самым дорогим, его использование вышло в $300, но и выявил он 49% всего вредоносного кода (бинарного в исполняемых файлах)
Результат интересен еще и его обратимостью, если ИИ ассистенты так хороши в обнаружении вредоносного кода в бинарниках, то они же могут быть хороши и в его сокрытии. А значит и хакеры могут получить более опасные инструменты и борьба с ними станет тяжелее.
#opensource #ai #itsecurity
👍7❤6
Ещё в рубрике как это устроено у них о том что порталы и каталоги открытых данных даже со свободными лицензиями не всегда содержат открытые данные.
Портал открытых данных The AIDS Data Repository содержит 598 наборов данных которые организованы так что для доступа к ним нужна регистрация в их внутренней системе. На портале доступны карточки метаданных, но сами ресурсы вынесены в отдельную систему с авторизацией.
Проект OpenHeritage3D содержит 3D модели многочисленных культурных объектов по всему миру, как правило на условиях CC BY-NC-ND, довольно ограничивающих, но дело не только в них. Данные напрямую скачать нельзя, нужно заполнить Download Submission Form и только после этого получить ссылки на закачку данных на почту.
Собственно это одна из причин почему открытыми данными называют то что соответствует Open Data Principles, а не все что де факто так называется или общедоступно.
#opendata #datacatalogs
Портал открытых данных The AIDS Data Repository содержит 598 наборов данных которые организованы так что для доступа к ним нужна регистрация в их внутренней системе. На портале доступны карточки метаданных, но сами ресурсы вынесены в отдельную систему с авторизацией.
Проект OpenHeritage3D содержит 3D модели многочисленных культурных объектов по всему миру, как правило на условиях CC BY-NC-ND, довольно ограничивающих, но дело не только в них. Данные напрямую скачать нельзя, нужно заполнить Download Submission Form и только после этого получить ссылки на закачку данных на почту.
Собственно это одна из причин почему открытыми данными называют то что соответствует Open Data Principles, а не все что де факто так называется или общедоступно.
#opendata #datacatalogs
🔥3❤🔥2
В рубрике интересных и малоизвестных проектов:
- PyDI малоизвестный широкой публике инструмент интеграции данных через LLM. Делается в Университете Маннхейма. Много полезного чтобы посмотреть как реализуют задачи schema matching, сопоставления структур данных для интеграции
- Web Data Commons коллекция огромного объёма (ну ладно, не огромного, просто не маленьких) наборов данных веб разметки объектов извлеченных из Common Crawl. Если проще - результаты извлечения объектов Schema.org из дампов Common Crawl. Уже год не добавляют нового, но и имеющееся весьма полезно
- DuckDB eurostat расширение для DuckDB для работы с данными Евростата. Я смотрю на это и думаю, ну почему, ну почему это сделал не я😱. Идея отличная, может сделать расширение поиска данных в Dateno через DuckDB? Но у нас нет SDK для C++, но можно и без SDK. Я вот не писал на C++ уже лет 30, только читал, патчил, собирал, но не вел полноценной разработки. Но самому такое делать и не надо, конечно. Надо привлечь кого-то к этому прекрасному делу.
- DOOMQL реализация игры DOOM на SQL в базе CedarDB. Для всех кто любит DOOM. В основе аналогичная реализация игры для DuckDB, на неё там приведены ссылки.
#opensource #data #datasets #dataengineering
- PyDI малоизвестный широкой публике инструмент интеграции данных через LLM. Делается в Университете Маннхейма. Много полезного чтобы посмотреть как реализуют задачи schema matching, сопоставления структур данных для интеграции
- Web Data Commons коллекция огромного объёма (ну ладно, не огромного, просто не маленьких) наборов данных веб разметки объектов извлеченных из Common Crawl. Если проще - результаты извлечения объектов Schema.org из дампов Common Crawl. Уже год не добавляют нового, но и имеющееся весьма полезно
- DuckDB eurostat расширение для DuckDB для работы с данными Евростата. Я смотрю на это и думаю, ну почему, ну почему это сделал не я😱. Идея отличная, может сделать расширение поиска данных в Dateno через DuckDB? Но у нас нет SDK для C++, но можно и без SDK. Я вот не писал на C++ уже лет 30, только читал, патчил, собирал, но не вел полноценной разработки. Но самому такое делать и не надо, конечно. Надо привлечь кого-то к этому прекрасному делу.
- DOOMQL реализация игры DOOM на SQL в базе CedarDB. Для всех кто любит DOOM. В основе аналогичная реализация игры для DuckDB, на неё там приведены ссылки.
#opensource #data #datasets #dataengineering
GitHub
GitHub - wbsg-uni-mannheim/PyDI: The PyDI framework provides methods for end-to-end data integration. The framework covers all…
The PyDI framework provides methods for end-to-end data integration. The framework covers all steps of the integration process, including schema matching, data translation, entity matching, and dat...
👍8
Мысли вслух, если все эти разговоры что РФ и США будут укреплять экономические связи если/когда закончится активная фаза военного конфликта, то звучит это всё так что существенная часть импортозамещения пойдет, выражаясь образно, ослу под хвост.
То есть от "отечественных ИТ продуктов" внутри госорганов отказа не будет, а вот бизнес крупняк может если не полностью то существенно вернуться к покупке лицензий на ПО из США. Кто-то может быть и нет, но кто-то точно да, те кто дольше всех тянул с переходом и пользовался пиратскими версиями сколько мог.
Но и это не так критично как то что американские ИИ-бигтехи быстро сожрут весь потребительский рынок прикладных ИИ ассистентов для конечных потребителей. Что Сбер, что Яндекс, им сейчас не конкуренты по множеству объективных причин.
#thoughts #itmarket
То есть от "отечественных ИТ продуктов" внутри госорганов отказа не будет, а вот бизнес крупняк может если не полностью то существенно вернуться к покупке лицензий на ПО из США. Кто-то может быть и нет, но кто-то точно да, те кто дольше всех тянул с переходом и пользовался пиратскими версиями сколько мог.
Но и это не так критично как то что американские ИИ-бигтехи быстро сожрут весь потребительский рынок прикладных ИИ ассистентов для конечных потребителей. Что Сбер, что Яндекс, им сейчас не конкуренты по множеству объективных причин.
#thoughts #itmarket
❤11👍8😁6
В рубрике как это устроено у них Osti.gov портал с результатами исследований профинансированными Департаментом энергетики США (IS Department of Energy). Включает более 3 миллионов научных результатов: статей, книг, видеозаписей, отчетов, ПО, патентов и, конечно же, данных. которых там более 652 тысяч записей. Это не просто много, а очень много и в целом описывает подход федеральных органов в США к раскрытию данных. В отличие от Китая где научные данный собираются в единый Science Data Bank и в отличие от Европы где действует единый агрегатор OpenAIRE, в США существует несколько крупных тематических агрегаторов каталогов научных данных объединённых под крупными федеральными ведомствами.
Так, помимо Osti.gov, существует ScienceBase.gov с геологическими данными и NASA Earthdata с космическими данными о Земле и NOAA Onestop единый поисковик данных о погоде и FRED банк данных по экономии и социологии от резервного банка Сент-Луиса.
Важная характеристика открытости данных в США в доступности данных для исследователей практически всех научных дисциплин. И важно помнить что их федеральный портал data.gov это далеко не самый крупный государственный портал данных страны.
#opendata #usa #energy #datacatalogs #datasets
Так, помимо Osti.gov, существует ScienceBase.gov с геологическими данными и NASA Earthdata с космическими данными о Земле и NOAA Onestop единый поисковик данных о погоде и FRED банк данных по экономии и социологии от резервного банка Сент-Луиса.
Важная характеристика открытости данных в США в доступности данных для исследователей практически всех научных дисциплин. И важно помнить что их федеральный портал data.gov это далеко не самый крупный государственный портал данных страны.
#opendata #usa #energy #datacatalogs #datasets
⚡6👍3❤1🔥1
Я как то рассказывал что я мэйнтейню репозиторий awesome-status-pages на Github'е и так исторически сложилось что до сих пор я не делал ни одного проекта который собрал бы такое же количество звезд (3 617). Совершенно непредсказуемая популярность от побочного awesome листа который я сварганил когда-то за час после того как сам исследовал эту тему. Тем не менее это оказалось именно тем куда потоком стекаются каждый новый создатель таких сервисов, а их сотни, иногда кажется что каждый разработчик хочет сделать свой велосипед проект status pages.
Пока массово не применяли ИИ - это было нормально, а теперь пошел поток ИИ запросов от Claude Code, и вот тут пришлось уже писать пугающее предупреждение и начать банить тех кто отправляет такие пулл реквесты через Claude Code. Их очень легко отличить от человеческих, они слишком грамотно написаны😉
Но чую это только начало, а дальше будет только хуже.
#opensource
Пока массово не применяли ИИ - это было нормально, а теперь пошел поток ИИ запросов от Claude Code, и вот тут пришлось уже писать пугающее предупреждение и начать банить тех кто отправляет такие пулл реквесты через Claude Code. Их очень легко отличить от человеческих, они слишком грамотно написаны😉
Но чую это только начало, а дальше будет только хуже.
#opensource
😁10👍5
Свежий доклад Building Open Digital States: Country Case Studies on the Impact of DPGs for DPI от Digital Public Goods Alliance по продвижению использования продуктов с открытым кодом среди органов власти и международных НКО для решения задач предоставления услуг, повышения эффективности госуправления и не только.
Доклад любопытный, в первую очередь, кейсами по развивающимся странам. Например, можно прочитать про внедрение X-Road в Кыргызстане и про системы моментальных платежей в Руанде и на Филлипинах.
Сама инициатива полезная для понимания как альтернативно может развиваться цифровая инфраструктура без коллосальных инвестиций или опоры на бигтехи и ИТ крупняк вендоров-внедренцев. При этом, конечно, все эти примеры это капли в море реальных ИТ расходов государств по странам, но тем не менее это показательные примеры.
А ещё есть много вопросов. Например, почему в Кыргызстане внедряют X-Road из Эстонии (на самом деле теперь его продвигает Nordic Institute for Interoperability Solutions куда еще входят Финляндия и Исландия), а не российский Гостех? И ответ не только в том чтоГостеха не существует Сбер под международными санкциями, но и в том что исходный код X-Road открыт и средства международной помощи выделяются на его внедрение.
#opensource #publicgood
Доклад любопытный, в первую очередь, кейсами по развивающимся странам. Например, можно прочитать про внедрение X-Road в Кыргызстане и про системы моментальных платежей в Руанде и на Филлипинах.
Сама инициатива полезная для понимания как альтернативно может развиваться цифровая инфраструктура без коллосальных инвестиций или опоры на бигтехи и ИТ крупняк вендоров-внедренцев. При этом, конечно, все эти примеры это капли в море реальных ИТ расходов государств по странам, но тем не менее это показательные примеры.
А ещё есть много вопросов. Например, почему в Кыргызстане внедряют X-Road из Эстонии (на самом деле теперь его продвигает Nordic Institute for Interoperability Solutions куда еще входят Финляндия и Исландия), а не российский Гостех? И ответ не только в том что
#opensource #publicgood
👍5❤2🔥2
Читаю с удовольствием историю про появление RevPDF оффлайнового редактора для PDF (а заодно и просмотрщика и конвертера). Автор всерьез заморочился тем чтобы создать ПО с минимальным футпринтом, работающее оффлайн и быстро. Честно говоря выглядит этого особенно хорошо на фоне того в какое неприятное приложение превратился Acrobat Reader и того что редактора PDF почти все платные.
У приложения нет открытого кода, сам автор пишет что во всяком случае пока.
Если автор еще и код откроет так совсем бесценным приложением это будет.
#apps #productivity #softwareengineering
У приложения нет открытого кода, сам автор пишет что во всяком случае пока.
Если автор еще и код откроет так совсем бесценным приложением это будет.
#apps #productivity #softwareengineering
👍19🔥8⚡5✍1❤1
Новая версия 1.1 стандарта Croissant как хороший пример эволюции стандартизации описания данных. Стандарт создавался для датасетов для ИИ. Важная его часть - это аннотирование семантическими типами, объектами из Wikidata и иными тематическими справочниками. Это более чем важно для автоматизации понимания содержимого датасета и это то что можно реализовывать уже сейчас для описания наборов данных.
Кроме того в версию стандарта добавлена интеграция с онтологиями прав использования DUO и W3C ORDL и применение W3C PROV онтологии происхождения цифрового объекта.
Как ни посмотри, одни плюсы. Этот стандарт однозначно надо использовать для описания данных в открытых каталогах данных и не только.
#opendata #standards #data #datasets
Кроме того в версию стандарта добавлена интеграция с онтологиями прав использования DUO и W3C ORDL и применение W3C PROV онтологии происхождения цифрового объекта.
Как ни посмотри, одни плюсы. Этот стандарт однозначно надо использовать для описания данных в открытых каталогах данных и не только.
#opendata #standards #data #datasets
👍7❤1🤝1
Полезные ссылки про данные, технологии и не только:
- Village SQL форк MySQL с возможностью написания расширений и несколькими готовыми расширениями для криптографических функций, генерации UUID и, конечно же, функций для промптинга LLM. Код под GPL2, команда с большим опытом разработки СУБД. Для тех чья жизнь связана с MySQL может быть полезной альтернативой
- Where Data Engineering Is Heading in 2026 - 5+ Trends автор рассуждает о трендах дата инженерии, я бы выделил ту мысль что скоро в вакансиях перестанут упоминать применение ИИ ассистентов как обязательное требование потому что оно будет подразумеваться.
- Polyglot програмная библиотека для Rust для парсинга SQL. Нужный инструмент для самых разнообразных задач. Пока выглядит как наиболее продвинутый из всех мне известных.
- What the fastest-growing tools reveal about how software is being built в блоге Github о том что AI теперь всегда синонимичен Python, о том что Typescript напирает популярность, а Javascript теряет и ряд других интересностей из анализов трендов на Github'е
- Monty облегченная версия интерпретатора Python'а написанная на Rust. Главное - безопасная работа и минимизированная скорость запуска. Зачем? Для экономии ресурсов при запуске в изолированных контейнерах ИИ агентов. Делают ребята из Pydantic. Выглядит как важный и нужный продукт, заодно у них есть сравнение с альтернативами.
#tools #datatools #opensource #dataengineering
- Village SQL форк MySQL с возможностью написания расширений и несколькими готовыми расширениями для криптографических функций, генерации UUID и, конечно же, функций для промптинга LLM. Код под GPL2, команда с большим опытом разработки СУБД. Для тех чья жизнь связана с MySQL может быть полезной альтернативой
- Where Data Engineering Is Heading in 2026 - 5+ Trends автор рассуждает о трендах дата инженерии, я бы выделил ту мысль что скоро в вакансиях перестанут упоминать применение ИИ ассистентов как обязательное требование потому что оно будет подразумеваться.
- Polyglot програмная библиотека для Rust для парсинга SQL. Нужный инструмент для самых разнообразных задач. Пока выглядит как наиболее продвинутый из всех мне известных.
- What the fastest-growing tools reveal about how software is being built в блоге Github о том что AI теперь всегда синонимичен Python, о том что Typescript напирает популярность, а Javascript теряет и ряд других интересностей из анализов трендов на Github'е
- Monty облегченная версия интерпретатора Python'а написанная на Rust. Главное - безопасная работа и минимизированная скорость запуска. Зачем? Для экономии ресурсов при запуске в изолированных контейнерах ИИ агентов. Делают ребята из Pydantic. Выглядит как важный и нужный продукт, заодно у них есть сравнение с альтернативами.
#tools #datatools #opensource #dataengineering
GitHub
GitHub - villagesql/villagesql-server: VillageSQL
VillageSQL. Contribute to villagesql/villagesql-server development by creating an account on GitHub.
🔥5🤔1
Статистика использования генеративных ИИ инструментов молодежью в странах ЕС. А также датасет на котором эта визуализация построена.
Добавлю что по тому же показателю в Евростате мужчины чаще используют генеративный ИИ в работе, а женщины при получении образования. Но это вы уже сами можете найти на сайте Евростата;)
Интересно что по ЕС такие данные есть, а по многим другим странам и территориям они отсутствуют. Если ли такие измерения по РФ (включая регионы), Казахстану, Узбекистану?
Вообще стат индикаторы по цифровизации должны оперативно обновляться под развивающееся внедрение ИИ. А где они есть за пределами наиболее развитых стран?
#statistics #aiagents
Добавлю что по тому же показателю в Евростате мужчины чаще используют генеративный ИИ в работе, а женщины при получении образования. Но это вы уже сами можете найти на сайте Евростата;)
Интересно что по ЕС такие данные есть, а по многим другим странам и территориям они отсутствуют. Если ли такие измерения по РФ (включая регионы), Казахстану, Узбекистану?
Вообще стат индикаторы по цифровизации должны оперативно обновляться под развивающееся внедрение ИИ. А где они есть за пределами наиболее развитых стран?
#statistics #aiagents
👍4🔥3✍2
У меня тут внезапный вопрос не про открытые данные, а про их восприятие. Мы регулярно проводим всякие конкурсы и хакатоны и заморочались тем что не можем подобрать правильную символику открытости данных. Понятно что есть символика организаций которые тему продвигают, а вот визуальной символики которую можно было бы превратить, например, в статуэтку придумать не получается.
Может у сообщества есть идеи? Поделитесь ими в чате @begtinchat
#questions
Может у сообщества есть идеи? Поделитесь ими в чате @begtinchat
#questions
👍5
Тем временем я постепенно, но столкнулся с ограничениями раздумывающих ИИ ассистентов с решением задач которые требуют коммерческих сервисов. Возможно они всячески избегают предлагать решения которые предполагают платить деньги каким-либо сервисам, возможно, не знают решения задач на их основе.
Вот в пример задача которую я регулярно решаю - пополнение реестра каталогов Dateno (dateno.io/registry) и я регулярно задаю сложные вопросы для deep thinking сервисов которые звучат как "мне нужен полный список сайтов работающих на базе YYY" (реальные промпты посложнее, но так понятнее) и в ответ я получаю довольно неплохо структурированные ответы о том как искать эти данные на сайте вендора или запросами к Google и оценки трудоёмкости в несколько месяцев.
Хотя есть более эффективные инструменты из мира OSINT такие как BuiltWith или Censys которые позволяют получить списки по многим веб сайтов оплачивая отчеты по технологиям. Это стоит денег, но кратно эффективнее (не рекламирую их, просто констатирую). И ни один из ИИ ассистентов не предложил этот путь.
Это довольно существенное ограничение, скорее всего преодолимое путём проектирования задач на ранних этапах, но приводящее к ситуации когда ИИ ассистенты имеют ограниченное число маршрутов и неплохо действуют в их пределах и совсем не действуют там где эти маршруты не так очевидны.
#opendata #thoughts #ai
Вот в пример задача которую я регулярно решаю - пополнение реестра каталогов Dateno (dateno.io/registry) и я регулярно задаю сложные вопросы для deep thinking сервисов которые звучат как "мне нужен полный список сайтов работающих на базе YYY" (реальные промпты посложнее, но так понятнее) и в ответ я получаю довольно неплохо структурированные ответы о том как искать эти данные на сайте вендора или запросами к Google и оценки трудоёмкости в несколько месяцев.
Хотя есть более эффективные инструменты из мира OSINT такие как BuiltWith или Censys которые позволяют получить списки по многим веб сайтов оплачивая отчеты по технологиям. Это стоит денег, но кратно эффективнее (не рекламирую их, просто констатирую). И ни один из ИИ ассистентов не предложил этот путь.
Это довольно существенное ограничение, скорее всего преодолимое путём проектирования задач на ранних этапах, но приводящее к ситуации когда ИИ ассистенты имеют ограниченное число маршрутов и неплохо действуют в их пределах и совсем не действуют там где эти маршруты не так очевидны.
#opendata #thoughts #ai
Dateno
Dateno Registry and Dataset Search Engine
A next-generation data search service provides fast, comprehensive access to open datasets worldwide, with powerful filters and an API-first architecture for seamless integration.
👍5🔥2
Forwarded from RPPA PRO: Privacy • AI • Cybersecurity • IP
Media is too big
VIEW IN TELEGRAM
AI Data Governance Framework - это не абстрактная теория, а практическая стратегия управления данными под задачи ИИ
определение структуры управления
RPPA.pro | RPPAedu.pro | AI Governance
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6✍4👏3❤1
В рубрике как это устроено у них DataLabor португальский исследовательский портал с данными и визуализацией статистики труда в стране, основан на базе официальной статистики переведенной у удобные дашборды и графики временных рядов.
Создан в лаборатории Colabor созданной рядом академических структур для анализа рынка труда.
Лично мне нехватает явного раздела с датасетами, но и без него полезный ресурс.
#opendata #statistics #portugal
Создан в лаборатории Colabor созданной рядом академических структур для анализа рынка труда.
Лично мне нехватает явного раздела с датасетами, но и без него полезный ресурс.
#opendata #statistics #portugal
👍3