Результаты Stack Overflow Annual Developer Survey за 2025 год.
Я выделил те блоки которые касаются баз данных и LLM. Как всегда обращаю внимание на DuckDB в базах данных, сейчас это самый популярный движок для OLAP.
Но, конечно, с оговорками что основная аудитория опроса StackOverflow - это фуллстаки, бэкэндеры и студенты. А дата инженеров, AI/ML инженеров и дата сайентистов там менее 5%.
#it #surveys
Я выделил те блоки которые касаются баз данных и LLM. Как всегда обращаю внимание на DuckDB в базах данных, сейчас это самый популярный движок для OLAP.
Но, конечно, с оговорками что основная аудитория опроса StackOverflow - это фуллстаки, бэкэндеры и студенты. А дата инженеров, AI/ML инженеров и дата сайентистов там менее 5%.
#it #surveys
👍6🔥3❤1
Spatial Desktop свежий инструмент с от Foursquare для визуализации геоданных. Основан на их другом open source продукте SQLRooms и стоит от $25 в месяц.
Внутри DuckDB, обещают поддержку Geoparquet и PMTiles и в целом выглядит смазливо.
Главный недостаток - пока есть версия только для Mac.
#data #datatools #geodata
Внутри DuckDB, обещают поддержку Geoparquet и PMTiles и в целом выглядит смазливо.
Главный недостаток - пока есть версия только для Mac.
#data #datatools #geodata
🔥9🌚1💅1
AI Safety Index от Future of Life Institute. По сути оценивали они не столько ИИ модели, сколько корп. культуру, планы, обещания, юр. статус, публичные декларации и тд. основных провайдеров облачных LLM. Поэтому DeepSeek на последнем месте, о чём в тексте индекса тоже есть, о том что китайская корпоративная культура устроена иначе.
А в целом результаты индекса в том что все ИИ компании сами не готовы к тому к чему они стремятся.
Документ полезный, много сопроводительных ссылок на другие схожие работы.
#ai #readings #ratings
А в целом результаты индекса в том что все ИИ компании сами не готовы к тому к чему они стремятся.
Документ полезный, много сопроводительных ссылок на другие схожие работы.
#ai #readings #ratings
🔥8😁4
Google анонсировали AlphaEarth ИИ модель для работы с петабайтами данных наблюдения за Землей.
Пишут что его уже используют для разметки неизвестных экосистем, анализа климатических и агрокультурных изменений и тд.
В основе модели набор данных Google Satellite Embedding доступный для разработчиков через Google Earth
#geodata #opendata #ai
Пишут что его уже используют для разметки неизвестных экосистем, анализа климатических и агрокультурных изменений и тд.
В основе модели набор данных Google Satellite Embedding доступный для разработчиков через Google Earth
#geodata #opendata #ai
❤6👍5🔥4
Хороший текст Hyparquet: The Quest for Instant Data от команды Hyperparam о специфике parquet файлов которой они воспользовались для оптимизации их отображения в браузере, как они сами называют browser-first подход к отображению данных и работы с ними с помощью WASM. Видно что автор и сама команда хорошо понимают и структуру parquet файлов (там метаданные записаны в конце файла), и то как работает сжатие и то как оптимизируется код для WASM.
Тот случай когда множество технологических оптимизаций дают хороший результат. Ну и большим плюсом является наличие открытого кода и дизайн local-first
#opensource #data #datatools
Тот случай когда множество технологических оптимизаций дают хороший результат. Ну и большим плюсом является наличие открытого кода и дизайн local-first
#opensource #data #datatools
👍6
Поделюсь личной болью отсутствия на русском языке книг о метаданных, на английском их есть в каком-то количестве, чаще со взглядом со стороны каталогизации библиотечных объектов, реже любых цифровых объектов, ещё реже о каталогизации данных, но на русском практически ничего нет.
А это как минимум описание основы природы метаданных, основных областей применения, принципов разработки стандартов и обзор самих стандартов которые после Dublin Core сильно расширились и имеют очень много разных отражений, как в управлении цифровыми объектами/имуществом так и в части в более узких, каталогизации данных, архивов, ML артефактов и так далее.
Буквально хоть сам пиши, но и себя ловлю на мысли что возможно русскоязычная аудитория для таких книг невелика и если писать самому то тоже на английском языке. Почти шутка.
Метаданные - это важное явление и взгляд на жизнь, тесно переплетённое с техническим долгом и документацией. Я регулярно наблюдаю как создаётся огромное число цифровых объектов, тех же данных, без полноценного заполнения сопутствующих метаданных, даже наиболее значимых: название, описание, права. Не спроста оценка качества данных начинается с полноты метаданных их описывающих.
И наоборот есть немало случаев когда метаданные заполняются в отношении объектов которые и каталогизировать то не надо в виду их малозначимости.
#metadata #data #thoughts
А это как минимум описание основы природы метаданных, основных областей применения, принципов разработки стандартов и обзор самих стандартов которые после Dublin Core сильно расширились и имеют очень много разных отражений, как в управлении цифровыми объектами/имуществом так и в части в более узких, каталогизации данных, архивов, ML артефактов и так далее.
Буквально хоть сам пиши, но и себя ловлю на мысли что возможно русскоязычная аудитория для таких книг невелика и если писать самому то тоже на английском языке. Почти шутка.
Метаданные - это важное явление и взгляд на жизнь, тесно переплетённое с техническим долгом и документацией. Я регулярно наблюдаю как создаётся огромное число цифровых объектов, тех же данных, без полноценного заполнения сопутствующих метаданных, даже наиболее значимых: название, описание, права. Не спроста оценка качества данных начинается с полноты метаданных их описывающих.
И наоборот есть немало случаев когда метаданные заполняются в отношении объектов которые и каталогизировать то не надо в виду их малозначимости.
#metadata #data #thoughts
👍14💯10❤5💊1
Полезное чтение про данные, технологии и не только:
- Will data centers crash the economy? о том может ли переток денег на финансирование дата центров в США привести к финансовому кризису. Не смотрел на происходящее этим взглядом, размышления весьма любопытные и тесно связанные в ИИ хайпом
- langextract инструмент/библиотека на Python по извлечению именованных сущностей из текстов. В качестве примера разбор текста Ромео и Джульеты. Полезно для многих задач. Открытый код, лицензия Apache 2.0
- Can analysis ever be automated? Бенн Стансил рассуждает об автоматизации аналитики и то что важное отличие ИИ аналитики от ИИ кодинга в том что нет бенчмарков проверяющих верность аналитики. В итоге нельзя определить автоматически правильно ли ИИ построил график или нет.
- mcp-use интегрирует любую LLM с любыми MCP серверами. Важный компонент в экосистему, надо пробовать.
- DesignVision ИИ поисковик по изображениям патентов от Патентной службы США. Есть пока только анонс, живой интерфейс ещё не публиковали. Идея интересная, надо посмотреть
#ai #data #analytics
- Will data centers crash the economy? о том может ли переток денег на финансирование дата центров в США привести к финансовому кризису. Не смотрел на происходящее этим взглядом, размышления весьма любопытные и тесно связанные в ИИ хайпом
- langextract инструмент/библиотека на Python по извлечению именованных сущностей из текстов. В качестве примера разбор текста Ромео и Джульеты. Полезно для многих задач. Открытый код, лицензия Apache 2.0
- Can analysis ever be automated? Бенн Стансил рассуждает об автоматизации аналитики и то что важное отличие ИИ аналитики от ИИ кодинга в том что нет бенчмарков проверяющих верность аналитики. В итоге нельзя определить автоматически правильно ли ИИ построил график или нет.
- mcp-use интегрирует любую LLM с любыми MCP серверами. Важный компонент в экосистему, надо пробовать.
- DesignVision ИИ поисковик по изображениям патентов от Патентной службы США. Есть пока только анонс, живой интерфейс ещё не публиковали. Идея интересная, надо посмотреть
#ai #data #analytics
✍6
В блоге Cloudflare о том как Perplexity неэтично индексируют сайты закрытые robots.txt и подменяют User-Agent, с позитивной новостью что Cloudflare от этого защищают. Мне трудно понять тут отличия Perplexity от остальных глобальных ИИ продуктов/агентов которые предпочтут тяжбы, но не этичное поведение. Как пользователю Perplexity мне удобно когда я могу получить нужны ответ оперативно, как создателю контентных проектов мне совсем не хочется потерять всю их аудиторию из-за ИИ агентов.
Проблема серьёзнее чем кажется нарастанием противостояния, пока непонятно есть ли у неё простое устраивающее всех решение. Зато я вижу как многие ресурсы огораживаются от любых ИИ агентов и иных ботов скрейпящих их материалы. Чаще всего наблюдаю это на китайских сайтах. Например, не так давно я попытался несколько разных LLM построить аналитику по объёмам и масштабам публикации датасетов в Китае на провинциальных порталах. Самый лучший результат дал анализ 3-х из более чем 50 сайтов. Проблема тут не в неспособности ИИ агентов интерпретировать результаты, а в целенаправленных блокировках по геолокации, User-Agent и любым признакам обращения от лица бота.
#ai #scraping #bots #perplexity #cloudflare
Проблема серьёзнее чем кажется нарастанием противостояния, пока непонятно есть ли у неё простое устраивающее всех решение. Зато я вижу как многие ресурсы огораживаются от любых ИИ агентов и иных ботов скрейпящих их материалы. Чаще всего наблюдаю это на китайских сайтах. Например, не так давно я попытался несколько разных LLM построить аналитику по объёмам и масштабам публикации датасетов в Китае на провинциальных порталах. Самый лучший результат дал анализ 3-х из более чем 50 сайтов. Проблема тут не в неспособности ИИ агентов интерпретировать результаты, а в целенаправленных блокировках по геолокации, User-Agent и любым признакам обращения от лица бота.
#ai #scraping #bots #perplexity #cloudflare
👍8
Forwarded from Цифровой архив госфинансов и госуправления
Раритеты Цифрового Архива: И.С. Блиох "Финансы России XIX столетия. История-Статистика" в 4-х томах, 1882 г.
Имя Ивана Станиславовича Блиоха (1836—1901 гг.) — крупнейшего российского банкира, концессионера железных дорог в Российской империи связано с рядом крупных обобщающих научных исследований, освещающих глобальные стороны государственного управления.
Ценным вкладом в историю российских финансов является капитальный четырехтомный труд Блиоха «Финансы России XIX столетия. История - статистика». Первые два тома освещают историю финансов России с древнейших времен, третий том — это монография о доходах, а в четвертом томе дается критический разбор государственных расходов.
В коллекции Цифрового Архива представлены все тома четырехтомника:
Том 1 обращен к истории русских финансов и рассматривает положение финансового управления в государстве с допетровского периода в российской истории и до начала Крымской войны 1853—1856 гг.
Том 2 является продолжением первого тома и охватывает историю русских финансов с начала Крымской войны 1853–1856 гг. до образования Кахановской комиссии, созданной для составления проектов местного управления и работавшей с 1881 по 1885 гг.
В томе 3 рассматривается формирование государственных доходов (налогов, пошлин и прочих поступлений в казну).
В томе 4 в форме историко-статистического обзора 1866—1879 гг. рассматриваются статьи государственных расходов, в т.ч. и сверхсметных.
Следует отметить, что существуют обоснованные сомнения в том, что И.С. Блиох сам написал ряд капитальных многотомных научных работ, изданных под его фамилией. В мемуарах С.Ю. Витте отмечалось:
#книга #финансы #история #статистика #Блиох
Имя Ивана Станиславовича Блиоха (1836—1901 гг.) — крупнейшего российского банкира, концессионера железных дорог в Российской империи связано с рядом крупных обобщающих научных исследований, освещающих глобальные стороны государственного управления.
Ценным вкладом в историю российских финансов является капитальный четырехтомный труд Блиоха «Финансы России XIX столетия. История - статистика». Первые два тома освещают историю финансов России с древнейших времен, третий том — это монография о доходах, а в четвертом томе дается критический разбор государственных расходов.
В коллекции Цифрового Архива представлены все тома четырехтомника:
Том 1 обращен к истории русских финансов и рассматривает положение финансового управления в государстве с допетровского периода в российской истории и до начала Крымской войны 1853—1856 гг.
Том 2 является продолжением первого тома и охватывает историю русских финансов с начала Крымской войны 1853–1856 гг. до образования Кахановской комиссии, созданной для составления проектов местного управления и работавшей с 1881 по 1885 гг.
В томе 3 рассматривается формирование государственных доходов (налогов, пошлин и прочих поступлений в казну).
В томе 4 в форме историко-статистического обзора 1866—1879 гг. рассматриваются статьи государственных расходов, в т.ч. и сверхсметных.
Следует отметить, что существуют обоснованные сомнения в том, что И.С. Блиох сам написал ряд капитальных многотомных научных работ, изданных под его фамилией. В мемуарах С.Ю. Витте отмечалось:
«Все его [Блиоха] ученые труды писались не им, а писались различными писателями и специалистами за деньги, которые он им платил. Сам же Блиох только составлял ... программу тех трудов, которые он предлагал издавать.».
#книга #финансы #история #статистика #Блиох
👍10❤5🤩1
Тем временем мои руки добрались до экспериментов с MCP серверами для разных сервисов. В качестве эксперимента я сейчас взял сервис оценки простоты русского языка PlainRussian.ru который я когда-то очень-очень давно создавал и передал в Инфокультуру. У сервиса есть немало лояльных пользователей, при том что он не менялся уже больше 10 лет, есть API и вообще он просто устроен. Сейчас я на его основе сделал простейший MCP сервер который проверил через AnythingLLM и одну из последних открытых моделей от OpenAI.
Хорошая новость - всё быстро завелось и заработало, LLM достаточно корректно интерпретирует результаты.
Это значит что для других продуктов, более серьёзных и коммерческих, таких как Dateno.io можно сделать MCP сервер в довольно короткие сроки.
Не так очевидно потенциальная нагрузка на такое API если его выставить наружу без авторизации. Не сожрёт ли оно слишком много ресурсов. Нужен бенчмарк и нагрузочное тестирование, возможно достаточно интенсивное.
Поэтому тут развилка, сделать ли общедоступный MCP сервер для подключения кого угодно, и делать ли тогда авторизацию? Или сделать открытый репозиторий чтобы каждый мог поднять собственный MCP сервер, тогда надо больше усилий потратить на хорошее документирование.
P.S. Одна из причин почему я когда-то перестал развивать PlainRussian была в том что как раз с помощью LLM его функции можно заменить достаточно неплохо и с тем что полноценный анализатор сложности текста требует гораздо больше инвестиций, непонятно возвратных ли. Но как общественное благо в простом варианте, несомненно, польза от такого сервиса есть.
Пока всё это в рамках экспериментов с MCP протоколом, чуть позже я точно поделюсь кодом/доступом к сервису для тех кому это нужно на практике.
#plainlanguage #plainrussian
Хорошая новость - всё быстро завелось и заработало, LLM достаточно корректно интерпретирует результаты.
Это значит что для других продуктов, более серьёзных и коммерческих, таких как Dateno.io можно сделать MCP сервер в довольно короткие сроки.
Не так очевидно потенциальная нагрузка на такое API если его выставить наружу без авторизации. Не сожрёт ли оно слишком много ресурсов. Нужен бенчмарк и нагрузочное тестирование, возможно достаточно интенсивное.
Поэтому тут развилка, сделать ли общедоступный MCP сервер для подключения кого угодно, и делать ли тогда авторизацию? Или сделать открытый репозиторий чтобы каждый мог поднять собственный MCP сервер, тогда надо больше усилий потратить на хорошее документирование.
P.S. Одна из причин почему я когда-то перестал развивать PlainRussian была в том что как раз с помощью LLM его функции можно заменить достаточно неплохо и с тем что полноценный анализатор сложности текста требует гораздо больше инвестиций, непонятно возвратных ли. Но как общественное благо в простом варианте, несомненно, польза от такого сервиса есть.
Пока всё это в рамках экспериментов с MCP протоколом, чуть позже я точно поделюсь кодом/доступом к сервису для тех кому это нужно на практике.
#plainlanguage #plainrussian
👍8❤5🔥5
Что-то я совсем забыл написать, а тема важная. 1-го августа в США Трамп отправил в отставку Erika McEntarfer главу BLS (Bureau of Labor Statistics) за публикацию уточнённых цифр о безработице которые ему не понравились. Решение тревожное по причине того что в США официальная статистика активно используется на фондовом рынке, бизнесом и аналитиками и её закрыть как в России практически невозможно, а вот обвинения в манипуляции, как в данном случае Трамп обвинил главу BLS возможны. Впрочем и утверждения Трампа что цифры должны быть иными - это тоже, сомнительный вопрос.
Пока все публикации что я видел о том что Трамп не прав и что доступность экономических данных крайне важна, а пересмотр оценок регулярно происходит и он обоснован. В USA Facts об этом полезный лонгрид о том что это за данные и почему они важны.
#opendata #closeddata #usa #trump
Пока все публикации что я видел о том что Трамп не прав и что доступность экономических данных крайне важна, а пересмотр оценок регулярно происходит и он обоснован. В USA Facts об этом полезный лонгрид о том что это за данные и почему они важны.
#opendata #closeddata #usa #trump
USAFacts
How does the Bureau of Labor Statistics gather the monthly jobs report? | USAFacts
A look at how the Bureau of Labor Statistics reports on the economy.
❤4⚡3✍1🤔1
Forwarded from Цифровой архив госфинансов и госуправления
Из коллекции Цифрового архива: 20 лет советской власти. Статистический сборник (цифровой материал для пропагандистов) под общей редакцией А. Лалаевай, 1937, 114 стр.
В АНО "Инфокультура" оцифровали статистический сборник, опубликованный в 1937 году к 20-летию Октябрьской революции. В него вошли статистические данные, отражающие изменения в экономике, социальной сфере, культуре и государственном строительстве Советского Союза с 1917 по 1937 год. Материалы оформлены в виде таблиц, диаграмм и кратких пояснительных текстов и являются важным источником по истории раннесоветской статистики и идеологической риторики 1930-х годов.
Вот что авторы отмечают о производительности труда в крупной промышленности и сопровождают наблюдения соответствующими таблицами:
Книга на сайте Цифрового архива, 18,6 Мб
#книга #СССР #ЦАГГ
В АНО "Инфокультура" оцифровали статистический сборник, опубликованный в 1937 году к 20-летию Октябрьской революции. В него вошли статистические данные, отражающие изменения в экономике, социальной сфере, культуре и государственном строительстве Советского Союза с 1917 по 1937 год. Материалы оформлены в виде таблиц, диаграмм и кратких пояснительных текстов и являются важным источником по истории раннесоветской статистики и идеологической риторики 1930-х годов.
Вот что авторы отмечают о производительности труда в крупной промышленности и сопровождают наблюдения соответствующими таблицами:
"За один лишь 1936 год — первый год стахановского движения — производительность труда в крупной промышленности повысилась на 21%, а в тяжелой промышленности, в недрах которой зародилось стахановское движение, — на 26%".
Книга на сайте Цифрового архива, 18,6 Мб
#книга #СССР #ЦАГГ
👍7🤣6⚡5