В рубрике полезного чтения про данные, технологии и не только:
- Saloni's guide to data visualization гайд по визуализации данных с акцентом на наглядность научных данных, хорошие примеры, понятные советы
- Useful patterns for building HTML tools обзор HTML инструментов, в том числе созданных с помощью LLM.Немного за пределами моих интересов, но взгляд на эти инструменты который я лично упускал.
- Economics of Orbital vs Terrestrial Data Centers про обоснованность и возможность создания дата центров на орбите Земли. Любопытно, хотя и не кажется практичным в ближайшие годы
- Cloudflare Radar 2025 Year обзор трендов 2025 года от Cloudflare, обзор большой, в том числе страновой и есть что посмотреть по разным странам. Тянет на отдельную заметку, а пока просто закладка на чтение
#readings #data #dataviz
- Saloni's guide to data visualization гайд по визуализации данных с акцентом на наглядность научных данных, хорошие примеры, понятные советы
- Useful patterns for building HTML tools обзор HTML инструментов, в том числе созданных с помощью LLM.Немного за пределами моих интересов, но взгляд на эти инструменты который я лично упускал.
- Economics of Orbital vs Terrestrial Data Centers про обоснованность и возможность создания дата центров на орбите Земли. Любопытно, хотя и не кажется практичным в ближайшие годы
- Cloudflare Radar 2025 Year обзор трендов 2025 года от Cloudflare, обзор большой, в том числе страновой и есть что посмотреть по разным странам. Тянет на отдельную заметку, а пока просто закладка на чтение
#readings #data #dataviz
www.scientificdiscovery.dev
Saloni's guide to data visualization
Why data visualization matters, and how to make charts more effective, clear, transparent, and sometimes, beautiful.
👍5❤4
Множество предсказаний о журналистике в 2026 году https://www.niemanlab.org/collection/predictions-2026/ на сайте Nieman Lab
Многое про технологии и ИИ, есть даже про API для новостей. Для дата журналистов может быть полезным.
#thoughts #readings #journalism
Многое про технологии и ИИ, есть даже про API для новостей. Для дата журналистов может быть полезным.
#thoughts #readings #journalism
👍5⚡2🔥2
Полезное чтение про данные, технологии и не только
AI
- Introduction to AI Agents хорошо написанный четко изложенный документ от Google. Полезно для быстрого погружения в тему
- State of Agent Engineering обзор от LangChain состояния разработки ИИ агентов через опрос 1300 специалистов
- 2025 LLM Year in Review обзор 2025 года с точки зрения LLM, с погружением в технологии, от Андрея Карпатого
- AI Scraping and the Open Web о том что владельцы контента перешли к юридической защите от ИИ скрейперов после того как технические меры перестали работать
Облачная инфраструктура
- Let’s talk about GitHub Actions в блоге Github о том как они переделали Github Actions. Важное для всех что Github Actions использует. Важное тем что для многие GA стали заменой собственных ETL/ELT инструментов и многие конвееры работы с данными и другими действиями живут на Github.
Инструменты
- headson инструмент для выполнения команд типа head/tail для JSON и YAML файлов. Бывает полезно, но как-то узковато, больший универсализм был бы полезнее
- AGENTS.md спецификация для управления кодирующими ИИ агентами через специальный Markdown файл
- chandra модель для OCR с обещанием поддержки сложных структур и таблиц. Надо пробовать, правда ли так работает.
- Mistral OCR 3 свежая ИИ модель от Mistral для OCR, тоже обещают работу со сложными таблицами
Разное
- On the Immortality of Microsoft Word о бессмертии MS Word и почему Markdown не может заменить его, например, в работе юристов с документами
#opensource #ai #readings
AI
- Introduction to AI Agents хорошо написанный четко изложенный документ от Google. Полезно для быстрого погружения в тему
- State of Agent Engineering обзор от LangChain состояния разработки ИИ агентов через опрос 1300 специалистов
- 2025 LLM Year in Review обзор 2025 года с точки зрения LLM, с погружением в технологии, от Андрея Карпатого
- AI Scraping and the Open Web о том что владельцы контента перешли к юридической защите от ИИ скрейперов после того как технические меры перестали работать
Облачная инфраструктура
- Let’s talk about GitHub Actions в блоге Github о том как они переделали Github Actions. Важное для всех что Github Actions использует. Важное тем что для многие GA стали заменой собственных ETL/ELT инструментов и многие конвееры работы с данными и другими действиями живут на Github.
Инструменты
- headson инструмент для выполнения команд типа head/tail для JSON и YAML файлов. Бывает полезно, но как-то узковато, больший универсализм был бы полезнее
- AGENTS.md спецификация для управления кодирующими ИИ агентами через специальный Markdown файл
- chandra модель для OCR с обещанием поддержки сложных структур и таблиц. Надо пробовать, правда ли так работает.
- Mistral OCR 3 свежая ИИ модель от Mistral для OCR, тоже обещают работу со сложными таблицами
Разное
- On the Immortality of Microsoft Word о бессмертии MS Word и почему Markdown не может заменить его, например, в работе юристов с документами
#opensource #ai #readings
Langchain
State of AI Agents
LangChain provides the engineering platform and open source frameworks developers use to build, test, and deploy reliable AI agents.
👍9🔥4❤1
Полезные ссылки про данные, технологии и не только:
- NERD Language свежий язык программирования заточенный под LLM. Сделан читаемым для людей, но с предположением что пишут на нём ИИ агенты. Идея не кажется странной, но адаптация одного или нескольких существующих языков программирования кажется мне более логичной
- 2025 letter интересные рассуждения автора о сходстве Кремниевой долины и Коммунистической партии Китая в виде отсутствия юмора и исполненности самомнения. Текст реально длинный лонгрид, интересный и тем что автор рассуждений является автором книги Breakneck: China's Quest to Engineer the Future о изменениях в Китае и его инженерной культуре
- UK accounting body to halt remote exams amid AI cheating в Великобритании регулятор экзаменов для бухгалтеров запретил онлайн экзамены кроме как в редких исключительных случаях. Причина очевидна - обман с помощью ИИ агентов. Хотите бесплатную идею для edutech ближайшего будущего? Сеть экзаменационных центров с подавлением сотовых, абсолютно тотальным видеомониторингом с автоматизированным определением использования шпаргалок и устройств, обязательные обыски на входе,охранниками с дубинками и прочими "ноу-хау"
- on the software job climate автор сжато повторяет то о чем многие пишут, денег в ИТ (особенно венчурных) стало глобально меньше, бюджетов на найм в ИТ тоже меньше, а рабочей силы больше. Выводы делайте сами (уже и так все сделали)
- 2025: The year in LLMs автор делает обзор года программирования с помощью разных LLM. Много полезного. Автор - это Саймон Уиллисон, создатель довольно популярного инструмента Datasette для публикации данных онлайн, хорошо известный в кругах открытого кода и открытых данных
#readings #ai #opensource
- NERD Language свежий язык программирования заточенный под LLM. Сделан читаемым для людей, но с предположением что пишут на нём ИИ агенты. Идея не кажется странной, но адаптация одного или нескольких существующих языков программирования кажется мне более логичной
- 2025 letter интересные рассуждения автора о сходстве Кремниевой долины и Коммунистической партии Китая в виде отсутствия юмора и исполненности самомнения. Текст реально длинный лонгрид, интересный и тем что автор рассуждений является автором книги Breakneck: China's Quest to Engineer the Future о изменениях в Китае и его инженерной культуре
- UK accounting body to halt remote exams amid AI cheating в Великобритании регулятор экзаменов для бухгалтеров запретил онлайн экзамены кроме как в редких исключительных случаях. Причина очевидна - обман с помощью ИИ агентов. Хотите бесплатную идею для edutech ближайшего будущего? Сеть экзаменационных центров с подавлением сотовых, абсолютно тотальным видеомониторингом с автоматизированным определением использования шпаргалок и устройств, обязательные обыски на входе,
- on the software job climate автор сжато повторяет то о чем многие пишут, денег в ИТ (особенно венчурных) стало глобально меньше, бюджетов на найм в ИТ тоже меньше, а рабочей силы больше. Выводы делайте сами (уже и так все сделали)
- 2025: The year in LLMs автор делает обзор года программирования с помощью разных LLM. Много полезного. Автор - это Саймон Уиллисон, создатель довольно популярного инструмента Datasette для публикации данных онлайн, хорошо известный в кругах открытого кода и открытых данных
#readings #ai #opensource
www.nerd-lang.org
Story - NERD
Why NERD exists. The story of an LLM-native language.
❤6✍2❤🔥1👌1
Полезный ежегодный обзор баз данных в тексте Databases in 2025: A Year in Review от Andy Pavlov.
Всем кто работает с данными большого объёма будет полезно, вот ключевые выдержки:
1. Доминирование PostgreSQL продолжается. Многие экспериментируют со многими базами данных, но в продакшен всё равно используется PostgreSQL и совместимые с ним и его протоколом аналоги.
2. MCP для каждой СУБД. Похоже что тренд очевиден, MCP прикручивают к каждой СУБД каждый вендор и в этом нет ничего дурного. Больше универсальных интерфейсов полезных и нужных
3. MongoDB против FerretDB. MongoDB активно давит на FerretDB в том что воспроизведение их API и протокола нарушает их права. Такого в области баз данных ранее не было, самое близкое - это разборки Oracle vs Google из-за Java API. Тогда Oracle не удалось убедить суд в том что их права нарушены
4. Поле битвы форматов файлов. Активно идет появление новых стандартов и форматов дата файлов на замену Parquet. Я также не спроста писал про эту тему так часто, там идет сильная конкуренция и интересные технические решения
В оригинальном обзоре много ссылок и других событий
#data #rdbms #readings
Всем кто работает с данными большого объёма будет полезно, вот ключевые выдержки:
1. Доминирование PostgreSQL продолжается. Многие экспериментируют со многими базами данных, но в продакшен всё равно используется PostgreSQL и совместимые с ним и его протоколом аналоги.
2. MCP для каждой СУБД. Похоже что тренд очевиден, MCP прикручивают к каждой СУБД каждый вендор и в этом нет ничего дурного. Больше универсальных интерфейсов полезных и нужных
3. MongoDB против FerretDB. MongoDB активно давит на FerretDB в том что воспроизведение их API и протокола нарушает их права. Такого в области баз данных ранее не было, самое близкое - это разборки Oracle vs Google из-за Java API. Тогда Oracle не удалось убедить суд в том что их права нарушены
4. Поле битвы форматов файлов. Активно идет появление новых стандартов и форматов дата файлов на замену Parquet. Я также не спроста писал про эту тему так часто, там идет сильная конкуренция и интересные технические решения
В оригинальном обзоре много ссылок и других событий
#data #rdbms #readings
Andy Pavlo - Carnegie Mellon University
Databases in 2025: A Year in Review
The world tried to kill Andy off but he had to stay alive to to talk about what happened with databases in 2025.
❤5👍5
В продолжение моих малореалистичных предсказаний вот краткое изложение предсказаний экспертов из Стенфорда.
Они гораздо болеескучные реалистичные чем мои
ИИ в 2026: от хайпа к реальной оценке и измерению
Эксперты Стэнфорда считают, что 2026-й станет годом прагматичного подхода к искусственному интеллекту: не обещаниями и «чудесами», а оценкой реальной пользы, затрат и рисков. Вместо вопроса *«может ли ИИ что-то сделать?»* будет *«насколько хорошо, в каких условиях и для кого?»*.
AGI не появится
Общий искусственный интеллект широкого уровня всё ещё остаётся в будущем, и в ближайшем году его не ожидают.
«Суверенный» ИИ и геополитика
Страны активнее развивают собственные ИИ-экосистемы или запускают чужие модели на своих серверах, чтобы контролировать данные и снизить зависимость от крупных поставщиков.
Прозрачность и понимание
В науке и медицине усиливается внимание к объяснимости моделей — не только к результату, но и к тому, *как* система приходит к выводу.
Юридический ИИ — сложнее задач
Системы для юристов пойдут дальше простого чернового текста: научатся сопоставлять документы, синтезировать аргументы и давать оценки с привязкой к метрикам качества.
Реализм вместо пузыря
Инвестиции огромны, но эффективность ИИ в реальных процессах всё ещё умеренная. Ожидается больше тщательно измеренных данных о том, где технология действительно работает, а где — нет.
Медицина: постепенный «момент ChatGPT»
Методы самообучения и большие качественные наборы данных позволят медленным до сих пор медицинским ИИ-системам быстрее развиваться — в том числе для диагностики редких заболеваний.
Измерение воздействия на экономику
Вместо деклараций появятся «дашборды» для измерения влияния ИИ на производительность, рабочие места и отходы. Это позволит видеть результаты в реальном времени и корректировать стратегии.
—
По моему уже пришло время предсказаний в стиле Saxo Bank'а в отношении экономики, только вместо экономики предсказывать будущее ИИ (с другой стороны мы разве не подошли вплотную когда ИИ технологии и экономика становятся синонимами?)
#ai #readings
Они гораздо более
ИИ в 2026: от хайпа к реальной оценке и измерению
Эксперты Стэнфорда считают, что 2026-й станет годом прагматичного подхода к искусственному интеллекту: не обещаниями и «чудесами», а оценкой реальной пользы, затрат и рисков. Вместо вопроса *«может ли ИИ что-то сделать?»* будет *«насколько хорошо, в каких условиях и для кого?»*.
AGI не появится
Общий искусственный интеллект широкого уровня всё ещё остаётся в будущем, и в ближайшем году его не ожидают.
«Суверенный» ИИ и геополитика
Страны активнее развивают собственные ИИ-экосистемы или запускают чужие модели на своих серверах, чтобы контролировать данные и снизить зависимость от крупных поставщиков.
Прозрачность и понимание
В науке и медицине усиливается внимание к объяснимости моделей — не только к результату, но и к тому, *как* система приходит к выводу.
Юридический ИИ — сложнее задач
Системы для юристов пойдут дальше простого чернового текста: научатся сопоставлять документы, синтезировать аргументы и давать оценки с привязкой к метрикам качества.
Реализм вместо пузыря
Инвестиции огромны, но эффективность ИИ в реальных процессах всё ещё умеренная. Ожидается больше тщательно измеренных данных о том, где технология действительно работает, а где — нет.
Медицина: постепенный «момент ChatGPT»
Методы самообучения и большие качественные наборы данных позволят медленным до сих пор медицинским ИИ-системам быстрее развиваться — в том числе для диагностики редких заболеваний.
Измерение воздействия на экономику
Вместо деклараций появятся «дашборды» для измерения влияния ИИ на производительность, рабочие места и отходы. Это позволит видеть результаты в реальном времени и корректировать стратегии.
—
По моему уже пришло время предсказаний в стиле Saxo Bank'а в отношении экономики, только вместо экономики предсказывать будущее ИИ (с другой стороны мы разве не подошли вплотную когда ИИ технологии и экономика становятся синонимами?)
#ai #readings
Telegram
Ivan Begtin
2025 год закончился, пора переходить к предсказаниям на 2026 и вот мой набор необязательно самых реалистичных, но вполне возможных предсказаний.
1. Резкий рост безработицы в ИТ и больше увольнений в цифровых компаниях.
Включая сокращения 15-25% в крупных…
1. Резкий рост безработицы в ИТ и больше увольнений в цифровых компаниях.
Включая сокращения 15-25% в крупных…
👍9✍3❤2⚡2
Свежий доклад от Всемирного банка GovTech Maturity Index 2025 : Tracking Public Sector Digital Transformation Worldwide с измерением уровня цифровых технологий в госсекторе.
Некоторые оценки удивляют, например, низкий уровень цифровизации в Польше и высокий уровень в Секторе Газа.
Зато Армения оценена как весьма зрелая страна в этом отношении. Хм
В рейтинге учитывается открытый код и открытые данные и ещё довольно много всего.
Сам рейтинг разделен на 4 суб-рейтинга по зрелости информационных систем, предоставлению услуг, вовлечению граждан и зрелости институтов.
#rankings #readings
Некоторые оценки удивляют, например, низкий уровень цифровизации в Польше и высокий уровень в Секторе Газа.
Зато Армения оценена как весьма зрелая страна в этом отношении. Хм
В рейтинге учитывается открытый код и открытые данные и ещё довольно много всего.
Сам рейтинг разделен на 4 суб-рейтинга по зрелости информационных систем, предоставлению услуг, вовлечению граждан и зрелости институтов.
#rankings #readings
👍7✍2
Cursor выпустил гайд с лучшими практиками по использованию ИИ агентов в разработке. Рекомендации все довольно понятные, я бы даже сказал что очевидные для опытных разработчиков, но могут быть не настолько очевидными для кого-то ещё.
Важный акцент там на стадии планирования и вопросам к ассистенту до реализации фич или исправления багов.
А я бы добавил к этому следующее:
1. Планирование через OpenSpec или его аналоги. Очень хорошо структурирует процесс проектирования и коммуникации с ИИ агентом. Для сложного и унаследованного кода - это просто необходимо. В принципе разделять планирование и реализацию, на стадии планирования не меняется код, а результаты - спеки и планы.
2. Cursor и аналогичные инструменты (Antigravity, Copilot и тд.) могут выполнять роль инструментов исследовательской поддержки и аналитики. Например, формируz отчеты по конкурентам, проектируя инструменты бенчмарков с ними, подготовка аналитики по разным функциям, проектирование верхнеуровневой архитектуры и тд.
3. ИИ ассистент - это не только объект проверки (а не кривой ли код он написал?), но и сам является контуром контроля качества. Поэтому на каждой итерации внедрения фич необходим контур создания и проверки тестов, линтинга кода, обновления документации и тд. Это частично решается уже сейчас на стадиях планирования и спеков, но опыт показывает что явное указание этих обязательных проверок дает больше гарантии что код будет не поломан и документация будет актуальной.
4. Инструменты для разработки вполне способны не только писать код, но и писать документы. Подход такой же может быть как к репозиториям кода с использованием спецификаций, планирования и тд. Иначе говоря при проектировании больших ИТ продуктов можно создать отдельный репозиторий с архитектурой продуктов и от него создавать все остальные. Например, если надо условно с нуля сделать продукт у которого есть фронтэнд, бэкэнд, REST API, SDK, интеграционные модули и тд., то вместо того чтобы все засовывать в один репозиторий или сразу разбивать на множество, имеет смысл собрать архитектурный репозиторий с документами.
#ai #coding #thoughts #readings
Важный акцент там на стадии планирования и вопросам к ассистенту до реализации фич или исправления багов.
А я бы добавил к этому следующее:
1. Планирование через OpenSpec или его аналоги. Очень хорошо структурирует процесс проектирования и коммуникации с ИИ агентом. Для сложного и унаследованного кода - это просто необходимо. В принципе разделять планирование и реализацию, на стадии планирования не меняется код, а результаты - спеки и планы.
2. Cursor и аналогичные инструменты (Antigravity, Copilot и тд.) могут выполнять роль инструментов исследовательской поддержки и аналитики. Например, формируz отчеты по конкурентам, проектируя инструменты бенчмарков с ними, подготовка аналитики по разным функциям, проектирование верхнеуровневой архитектуры и тд.
3. ИИ ассистент - это не только объект проверки (а не кривой ли код он написал?), но и сам является контуром контроля качества. Поэтому на каждой итерации внедрения фич необходим контур создания и проверки тестов, линтинга кода, обновления документации и тд. Это частично решается уже сейчас на стадиях планирования и спеков, но опыт показывает что явное указание этих обязательных проверок дает больше гарантии что код будет не поломан и документация будет актуальной.
4. Инструменты для разработки вполне способны не только писать код, но и писать документы. Подход такой же может быть как к репозиториям кода с использованием спецификаций, планирования и тд. Иначе говоря при проектировании больших ИТ продуктов можно создать отдельный репозиторий с архитектурой продуктов и от него создавать все остальные. Например, если надо условно с нуля сделать продукт у которого есть фронтэнд, бэкэнд, REST API, SDK, интеграционные модули и тд., то вместо того чтобы все засовывать в один репозиторий или сразу разбивать на множество, имеет смысл собрать архитектурный репозиторий с документами.
#ai #coding #thoughts #readings
Cursor
Cursor agent best practices
A comprehensive guide to working with coding agents, from starting with plans to managing context, customizing workflows, and reviewing code.
👍13❤1🔥1🐳1
Интересный взгляд на ИИ разработку в тексте про Gas town от Steve Egge. Много уникальной терминологии так что сразу ещё один текст Gas town decoded
Подход интересный, но к терминологии надо привыкнуть ибо сложное описание процессов через большое число новых понятий.
Почитать точно стоит всем кто проектирует ПО
#readings #aiagents
Подход интересный, но к терминологии надо привыкнуть ибо сложное описание процессов через большое число новых понятий.
Почитать точно стоит всем кто проектирует ПО
#readings #aiagents
✍5
Полезные ссылки про данные, технологии и не только:
- Open Responses открытая спецификация на API для LLM на базе OpenAI Responses API. Вообще API OpenAI и так уже было стандартом де-факто, а тут уже и формализированный и описанный стандарт. Не вижу какой-то конкретной организации за его разработкой, похоже на частную инициативу
- Using AI as a Design Engineer о работе дизайн инженера с использованием ИИ, многое похоже на разработку ПО в целом, но есть свои особенности вроде интеграции с Figma MCP
- Can A.I. Generate New Ideas? может ли ИИ генерировать новые идеи? Статья в NYT, под пэйволом. Краткое изложение можно прочитать тут
- How UK museums are embracing citizens’ assemblies to help frame their futures интересное явление когда британские музеи начали создавать общественные советы которые должны помогать им определять их будущее
#uk #museums #ai #llms #design #ideas #readings
- Open Responses открытая спецификация на API для LLM на базе OpenAI Responses API. Вообще API OpenAI и так уже было стандартом де-факто, а тут уже и формализированный и описанный стандарт. Не вижу какой-то конкретной организации за его разработкой, похоже на частную инициативу
- Using AI as a Design Engineer о работе дизайн инженера с использованием ИИ, многое похоже на разработку ПО в целом, но есть свои особенности вроде интеграции с Figma MCP
- Can A.I. Generate New Ideas? может ли ИИ генерировать новые идеи? Статья в NYT, под пэйволом. Краткое изложение можно прочитать тут
- How UK museums are embracing citizens’ assemblies to help frame their futures интересное явление когда британские музеи начали создавать общественные советы которые должны помогать им определять их будущее
#uk #museums #ai #llms #design #ideas #readings
www.openresponses.org
Open Responses
Open Responses documentation overview.
✍5⚡2
Forwarded from Национальный цифровой архив
Где узнать больше о цифровых архивах, цифровой архивации, инструментах, курсах и так далее? Подборка каталогов ресурсов:
- Awesome Digital Preservation - список инструментов и ресурсов посвященных цифровой архивации, преимущественно ссылки на открытый код и открытые сервисы и наиболее известные платформы (от Ruarxive)
- Awesome Digital Preservation аналогичный список от Digipress сообщества по цифровой архивации, множество ссылок на существующие инструменты и сервисы
- Awesome Web Archiving - список инструментов и ресурсов по веб-архивации, созданы и поддерживается Международным консорциумом сохранения интернета (IIPC)
- ArchiveTeam Wiki большой вики проект от команды ArchiveTeam посвященный веб архивации и архивационным кампаниям для сохранения гибнущих онлайн ресурсов.
- База знания Ruarxive база знаний по цифровой и веб архивации на русском языке от проекта Ruarxive, инструкции по использованию инструментов и сервисов
#webarchives #digitalpreservation #readings
- Awesome Digital Preservation - список инструментов и ресурсов посвященных цифровой архивации, преимущественно ссылки на открытый код и открытые сервисы и наиболее известные платформы (от Ruarxive)
- Awesome Digital Preservation аналогичный список от Digipress сообщества по цифровой архивации, множество ссылок на существующие инструменты и сервисы
- Awesome Web Archiving - список инструментов и ресурсов по веб-архивации, созданы и поддерживается Международным консорциумом сохранения интернета (IIPC)
- ArchiveTeam Wiki большой вики проект от команды ArchiveTeam посвященный веб архивации и архивационным кампаниям для сохранения гибнущих онлайн ресурсов.
- База знания Ruarxive база знаний по цифровой и веб архивации на русском языке от проекта Ruarxive, инструкции по использованию инструментов и сервисов
#webarchives #digitalpreservation #readings
👍6
Data Engineering Design Patterns свежая бесплатная книга от ORelly профинансированная стартапом Buf по дата инженерии.
Полезная для тех кто уже понял что в дата инженерии есть шаблоны, но не знает как они правильно называются/рисуются/описываются/проектируются.
Для тех кому неохота регистрироваться, следующим постом закину в телеграм канал саму книжку в PDF.
А я смотрю на книгу и думаю не написать ли мне самому книжку по data discovery, но объективно понимаю что столько сейчас операционной работы что не до этого.
#dataengineering #readings #data
Полезная для тех кто уже понял что в дата инженерии есть шаблоны, но не знает как они правильно называются/рисуются/описываются/проектируются.
Для тех кому неохота регистрироваться, следующим постом закину в телеграм канал саму книжку в PDF.
А я смотрю на книгу и думаю не написать ли мне самому книжку по data discovery, но объективно понимаю что столько сейчас операционной работы что не до этого.
#dataengineering #readings #data
❤17🔥8👍5
Полезное чтение A lot of population numbers are fake о том что правительства некоторых стран просто не знают сколько людей там живет потому что не могут измерить и о том что спутниковые данные не спасают.
Автор описывает страны третьего мира, но есть причины полагать что и для других стран всё также неидеально с учетом проживающих там людей - где-то нелегальные мигранты, где-то не все тотально оцифрованы, где-то нецентрализованный учет умерших и родившихся, а где-то прямой централизованный подлог чисел потому что они могут показать скажем так антигуманную политику властей в отношении жителей.
Есть много причин почему цифры могут быть занижены или завышены и эта статья именно о таких случаях.
#readings #data
Автор описывает страны третьего мира, но есть причины полагать что и для других стран всё также неидеально с учетом проживающих там людей - где-то нелегальные мигранты, где-то не все тотально оцифрованы, где-то нецентрализованный учет умерших и родившихся, а где-то прямой централизованный подлог чисел потому что они могут показать скажем так антигуманную политику властей в отношении жителей.
Есть много причин почему цифры могут быть занижены или завышены и эта статья именно о таких случаях.
#readings #data
davidoks.blog
A lot of population numbers are fake
Do we have any idea how many people there are in the world?
🔥9👍2🤔1
Полезное чтение:
- Gas town критика от Benn Stancil подхода Gas town где ИИ агенты делают работы вместе с другими ИИ агентами и управляются другими ИИ агентами. Главный аргумент в том что подход Gas Town очень выгоден ИИ бигтеху чтобы подсадить пользователей на чрезмерно дорогие ИИ решения с непонятным результатом.
- Guidelines and best practices for making government datasets ready for AI документ от UK Government Digital Service о том как публиковать данные для обучения ИИ. Документ длинный и полезный, но вообще британцы все больше отстают в системной публикации госданных.
- The software complexity of nations научная работа переносящая логику экономической сложности (economic complexity) па программное обеспечение в странах. Не то чтобы я согласен с методологией авторов исследующих репозитории на Github в контексте стран, но работа любопытная
#readings #data #ai #economics
- Gas town критика от Benn Stancil подхода Gas town где ИИ агенты делают работы вместе с другими ИИ агентами и управляются другими ИИ агентами. Главный аргумент в том что подход Gas Town очень выгоден ИИ бигтеху чтобы подсадить пользователей на чрезмерно дорогие ИИ решения с непонятным результатом.
- Guidelines and best practices for making government datasets ready for AI документ от UK Government Digital Service о том как публиковать данные для обучения ИИ. Документ длинный и полезный, но вообще британцы все больше отстают в системной публикации госданных.
- The software complexity of nations научная работа переносящая логику экономической сложности (economic complexity) па программное обеспечение в странах. Не то чтобы я согласен с методологией авторов исследующих репозитории на Github в контексте стран, но работа любопытная
#readings #data #ai #economics
Substack
Gas town
The agents are everywhere.
🔥7
Ещё полезного чтения про данные, технологии и не только:
- пост в LinkedIn руководителя проекта Open Ownership о том что зарегистрированная в Ирландии компания MariaDB PLC (коммерческая рука популярного одноименного продукта MariaDB) проводит мероприятия по поддержке создания "европейского импортозамещения" под названием "Building the European cloud with MariaDB", но конечный её владелец - это калифорнийский инвестфонд K1 Investment Management. Таких историй будет ещё немало и ждем теперь волны расследований в Евросоюзе о том сколько из денег на формирование собственной независящей от США цифровой инфраструктуры пойдет компаниям из США напрямую и через европейских дочек
- PubTables-v2: A new large-scale dataset for full-page and multi-page table extraction любопытная научная работа команды которая экспериментирует с автоматизацией распознавания и структуризации таблиц из PDF документов и с упоминанием что они планируют выгрузить в открытый доступ обновленную версию набора данных который использовали для обучения. Задача с распознаванием таблиц и их извлечением - это одна из наиболее изученных в автоматизированном визуальном анализе документов, но далеко не является законченной, особенно для языков отличных от английского
- ZeroBrew специальный инструмент под замену brew, управления пакетами в MacOS. Приводит его к виду похожему на пакет uv для Python и ускоряет, улучшает и делает более удобным работу с пакетами в MacOS. Учитывая сколь часто приходится использовать brew - это важное изменение, а сам продукт является иллюстрацией переноса логика из более современной системы управления распространением ПО на более архаичную и ещё и с тем что сделать за короткий срок с помощью ИИ ассистента (код сделан в Claude 4.5).
- ChartGPU библиотека построения графиков с открытым кодом на Typescript с использованием GPU (WebGPU) и с поддержкой больших датасетов. Из особенностей. У неё один единственный разработчик использовавший ИИ ассистента Claude Code, библиотека стремительно набрала популярности (2400+ лайков) после поста в Hacker News, похоже что её разработка заняла всего пару недель (если не меньше).
- ZXC новый алгоритм и инструмент сжатия данных с более высокой скоростью декомпрессии чем LZ4 и другим алгоритмам. Может быть интересен именно в применении к дата-файлам и внутри форматов файлов вроде Parquet, там где скорость доступа к данным важнее уровня сжатия и скорости сжатия. Показывает сильно лучшие результаты на процессорах ARM и Apple Silicon
#opensource #ai #data #readings
- пост в LinkedIn руководителя проекта Open Ownership о том что зарегистрированная в Ирландии компания MariaDB PLC (коммерческая рука популярного одноименного продукта MariaDB) проводит мероприятия по поддержке создания "европейского импортозамещения" под названием "Building the European cloud with MariaDB", но конечный её владелец - это калифорнийский инвестфонд K1 Investment Management. Таких историй будет ещё немало и ждем теперь волны расследований в Евросоюзе о том сколько из денег на формирование собственной независящей от США цифровой инфраструктуры пойдет компаниям из США напрямую и через европейских дочек
- PubTables-v2: A new large-scale dataset for full-page and multi-page table extraction любопытная научная работа команды которая экспериментирует с автоматизацией распознавания и структуризации таблиц из PDF документов и с упоминанием что они планируют выгрузить в открытый доступ обновленную версию набора данных который использовали для обучения. Задача с распознаванием таблиц и их извлечением - это одна из наиболее изученных в автоматизированном визуальном анализе документов, но далеко не является законченной, особенно для языков отличных от английского
- ZeroBrew специальный инструмент под замену brew, управления пакетами в MacOS. Приводит его к виду похожему на пакет uv для Python и ускоряет, улучшает и делает более удобным работу с пакетами в MacOS. Учитывая сколь часто приходится использовать brew - это важное изменение, а сам продукт является иллюстрацией переноса логика из более современной системы управления распространением ПО на более архаичную и ещё и с тем что сделать за короткий срок с помощью ИИ ассистента (код сделан в Claude 4.5).
- ChartGPU библиотека построения графиков с открытым кодом на Typescript с использованием GPU (WebGPU) и с поддержкой больших датасетов. Из особенностей. У неё один единственный разработчик использовавший ИИ ассистента Claude Code, библиотека стремительно набрала популярности (2400+ лайков) после поста в Hacker News, похоже что её разработка заняла всего пару недель (если не меньше).
- ZXC новый алгоритм и инструмент сжатия данных с более высокой скоростью декомпрессии чем LZ4 и другим алгоритмам. Может быть интересен именно в применении к дата-файлам и внутри форматов файлов вроде Parquet, там где скорость доступа к данным важнее уровня сжатия и скорости сжатия. Показывает сильно лучшие результаты на процессорах ARM и Apple Silicon
#opensource #ai #data #readings
Linkedin
#mariadb #fosdem26 #fosdem #beneficialownership #opensource | Stephen Abbott Pugh
Tomorrow MariaDB (one of the most popular open source relational databases) is hosting a FOSDEM side event in Brussels with a talk entitled "Building the European cloud with MariaDB" being delivered by Nextcloud https://lnkd.in/eF5G2_Ke
#MariaDB has a commercial…
#MariaDB has a commercial…
👍11