Полезные ссылки про данные, технологии и не только
- MeteoSaver проект по оцифровке исторических записей о погоде. Ведется в Vrije Universiteit Brussel, охватывает многие наименее развитые страны и включает сканирование и распознавание больших объемов тетрадей с метеонаблюдениями
- Title Arbitrage as Status Engineering новый термин "статусная инженерия", про придумывание новых названий ролям участников команд при создании продуктов. Например, ее "Prompt Engineer", а "Researcher", не "Software Engineer", а "MTS (Member of Technical Stuff" и так далее. В целом ничего нового, просто новое прочтение старого.
- Magical systems thinking критический взгляд на системное мышление с ключевым аргументом что если система не статическая то она отражает удар. С хорошими примерами госрегулирования и госпроектов которые провалились.
- What a data center is что такое дата центр, относительно короткий текст поясняющий что такое Датацентры изнутри и как на них стоит смотреть. Тема всё более важная, задумайтесь над тем что мир приходит в то состояние когда если ядреная ракета упадет на органическое правительство, то никто и не заметит, а если на ключевой датацентр, то всем будет очень больно.
#readings #ai #data #it #digitalpreservation
- MeteoSaver проект по оцифровке исторических записей о погоде. Ведется в Vrije Universiteit Brussel, охватывает многие наименее развитые страны и включает сканирование и распознавание больших объемов тетрадей с метеонаблюдениями
- Title Arbitrage as Status Engineering новый термин "статусная инженерия", про придумывание новых названий ролям участников команд при создании продуктов. Например, ее "Prompt Engineer", а "Researcher", не "Software Engineer", а "MTS (Member of Technical Stuff" и так далее. В целом ничего нового, просто новое прочтение старого.
- Magical systems thinking критический взгляд на системное мышление с ключевым аргументом что если система не статическая то она отражает удар. С хорошими примерами госрегулирования и госпроектов которые провалились.
- What a data center is что такое дата центр, относительно короткий текст поясняющий что такое Датацентры изнутри и как на них стоит смотреть. Тема всё более важная, задумайтесь над тем что мир приходит в то состояние когда если ядреная ракета упадет на органическое правительство, то никто и не заметит, а если на ключевой датацентр, то всем будет очень больно.
#readings #ai #data #it #digitalpreservation
Vrije Universiteit Brussel
MeteoSaver: VUB tool rescues historic climate data worldwide
Transcription tool by VUB researcher Derrick Muheki earns special mention in TIME’s Best Inventions of 2025
✍5🔥5😁2❤1👌1
Полезные ссылки про данные, технологии и не только
- State of AI Report за 2025 год, взгляд на состояние ИИ с точки зрения, в первую очередь, инвестиций. Очень полезная презентация с ключевыми фактами и трендами по рынку ИИ. Просто для чтения, какой-то разбор и факты оттуда отдельно.
- The era of open data infrastructure команда dbt Labs с обещаниями сохранения открытости после поглощения их Fivetran'ом. Не то чтобы до конца верится. Обратите внимание что это [open] [data infrastructure]. а не [open data] [infrastructure]. Маркетологи совсем иначе трактуют слова про открытость называя открытостью open to market и открытые стандарты.
- Bruin движок для построения конвееров данных на Python, включая трансформации с помощью SQL. Как легковесная альтернатива dbt. Бизнес модель идентичная dbt - облачный сервис Bruin Cloud, но их пока не поглотил Fivetran
- Lea другая альтернатива dbt, минималистичный SQL оркестратор. Чистый открытый код, без облачной и иной бизнес модели, но и с документацией похуже и скоростью разработки
- GET SDI греческий вентор и его геоинформационный портал на котором построены почти все ГИС страны. Греция одна из немногих стран со своим основным гео-вендором для онлайн ГИС, а я то все гадал откуда сложности с поиском их геопорталов, а ответ был на поверхности. Внутри, конечно, набор компонентов с открытым кодом
#opendata #geodata #data #opensource #datatools #ai #readings
- State of AI Report за 2025 год, взгляд на состояние ИИ с точки зрения, в первую очередь, инвестиций. Очень полезная презентация с ключевыми фактами и трендами по рынку ИИ. Просто для чтения, какой-то разбор и факты оттуда отдельно.
- The era of open data infrastructure команда dbt Labs с обещаниями сохранения открытости после поглощения их Fivetran'ом. Не то чтобы до конца верится. Обратите внимание что это [open] [data infrastructure]. а не [open data] [infrastructure]. Маркетологи совсем иначе трактуют слова про открытость называя открытостью open to market и открытые стандарты.
- Bruin движок для построения конвееров данных на Python, включая трансформации с помощью SQL. Как легковесная альтернатива dbt. Бизнес модель идентичная dbt - облачный сервис Bruin Cloud, но их пока не поглотил Fivetran
- Lea другая альтернатива dbt, минималистичный SQL оркестратор. Чистый открытый код, без облачной и иной бизнес модели, но и с документацией похуже и скоростью разработки
- GET SDI греческий вентор и его геоинформационный портал на котором построены почти все ГИС страны. Греция одна из немногих стран со своим основным гео-вендором для онлайн ГИС, а я то все гадал откуда сложности с поиском их геопорталов, а ответ был на поверхности. Внутри, конечно, набор компонентов с открытым кодом
#opendata #geodata #data #opensource #datatools #ai #readings
✍3❤2
Открытое письмо более 30 тысяч подписантов с призывом к запрету любых исследований по созданию сверхразума (superintelligence).
Дословно звучит как:
Мы призываем к запрету на развитие сверхразума, который не должен быть снят до тех пор, пока не будет
1. широкий научный консенсус, что это будет сделано безопасно и контролируемо, и
2. сильная общественная поддержка.
Среди подписантов Стив Возняк (экс-основатель Apple), Ричард Бренсон, многочисленные основатели компаний, в том числе AI стартапов, а также многочисленные политики, исследователи, представители искусств и медиа и религиозные деятели. Включая принца Гарри и его жену Меган и еще много-много других знаменитостей.
Что-то мне подсказывает что пока с помощью ИИ не произойдет какой-то катастрофы или масштабных разрушений ничего такого не случится. Даже если этот ИИ будет не сверх, и даже не совсем разум, а просто очень продвинутый инструмент.
#readings #thoughts #ai
Дословно звучит как:
Мы призываем к запрету на развитие сверхразума, который не должен быть снят до тех пор, пока не будет
1. широкий научный консенсус, что это будет сделано безопасно и контролируемо, и
2. сильная общественная поддержка.
Среди подписантов Стив Возняк (экс-основатель Apple), Ричард Бренсон, многочисленные основатели компаний, в том числе AI стартапов, а также многочисленные политики, исследователи, представители искусств и медиа и религиозные деятели. Включая принца Гарри и его жену Меган и еще много-много других знаменитостей.
Что-то мне подсказывает что пока с помощью ИИ не произойдет какой-то катастрофы или масштабных разрушений ничего такого не случится. Даже если этот ИИ будет не сверх, и даже не совсем разум, а просто очень продвинутый инструмент.
#readings #thoughts #ai
🤣12😱3❤2👍2
Полезные ссылки про данные, технологии и не только:
- AI vs Gen Z: How AI has changed the career pathway for junior developers текст в блоге StackOverflow о том как тяжело теперь быть юным программистом (джуниором). Новых истин нет, лишь повторение того что ИИ меняет рынок разработки. Удивительно что в блоге StackOverflow, их тоже убивают ИИ агенты
- Announcing the Cloudflare Data Platform: ingest, store, and query your data directly on Cloudflare Cloudflare стремительно превращаются из инфраструктурной компании в дата компанию, теперь ещё и выкатили их дата платформу. Для продуктов не на российский рынок - это очень интересно, а в РФ его заблокируют рано или поздно.
- Python: The Documentary | An origin story история языка Python в документальном виде. Навевает ностальгию, при том что я сам с Python'ом начал работать только в 2001 году перейдя на него с Tcl/Tk+Expect+Shell. Многое поначалу казалось в нем странным, особенно отступы в коде, а потом это стал один из самых удобных языков разработки.
- RIP Tableau автор CTO компании Voi пишет про масштабный отказ от Tableau в их процессах. Я его понимаю и не понимаю тех кто продолжает полагаться на Tableau в работе. Интересно что заменили его на аналитическое решение на базе LLM
#links #readings #ai #data #datatools
- AI vs Gen Z: How AI has changed the career pathway for junior developers текст в блоге StackOverflow о том как тяжело теперь быть юным программистом (джуниором). Новых истин нет, лишь повторение того что ИИ меняет рынок разработки. Удивительно что в блоге StackOverflow, их тоже убивают ИИ агенты
- Announcing the Cloudflare Data Platform: ingest, store, and query your data directly on Cloudflare Cloudflare стремительно превращаются из инфраструктурной компании в дата компанию, теперь ещё и выкатили их дата платформу. Для продуктов не на российский рынок - это очень интересно, а в РФ его заблокируют рано или поздно.
- Python: The Documentary | An origin story история языка Python в документальном виде. Навевает ностальгию, при том что я сам с Python'ом начал работать только в 2001 году перейдя на него с Tcl/Tk+Expect+Shell. Многое поначалу казалось в нем странным, особенно отступы в коде, а потом это стал один из самых удобных языков разработки.
- RIP Tableau автор CTO компании Voi пишет про масштабный отказ от Tableau в их процессах. Я его понимаю и не понимаю тех кто продолжает полагаться на Tableau в работе. Интересно что заменили его на аналитическое решение на базе LLM
#links #readings #ai #data #datatools
stackoverflow.blog
AI vs Gen Z: How AI has changed the career pathway for junior developers - Stack Overflow
✍5⚡1
Свежий доклад от Microsoft - AI Diffusion Report: Where AI is most used, developed and built
Там текст на 24 страницы, читается быстро, вот ключевые факты и выводы.
- Глобальное среднее значение по AI User Share составляет примерно 15% трудоспособного населения.
- Лидеры по доле пользователей ИИ:
* ОАЭ ~59.4%
* Сингапур ~58.6%
* Другие страны-лидеры: Норвегия, Ирландия, Франция и др.
- Региональные различия:
* Северная Америка: ~27%
* Европа и Центральная Азия: ~22%
* Южная Азия и Субсахарская Африка: менее ~13%
- Сильная корреляция между уровнем внедрения ИИ и ВВП на душу населения: коэффициент Спирмена ~0.83, p-значение < 0.000001.
- При анализе населения, имеющего доступ к интернету («connected population»), выяснилось: даже в странах с низким общим проникновением интернета пользователи, подключенные к сети, часто уже активно пользуются ИИ. Например:
* В Замбии: общая доля ~12%, но среди подключенных ~34%.
* В Пакистане: с ~10% до ~33%.
- Запуск продукта DeepSeek (январь 2025) привёл к резкому росту доли пользователей ИИ в Китае: с ~8% до ~20%.
- Основные барьеры для широкого распространения ИИ:
* Доступ к электроэнергии
* Подключение к интернету
* Цифровые навыки
* Языковые ресурсы и локализация
- более 1 миллиарда человек уже использовали ИИ-инструменты за менее чем три года» — что делает ИИ самой быстро внедряемой технологией в истории.
А также немного дополнительных фактов не столь явно упомянутых в тексте:
- Россия в докладе никак не упоминается, только присутствует на некоторых графиках
- Из постсоветских стран наименее низкое проникновение ИИ в Таджикистане, Туркменистане, Узбекистане и, как ни странно, в Армении.
- Почти всё строительство AI инфраструктуры сосредоточено в США и Китае
- Лидеры по разработки AI моделей: США, Китай, Южная Корея, Франция, Великобритания, Канада и Израиль
#ai #readings #microsoft
Там текст на 24 страницы, читается быстро, вот ключевые факты и выводы.
- Глобальное среднее значение по AI User Share составляет примерно 15% трудоспособного населения.
- Лидеры по доле пользователей ИИ:
* ОАЭ ~59.4%
* Сингапур ~58.6%
* Другие страны-лидеры: Норвегия, Ирландия, Франция и др.
- Региональные различия:
* Северная Америка: ~27%
* Европа и Центральная Азия: ~22%
* Южная Азия и Субсахарская Африка: менее ~13%
- Сильная корреляция между уровнем внедрения ИИ и ВВП на душу населения: коэффициент Спирмена ~0.83, p-значение < 0.000001.
- При анализе населения, имеющего доступ к интернету («connected population»), выяснилось: даже в странах с низким общим проникновением интернета пользователи, подключенные к сети, часто уже активно пользуются ИИ. Например:
* В Замбии: общая доля ~12%, но среди подключенных ~34%.
* В Пакистане: с ~10% до ~33%.
- Запуск продукта DeepSeek (январь 2025) привёл к резкому росту доли пользователей ИИ в Китае: с ~8% до ~20%.
- Основные барьеры для широкого распространения ИИ:
* Доступ к электроэнергии
* Подключение к интернету
* Цифровые навыки
* Языковые ресурсы и локализация
- более 1 миллиарда человек уже использовали ИИ-инструменты за менее чем три года» — что делает ИИ самой быстро внедряемой технологией в истории.
А также немного дополнительных фактов не столь явно упомянутых в тексте:
- Россия в докладе никак не упоминается, только присутствует на некоторых графиках
- Из постсоветских стран наименее низкое проникновение ИИ в Таджикистане, Туркменистане, Узбекистане и, как ни странно, в Армении.
- Почти всё строительство AI инфраструктуры сосредоточено в США и Китае
- Лидеры по разработки AI моделей: США, Китай, Южная Корея, Франция, Великобритания, Канада и Израиль
#ai #readings #microsoft
1👍6❤2😐1
Полезные ссылки про данные, технологии и не только:
- New updates and more access to Google Earth AI команда Google Earth AI рассказывает о Geospatial Reasoning подходе при котором не просто определяют место удара шторма, но и предсказывают каким сообществам достанется более других
- Building Capacityfor Data Access,Analysis + Accountability доклад Columbia World Projects о развитии открытого доступа. Полезный для понимания того какие инвестиции сейчас направляются в сторону открытости инфраструктуры доступа к данным для исследователей
- Deta Surf цифровая записная книжка с AI внутри для помощи студентам в учёбе, с открытым кодом и ориентированной на самостоятельное изучение материалов с помощью AI
- oxdraw инструмент с открытым кодом для создания диаграмм, из полезных фич в том что он построен на отображении диаграммы по декларативному описанию, но позволяет автоматически создавать это декларативное описание через интерактивный инструмент. Мне очень нравится подход даже если сам инструмент ещё только-только появился
- How We Saved $500,000 Per Year by Rolling Our Own “S3” инженеры из Nanit пишут о том как сделали упрощенный аналог AWS S3 и сэкономили уйму денег. Как я их понимаю, вокруг S3 уже целая индустрия выстроилась помогателей экономить на их инфраструктуре, но заменить их на что-то свое может быть более оптимальным решением
#ai #tools #opensource #readings
- New updates and more access to Google Earth AI команда Google Earth AI рассказывает о Geospatial Reasoning подходе при котором не просто определяют место удара шторма, но и предсказывают каким сообществам достанется более других
- Building Capacityfor Data Access,Analysis + Accountability доклад Columbia World Projects о развитии открытого доступа. Полезный для понимания того какие инвестиции сейчас направляются в сторону открытости инфраструктуры доступа к данным для исследователей
- Deta Surf цифровая записная книжка с AI внутри для помощи студентам в учёбе, с открытым кодом и ориентированной на самостоятельное изучение материалов с помощью AI
- oxdraw инструмент с открытым кодом для создания диаграмм, из полезных фич в том что он построен на отображении диаграммы по декларативному описанию, но позволяет автоматически создавать это декларативное описание через интерактивный инструмент. Мне очень нравится подход даже если сам инструмент ещё только-только появился
- How We Saved $500,000 Per Year by Rolling Our Own “S3” инженеры из Nanit пишут о том как сделали упрощенный аналог AWS S3 и сэкономили уйму денег. Как я их понимаю, вокруг S3 уже целая индустрия выстроилась помогателей экономить на их инфраструктуре, но заменить их на что-то свое может быть более оптимальным решением
#ai #tools #opensource #readings
❤5
Свежий документ Framework on Responsible AI for Official Statistics про применение ИИ в официальной статистике от ЕЭК ООН (Европейская экономическая комиссия ООН). Практической пользы с него мало потому что он написан таким языком что если всё там написанное взять и заменить с "официальной статистики" на, например, "энергетику" или "транспорт" то мало что поменяется. Содержание документа сильно оторвано от предметной области и почти все отсылки там на базовые этические принципы внедрения AI и ML. С этой точки зрения документ не так бесполезен.
В остальном же его применение в том чтобы на него ссылаться отвечая на вопросы вроде "какие этические стандарты Вы соблюдаете в Ваших ИИ проектах в официальной статистике".
Заодно к нему же недавно опубликованные документы в Германском журнале WISTA (Wirtschaft und Statistik) по применении этических принципов ИИ на практике:
- Ethical issues concerning the use of AI/ML in the production of official statistics – part 1: identification
- Ethical issues concerning the use of AI/ML in the production of official statistics – part 2: evaluation
Они выглядят как более полезные с практической точки зрения.
#statistics #ai #readings
В остальном же его применение в том чтобы на него ссылаться отвечая на вопросы вроде "какие этические стандарты Вы соблюдаете в Ваших ИИ проектах в официальной статистике".
Заодно к нему же недавно опубликованные документы в Германском журнале WISTA (Wirtschaft und Statistik) по применении этических принципов ИИ на практике:
- Ethical issues concerning the use of AI/ML in the production of official statistics – part 1: identification
- Ethical issues concerning the use of AI/ML in the production of official statistics – part 2: evaluation
Они выглядят как более полезные с практической точки зрения.
#statistics #ai #readings
✍4❤3
Свежий документ Organizing Public Support for Open Digital Infrastructure про германское Sovereign Tech Agency (STA) и финансирование открытого кода идентифицированного как наиболее критичного для глобальной инфраструктуры. Полезный текст про "бигтехозамещение здорового человека" и теперь это важный европейский мэйнстрим по снижению цифровой зависимости от США и Китая и создание открытой цифровой инфраструктуры (open digital infrastructure).
Я, наверное, с пару десятилетий уже наблюдаю как Евросоюз занимался поддержкой открытого кода и чаще всего это выражалось в европейских научных проектах в рамках Horizon в рамках которых участники наплодили множество открытого кода из которого полезного было около 1-10%. Картинка долгое время была удручающей. А дело было в том что когда ты объявляешь конкурсы в стиле "вот есть темы по которым мы даем деньги на открытый код если вы соблюдете вот эту и эту бюрократию" то приходят грантоеды всегда и кто-то адекватный только иногда.
В этом отличие STA, в STA вначале находят те открытые проекты которые не то что бы хорошо зарабатывает и от которых реально зависит если не весь мир, то существенная его часть. А потом пытаются им всучить деньги чтобы они могли продолжать существовать не падая в неприятные зависимости, в европейском понимании - это бигтехи. И поддерживают они через программы fellowship для майнтайнеров, фонд для выдачи грантов и программы bug bounty.
Собственно в документе это хорошо рассказано в контексте создания открытой инфраструктуры. Для понимания перспективного того как эти инициативы вырастают в общеевропейские это весьма полезно.
С одной стороны это всё полезные инициативы, а с другой мэйнтенеры кода могут быть и жить и не в странах ЕС, бигтехи хотя и большие, но гораздо адаптивнее, а европейская бюрократия и юрисдикция скорее хужеет. В любом случае за инициативой полезно наблюдать, может что-то полезное там и возникнет.
#opensource #europe #readings
Я, наверное, с пару десятилетий уже наблюдаю как Евросоюз занимался поддержкой открытого кода и чаще всего это выражалось в европейских научных проектах в рамках Horizon в рамках которых участники наплодили множество открытого кода из которого полезного было около 1-10%. Картинка долгое время была удручающей. А дело было в том что когда ты объявляешь конкурсы в стиле "вот есть темы по которым мы даем деньги на открытый код если вы соблюдете вот эту и эту бюрократию" то приходят грантоеды всегда и кто-то адекватный только иногда.
В этом отличие STA, в STA вначале находят те открытые проекты которые не то что бы хорошо зарабатывает и от которых реально зависит если не весь мир, то существенная его часть. А потом пытаются им всучить деньги чтобы они могли продолжать существовать не падая в неприятные зависимости, в европейском понимании - это бигтехи. И поддерживают они через программы fellowship для майнтайнеров, фонд для выдачи грантов и программы bug bounty.
Собственно в документе это хорошо рассказано в контексте создания открытой инфраструктуры. Для понимания перспективного того как эти инициативы вырастают в общеевропейские это весьма полезно.
С одной стороны это всё полезные инициативы, а с другой мэйнтенеры кода могут быть и жить и не в странах ЕС, бигтехи хотя и большие, но гораздо адаптивнее, а европейская бюрократия и юрисдикция скорее хужеет. В любом случае за инициативой полезно наблюдать, может что-то полезное там и возникнет.
#opensource #europe #readings
👍4❤3🔥3
Свежие результаты Stack Overflow Developer Survey 2025, более 49 тысяч участников из 166 стран. Там много самых разных тем и отдельным блоком идёт все что касается ИИ и любопытного там немало.
Вот некоторые факты:
- Около 80 %+ разработчиков используют или планируют использовать ИИ-инструменты в своей работе.
- Однако лишь ~33 % доверяют корректности выводов этих инструментов, а ~46 % их активно не доверяют.
- Основная жалоба: «почти правильно, но не совсем» — 66 % разработчиков указали, что именно это фрустрирует.
- Например, использование Docker выросло на ~17 процентов с 2024 по 2025 — крупнейший скачок среди технологий опроса.
- Язык Python показал рост популярности: +7 процентов.
- 69 % респондентов потратили время за последний год на изучение нового языка программирования или новой техники.
- Из них 68 % используют документацию как основной ресурс обучения.
- Самые популярные ИИ ассистенты: ChatGPT (81,7 %), GitHub Copilot (67,9 %).
И ещё полезное из этого опроса в том что наличие интеграции с ИИ вообще не помогает в продаже инструментов именно разработчикам, зато очень помогает адекватная цена, хорошая документация, удобное SDK и минимум опасений в приватности и безопасности
решения.
Ещё наблюдение что разработчики чаще теперь общаются про технологии на Reddit или LinkedIn, но не в X/Twitter или Facebook. От себя замечу что и Facebook, и X превратились в такие помойки из смеси рекламы и политизированного контента что читать их просто неприятно. LinkedIn при все его кондовости даёт больше связи с сообществами.
#surveys #readings #stackoverflow
Вот некоторые факты:
- Около 80 %+ разработчиков используют или планируют использовать ИИ-инструменты в своей работе.
- Однако лишь ~33 % доверяют корректности выводов этих инструментов, а ~46 % их активно не доверяют.
- Основная жалоба: «почти правильно, но не совсем» — 66 % разработчиков указали, что именно это фрустрирует.
- Например, использование Docker выросло на ~17 процентов с 2024 по 2025 — крупнейший скачок среди технологий опроса.
- Язык Python показал рост популярности: +7 процентов.
- 69 % респондентов потратили время за последний год на изучение нового языка программирования или новой техники.
- Из них 68 % используют документацию как основной ресурс обучения.
- Самые популярные ИИ ассистенты: ChatGPT (81,7 %), GitHub Copilot (67,9 %).
И ещё полезное из этого опроса в том что наличие интеграции с ИИ вообще не помогает в продаже инструментов именно разработчикам, зато очень помогает адекватная цена, хорошая документация, удобное SDK и минимум опасений в приватности и безопасности
решения.
Ещё наблюдение что разработчики чаще теперь общаются про технологии на Reddit или LinkedIn, но не в X/Twitter или Facebook. От себя замечу что и Facebook, и X превратились в такие помойки из смеси рекламы и политизированного контента что читать их просто неприятно. LinkedIn при все его кондовости даёт больше связи с сообществами.
#surveys #readings #stackoverflow
👍5
Про форматы файлов, много о них я писал и в контексте ИИ, и в контексте работы дата инженеров и в контексте цифровой архивации. Мало кто системно разные форматы изучает и чаще те кто это делают занимаются цифровой архивацией в очень широком контексте, но в первую очередь думая о сохранении доступности данных и иных материалов созданных в ПО которое уже малодоступно или которым уже невозможно пользоваться.
С чего начать тем кто ищет информацию о структурах файлах и того как работать с разными форматами работать?
1. PRONOM
Это специальный реестр форматов файлов от Национальных Архивов Великобритании и он включает подробное описание сотен форматов файлов включая форматы разных старых приложений или относительно новые форматы для данных такие как JSONl. В реестре PRONOM присутствуют и цифровые отпечатки файлов, помогающие их идентифицировать. Эти отпечатки используются в утилите DROID для идентификации типов файлов по большому их реестру. Утилита сама не обновлялась давно, но цифровые отпечатки из PRONOM обновляются довольно часто, чуть ли не ежемесячно
2. Archive Team Wiki (File formats)
У команды ArchiveTeam есть большой вики проект fileformats.archiveteam.org с большим числом практических статей по разным форматам файлов и о том как с ними работать и как их архивировать. Полезный сайт для всех кто погружается в работу с какими либо относительно популярными файловыми форматами. Вики ArchiveTeam полезно именно своей практичностью и включает материалы из множества источников.
3. MultimediaWiki
Другой Вики проект доступный по адресу wiki.multimedia.cx и включающий описание многих мультимедийных форматов включая те что используются в игровой индустрии и многое про то как заниматься реверс инжинирингом кода для извлечения интересных материалов из тех же игр.
4. IANA Mimetypes
Это реестр mime типов на сайте IANA, покрывает те форматы файлов для которых mime типы зарегистрированы, их много, но не исчерпывающе. Важнее подробное описание каждого типа и ссылки на сами спецификации и области применения.
—
#readings #fileformats
С чего начать тем кто ищет информацию о структурах файлах и того как работать с разными форматами работать?
1. PRONOM
Это специальный реестр форматов файлов от Национальных Архивов Великобритании и он включает подробное описание сотен форматов файлов включая форматы разных старых приложений или относительно новые форматы для данных такие как JSONl. В реестре PRONOM присутствуют и цифровые отпечатки файлов, помогающие их идентифицировать. Эти отпечатки используются в утилите DROID для идентификации типов файлов по большому их реестру. Утилита сама не обновлялась давно, но цифровые отпечатки из PRONOM обновляются довольно часто, чуть ли не ежемесячно
2. Archive Team Wiki (File formats)
У команды ArchiveTeam есть большой вики проект fileformats.archiveteam.org с большим числом практических статей по разным форматам файлов и о том как с ними работать и как их архивировать. Полезный сайт для всех кто погружается в работу с какими либо относительно популярными файловыми форматами. Вики ArchiveTeam полезно именно своей практичностью и включает материалы из множества источников.
3. MultimediaWiki
Другой Вики проект доступный по адресу wiki.multimedia.cx и включающий описание многих мультимедийных форматов включая те что используются в игровой индустрии и многое про то как заниматься реверс инжинирингом кода для извлечения интересных материалов из тех же игр.
4. IANA Mimetypes
Это реестр mime типов на сайте IANA, покрывает те форматы файлов для которых mime типы зарегистрированы, их много, но не исчерпывающе. Важнее подробное описание каждого типа и ссылки на сами спецификации и области применения.
—
#readings #fileformats
www.nationalarchives.gov.uk
PRONOM | Welcome
PRONOM is an online technical registry providing impartial and definitive information about file formats, software products and other technical components required to support long-term access of electronic records.
✍4👍4🔥3❤2
Подборка полезных ссылок про данные, технологии и не только. В этот раз ссылки на видео:
- Meta Just Changed Data Compression FOREVER (OpenZL Explained) про новый инструмент для сжатия файлов OpenZL. Его важная особенность - это понимание форматов сжимаемых файлов и выбор правильного способа сжатия.
- Trustworthy Data Visualization (Kieran Healy, Duke University) видео с конфренции Posit 2025 о том как создавать визуализации данным которым можно доверять, полезное для всех кто визуализирует данные или читает визуализируемое. Автор написал немало про визуализацию, три книги и много статей ну и выступает весьма неплохо
- Mooncake: Real-Time Apache Iceberg Without Compromise (Cheng Chen) про построение озера данных с Apache Iceberg и Mooncake для реального времени. Заодно и с историей OLTP и OLAP и переход к озерам данных
- Introduction to OpenRefine использование OpenRefine, инструмента для очистки и обогащения данных. Примеры.и применение из работы с цифровыми архивами и библиотеками и не все знают что библиотекари - это основная аудитория пользователей OpenRefine.
- PostgresAI я так понимаю что это пока малоизвестный стартап который обещает применение ИИ для оптимизации баз Postgres. Концептуальная идея на поверхности, я, если честно, думал что появится что-то более универсальное по мониторингу и оптимизации с поддержкой разных СУБД. Честно говоря видео оформлено дурацки.и документация на их сайте практичнее
#readings #ai #datatools #datatools
- Meta Just Changed Data Compression FOREVER (OpenZL Explained) про новый инструмент для сжатия файлов OpenZL. Его важная особенность - это понимание форматов сжимаемых файлов и выбор правильного способа сжатия.
- Trustworthy Data Visualization (Kieran Healy, Duke University) видео с конфренции Posit 2025 о том как создавать визуализации данным которым можно доверять, полезное для всех кто визуализирует данные или читает визуализируемое. Автор написал немало про визуализацию, три книги и много статей ну и выступает весьма неплохо
- Mooncake: Real-Time Apache Iceberg Without Compromise (Cheng Chen) про построение озера данных с Apache Iceberg и Mooncake для реального времени. Заодно и с историей OLTP и OLAP и переход к озерам данных
- Introduction to OpenRefine использование OpenRefine, инструмента для очистки и обогащения данных. Примеры.и применение из работы с цифровыми архивами и библиотеками и не все знают что библиотекари - это основная аудитория пользователей OpenRefine.
- PostgresAI я так понимаю что это пока малоизвестный стартап который обещает применение ИИ для оптимизации баз Postgres. Концептуальная идея на поверхности, я, если честно, думал что появится что-то более универсальное по мониторингу и оптимизации с поддержкой разных СУБД. Честно говоря видео оформлено дурацки.и документация на их сайте практичнее
#readings #ai #datatools #datatools
🔥3👍2
State of AI большое свежее эмпирическое исследование от OpenRouter и a16z (Andreessen Horowitz) по тому как использовались 100 триллионов токенов.
Много разных интересных инсайтов, о том что модели ИИ в основном используют для программирования (это скорее особенность OpenRouter, но все равно важное наблюдение) и о взлете китайских открытых моделей, в первую очередь DeepSeek и о дальнейшем падении его доли по мере появления новых моделей.
В целом обзор отражает высокую динамику и быстрые изменения.
Что характерно, русский язык там есть, но у пользователей, он 3-й после английского и китайского по популярности, но это всего лишь ~2.5%, а вот российские ИИ модели даже не рассматриваются от игроков из США, Китая и Европы, что тоже логично потому что к OpenRouter'у, насколько я знаю, они не подключены.
#ai #readings
Много разных интересных инсайтов, о том что модели ИИ в основном используют для программирования (это скорее особенность OpenRouter, но все равно важное наблюдение) и о взлете китайских открытых моделей, в первую очередь DeepSeek и о дальнейшем падении его доли по мере появления новых моделей.
В целом обзор отражает высокую динамику и быстрые изменения.
Что характерно, русский язык там есть, но у пользователей, он 3-й после английского и китайского по популярности, но это всего лишь ~2.5%, а вот российские ИИ модели даже не рассматриваются от игроков из США, Китая и Европы, что тоже логично потому что к OpenRouter'у, насколько я знаю, они не подключены.
#ai #readings
🔥9❤3👍3❤🔥2
Полезное чтение про данные, технологии и не только:
- Compute Is the New Oil статья в FA о том что чипы для ИИ стали основной для дипломатии США и стран Персидского залива и о том что вычислительные мощности - это новая нефть. Ну вы меня поняли, теперь если кто-то ляпнет что "данные - это новая нефть", то можно записывать его в древние ретрограды, потому что теперь чипы-чипы-чипы. По крайней мере на уровне глобальной дипломатии
- The Nation’s Data at Risk: 2025 Report доклад американской ассоциации статистиков о кризисе статистики в США, много критики, много рекомендаций в центре которого восполнение дефицита сотрудников, но еще много всего. Хочется тут конечно понять что если в США в статистике кризис, то что в России, апокалипсис? Армагеддон? Все познается в сравнении
- Personal Data Architectures in the BRICS Countries книга о персональных данных в странах БРИКС в Oxford Press, ещё не читал, но любопытно по некоторым странам. Есть правда подозрение что авторы могут недостаточно понимать внутреннюю кухню и смотрят на это глазами кабинетных исследователей
#readings #privacy #statistics #data
- Compute Is the New Oil статья в FA о том что чипы для ИИ стали основной для дипломатии США и стран Персидского залива и о том что вычислительные мощности - это новая нефть. Ну вы меня поняли, теперь если кто-то ляпнет что "данные - это новая нефть", то можно записывать его в древние ретрограды, потому что теперь чипы-чипы-чипы. По крайней мере на уровне глобальной дипломатии
- The Nation’s Data at Risk: 2025 Report доклад американской ассоциации статистиков о кризисе статистики в США, много критики, много рекомендаций в центре которого восполнение дефицита сотрудников, но еще много всего. Хочется тут конечно понять что если в США в статистике кризис, то что в России, апокалипсис? Армагеддон? Все познается в сравнении
- Personal Data Architectures in the BRICS Countries книга о персональных данных в странах БРИКС в Oxford Press, ещё не читал, но любопытно по некоторым странам. Есть правда подозрение что авторы могут недостаточно понимать внутреннюю кухню и смотрят на это глазами кабинетных исследователей
#readings #privacy #statistics #data
Foreign Affairs
Compute Is the New Oil
America and the Gulf must work together on artificial intelligence.
❤4✍1