Forwarded from Алексей Кудрин
Наряду с быстрым развитием ИИ возникают вопросы о его безопасности. Чтобы уменьшить возможные риски, ведущие российские компании, работающие с ИИ, следуют Кодексу этики — принципам для всех, кто связан с созданием, развитием и применением ИИ в России.
Теперь же Яндекс первым в России получил международный сертификат ISO/IEC 42001. Это означает, что компания соблюдает высокие стандарты безопасности и этики при разработке YandexGPT.
Для пользователей это дополнительная гарантия надежности. Для рынка — сигнал, что российские технологии соответствуют мировым требованиям.
Важный шаг в развитии генеративных нейросетей в стране и хороший пример для всей отрасли. Такое ответственное саморегулирование — ключевое качество для компаний, стремящихся стать лидерами в ИИ.
Теперь же Яндекс первым в России получил международный сертификат ISO/IEC 42001. Это означает, что компания соблюдает высокие стандарты безопасности и этики при разработке YandexGPT.
Для пользователей это дополнительная гарантия надежности. Для рынка — сигнал, что российские технологии соответствуют мировым требованиям.
Важный шаг в развитии генеративных нейросетей в стране и хороший пример для всей отрасли. Такое ответственное саморегулирование — ключевое качество для компаний, стремящихся стать лидерами в ИИ.
Известия
Нестандартное приложение: ИИ из РФ впервые получил сертификат качества ISO
Что это значит для IT-бизнеса и российских пользователей
🤣5🌚2❤1👍1
Стандарты работы с данными о которых вы могли ничего ранее не слышать:
- Oxford Common File Layout (OCFL) [1] спецификация описывающая способ хранения цифровых объектов независимо от использующего приложения с прицелом на долгосрочное хранение и использование. Используется, преимущественно, в академических проектах хранения цифровых объектов [2]
- Research Object Crate (RO-Crate) [3] "легковесная" спецификация для упаковки исследовательских данных вместе с метаданными. Отличается большим числом разных профилем под разные научные дисциплины [4]. Стандарт уже довольно зрелый, активно применяется во многих исследовательских проектах.
- The Open Data Product Standard (ODPS) [5] открытый стандарт описания дата продуктов из проекта Bitlol при Linux Foundation. Судя по спецификации всё ещё сыровато [6] и сама подача стандартов мне не очень нравится, я лично больше предпочитаю читать их в W3C стиле, но тем не менее, спецификаций на дата продукты как дата продукты мало. Текущая версия 0.9, явно ещё будет меняться
- The BagIt File Packaging Format (BagIt) [7] стандарт хранения цифровых объектов, в том числе данных, от библиотеки Конгресса США. В 2018 году его приняли как RFC 8493, но и до этого он давно существовал. Стандарт OCFL создавался как доработка BagIt поскольку в BagIt не было предусмотрено версионирование.
- FAIR4ML Metadata Schema [8] спецификация метаданных для описания моделей для машинного обучения, включая расширение для Schema.org. В основе спецификация для публикации кода Codemeta [9] тоже в виде расширения для Schema.org
Ссылки:
[1] https://ocfl.io
[2] https://github.com/OCFL/spec/wiki/Implementation
[3] https://www.researchobject.org/ro-crate/
[4] https://www.researchobject.org/ro-crate/profiles
[5] https://bitol.io/announcing-odps-major-step-toward-standardizing-data-products/
[6] https://github.com/bitol-io/open-data-product-standard/tree/main/docs
[7] https://datatracker.ietf.org/doc/html/rfc8493
[8] https://rda-fair4ml.github.io/FAIR4ML-schema/release/0.1.0/index.html
[9] https://codemeta.github.io/
#openstandards #opensource #readings
- Oxford Common File Layout (OCFL) [1] спецификация описывающая способ хранения цифровых объектов независимо от использующего приложения с прицелом на долгосрочное хранение и использование. Используется, преимущественно, в академических проектах хранения цифровых объектов [2]
- Research Object Crate (RO-Crate) [3] "легковесная" спецификация для упаковки исследовательских данных вместе с метаданными. Отличается большим числом разных профилем под разные научные дисциплины [4]. Стандарт уже довольно зрелый, активно применяется во многих исследовательских проектах.
- The Open Data Product Standard (ODPS) [5] открытый стандарт описания дата продуктов из проекта Bitlol при Linux Foundation. Судя по спецификации всё ещё сыровато [6] и сама подача стандартов мне не очень нравится, я лично больше предпочитаю читать их в W3C стиле, но тем не менее, спецификаций на дата продукты как дата продукты мало. Текущая версия 0.9, явно ещё будет меняться
- The BagIt File Packaging Format (BagIt) [7] стандарт хранения цифровых объектов, в том числе данных, от библиотеки Конгресса США. В 2018 году его приняли как RFC 8493, но и до этого он давно существовал. Стандарт OCFL создавался как доработка BagIt поскольку в BagIt не было предусмотрено версионирование.
- FAIR4ML Metadata Schema [8] спецификация метаданных для описания моделей для машинного обучения, включая расширение для Schema.org. В основе спецификация для публикации кода Codemeta [9] тоже в виде расширения для Schema.org
Ссылки:
[1] https://ocfl.io
[2] https://github.com/OCFL/spec/wiki/Implementation
[3] https://www.researchobject.org/ro-crate/
[4] https://www.researchobject.org/ro-crate/profiles
[5] https://bitol.io/announcing-odps-major-step-toward-standardizing-data-products/
[6] https://github.com/bitol-io/open-data-product-standard/tree/main/docs
[7] https://datatracker.ietf.org/doc/html/rfc8493
[8] https://rda-fair4ml.github.io/FAIR4ML-schema/release/0.1.0/index.html
[9] https://codemeta.github.io/
#openstandards #opensource #readings
✍8👍2🔥2
Forwarded from Национальный цифровой архив
Похоже организаторы конференции Dialog по компьютерной лингвистике продолбали потеряли сайт с материалами конференций с 2008 по 2022 годы - www.dialog-21.ru, вместо сайта теперь заглушка, на новом сайте dialogue-conf.org есть материалы только за 2025 год.
Что там случилось неизвестно, но может быть кто-то в контакте с их организаторами и есть возможность материалы восстановить?
#webarchives
Что там случилось неизвестно, но может быть кто-то в контакте с их организаторами и есть возможность материалы восстановить?
#webarchives
✍4
Я буду изредка разбавлять рассуждения про технологии разным публицистическим оффтопиком и вот недавно я писал про всяческие предсказания будущего регулирования, но таких идей чтобы прям взял и положил в основание рассказа пока не увидел. Так что поделюсь одной идеей далёкого регулирования которая не даёт мне покоя, но пока я её недостаточно хорошо продумал чтобы описать, но достаточно чтобы обсудить.
Это налоговая лотерея! Как это выглядит.
Представим себе что вместо уплаты штрафов за парковку, несвоевременное предоставление отчетности, штрафов за превышение скорости и тд. налоговая служба устраивала бы лотерею где ты мог за платить меньшую сумму, например, 10 тысяч рублей вместо 50 тысяч рублей, но имел бы вероятность заплатить 100 тысяч рублей или даже 200 тысяч рублей при некоторой вероятности.
Представим себе что налоговая служба собирает около 5 миллиардов рублей в год которые выплачивают 100 тысяч человек по примерно 50 тысяч рублей каждый. Как правильно составить вероятности и пропорции платежей чтобы налоговая служба могла бы собирать до 10 миллиардов рублей в год используя такой механизм лотереи?
У идеи сразу несколько плюсов:
1. Государство собирает больше денег
2. Высокая, больше 50% вероятность заплатить штраф куда меньший
3. Высокая мотивация избегать повторных штрафов если пришлось платить больший штраф
4. Возможность автоматического выявления граждан с "паранормальной удачей".
5. Удовлетворение потребности определённых категорий граждан в азартных играх.
Применение к России очень условно, можно реализовать в любой стране. Понятно что не в ближайшем будущем, но к 2050 году как раз
#humour #ideas #writings
Это налоговая лотерея! Как это выглядит.
Представим себе что вместо уплаты штрафов за парковку, несвоевременное предоставление отчетности, штрафов за превышение скорости и тд. налоговая служба устраивала бы лотерею где ты мог за платить меньшую сумму, например, 10 тысяч рублей вместо 50 тысяч рублей, но имел бы вероятность заплатить 100 тысяч рублей или даже 200 тысяч рублей при некоторой вероятности.
Представим себе что налоговая служба собирает около 5 миллиардов рублей в год которые выплачивают 100 тысяч человек по примерно 50 тысяч рублей каждый. Как правильно составить вероятности и пропорции платежей чтобы налоговая служба могла бы собирать до 10 миллиардов рублей в год используя такой механизм лотереи?
У идеи сразу несколько плюсов:
1. Государство собирает больше денег
2. Высокая, больше 50% вероятность заплатить штраф куда меньший
3. Высокая мотивация избегать повторных штрафов если пришлось платить больший штраф
4. Возможность автоматического выявления граждан с "паранормальной удачей".
5. Удовлетворение потребности определённых категорий граждан в азартных играх.
Применение к России очень условно, можно реализовать в любой стране. Понятно что не в ближайшем будущем, но к 2050 году как раз
#humour #ideas #writings
😁11✍3👍3🌚1💊1
В рубрике как это устроено у них
Virtual Language Observatory [1] агрегатор и поисковая система по ресурсам компьютерной лингвистики в Европейском союзе.
Включает более 530 тысяч ресурсов из которых как наборы данных отмечены более 100 тысяч. Охватывает более 5 тысяч языков и диалектов.
В свою очередь и поиск в VLO имеют лингвистическую специфику с возможностью фильтрации по доступности, коллекциям, модальности и тд. Для этого репозитории входящие в европейский проект CLARIN предоставляют метаданные по согласованным спецификациям на основе которых и формируются карточки каждого ресурса.
Ссылки:
[1] https://vlo.clarin.eu
#opendata #datacatalogs #datasets #lingustics
Virtual Language Observatory [1] агрегатор и поисковая система по ресурсам компьютерной лингвистики в Европейском союзе.
Включает более 530 тысяч ресурсов из которых как наборы данных отмечены более 100 тысяч. Охватывает более 5 тысяч языков и диалектов.
В свою очередь и поиск в VLO имеют лингвистическую специфику с возможностью фильтрации по доступности, коллекциям, модальности и тд. Для этого репозитории входящие в европейский проект CLARIN предоставляют метаданные по согласованным спецификациям на основе которых и формируются карточки каждого ресурса.
Ссылки:
[1] https://vlo.clarin.eu
#opendata #datacatalogs #datasets #lingustics
👍3✍2
Свежее исследование из Microsoft Research о том какие профессии более и какие менее подвержены замене на ИИ Working with AI: Measuring the Occupational Implications of Generative AI. Полезно чтобы задуматься о своей нынешней и будущей профессии.
К примеру, флеботомистам ничего не грозит (это такие мед специалисты которые берут венозную кровь из вены), ничего не грозит рабочим убирающим токсичные отходы, автослесарям тоже и тем кто чинит медицинское оборудование.
А вот переводчикам, историкам, писателям, редакторам, политологам и много кому ещё надо готовится к сокращению рынка труда.
#ai #work
К примеру, флеботомистам ничего не грозит (это такие мед специалисты которые берут венозную кровь из вены), ничего не грозит рабочим убирающим токсичные отходы, автослесарям тоже и тем кто чинит медицинское оборудование.
А вот переводчикам, историкам, писателям, редакторам, политологам и много кому ещё надо готовится к сокращению рынка труда.
#ai #work
🤣8💅3😢2🥰1
В рубрике как это устроено у них один из крупнейших публичных репозиториев научных данных по биоразнообразию это PlutoF [1] созданный командой в Тартуском университете и интегрированный в цифровую инфраструктуру других европейских проектов.
В PlutoF собрано более 3 миллионов 200 тысяч ресурсов (наборов данных), каждому из которых присвоен идентификатор DOI.
Поиск по репозиторий организован неудобно, он очень минималистичен, но этот репозиторий хорошо индексируется Datacite Commons, OpenAIRE и другими поисковиками по научным результатам.
Ссылки:
[1] https://plutof.ut.ee/en
#opendata #datacatalogs #biodiversity #datasets
В PlutoF собрано более 3 миллионов 200 тысяч ресурсов (наборов данных), каждому из которых присвоен идентификатор DOI.
Поиск по репозиторий организован неудобно, он очень минималистичен, но этот репозиторий хорошо индексируется Datacite Commons, OpenAIRE и другими поисковиками по научным результатам.
Ссылки:
[1] https://plutof.ut.ee/en
#opendata #datacatalogs #biodiversity #datasets
⚡5✍2
В рубрике как это устроено у них в США существует Research Data Alliance (Альянс исследовательских данных) и они, в том числе, занимаются тем что архивируют данные ликвидируемых госагенств США и их дочерних структур.
Например, они 7 августа проводят хакатон Data Rescue Hackathon for USAID Education Data [1], совместно с ICPSR и DataFirst, командами работающими над репозиториями исследовательских данных. Архивировать там собираются образовательные данные и иные материалы USAID поскольку уже окончательно стало понятно что USAID ликвидируется.
Мне лично интересно как они его организуют, как мотивируют участников (если дополнительно мотивируют), какие задачи ставят и так далее.
Потому что организация классических хакатонов это понятный для меня механизм, а организация хакатонов по спасению данных - это новый, но важный жанр. И он ещё много где и много раз будет актуален.
Ссылки:
[1] https://rdapassociation.org/event-6266055
#opendata #digitalpreservation #events
Например, они 7 августа проводят хакатон Data Rescue Hackathon for USAID Education Data [1], совместно с ICPSR и DataFirst, командами работающими над репозиториями исследовательских данных. Архивировать там собираются образовательные данные и иные материалы USAID поскольку уже окончательно стало понятно что USAID ликвидируется.
Мне лично интересно как они его организуют, как мотивируют участников (если дополнительно мотивируют), какие задачи ставят и так далее.
Потому что организация классических хакатонов это понятный для меня механизм, а организация хакатонов по спасению данных - это новый, но важный жанр. И он ещё много где и много раз будет актуален.
Ссылки:
[1] https://rdapassociation.org/event-6266055
#opendata #digitalpreservation #events
👍6✍2🔥2
В США опубликовали AI Action plan документ стратегии ИИ который выглядит на удивление разумным и продуманным.
Какие то меры не применимы за пределами США, это целый столп III Lead in International AI Diplomacy and
Security, его трудно воспроизвести кому-то кроме Китая или ЕС, но многое другое может интересовать разных регуляторов.
Из интересного там это Build World-Class Scientific Datasets. Такое редко встретишь напрямую с госрегулировании, а ведь это создание научных наборов данных мирового класса.
#data #ai #regulation
Какие то меры не применимы за пределами США, это целый столп III Lead in International AI Diplomacy and
Security, его трудно воспроизвести кому-то кроме Китая или ЕС, но многое другое может интересовать разных регуляторов.
Из интересного там это Build World-Class Scientific Datasets. Такое редко встретишь напрямую с госрегулировании, а ведь это создание научных наборов данных мирового класса.
#data #ai #regulation
🔥11❤1👍1
Полезное чтение про данные, технологии и не только:
- DuckLake standard 0.2 обновлённая спецификация озера данных на базе DuckDB, любопытно, всё жду обзоров сравнения нескольких технологий построения подобных озер. Они больше для корпоративной аналитики чем для работы со статическими данными, но тем не менее.
- What CoPilot Won’t Teach You About Python (Part 1) полезные трюки для тех кто программирует на Python и хочет знать новые лайфхаки. Заголовок, конечно, так себе ибо LLM многое из этого умеют
- Finding a job as a product engineer про культуру работы продуктовых инженеров и компании которые продвигают и реализуют такой подход. Если кратко то это совмещение ролей product owner'а и developer'а. Идея мне нравится, вот только найти таких людей непросто
- Notate.so ИИ помощник для рассуждений над любым текстом в сети, работает как расширение для браузера и интегрирован с Obsidian. Идея любопытная, в идеале бы local first версию интегрированную с локальной версией Obisidian
#python #readings #daata #datalake #products #notes
- DuckLake standard 0.2 обновлённая спецификация озера данных на базе DuckDB, любопытно, всё жду обзоров сравнения нескольких технологий построения подобных озер. Они больше для корпоративной аналитики чем для работы со статическими данными, но тем не менее.
- What CoPilot Won’t Teach You About Python (Part 1) полезные трюки для тех кто программирует на Python и хочет знать новые лайфхаки. Заголовок, конечно, так себе ибо LLM многое из этого умеют
- Finding a job as a product engineer про культуру работы продуктовых инженеров и компании которые продвигают и реализуют такой подход. Если кратко то это совмещение ролей product owner'а и developer'а. Идея мне нравится, вот только найти таких людей непросто
- Notate.so ИИ помощник для рассуждений над любым текстом в сети, работает как расширение для браузера и интегрирован с Obsidian. Идея любопытная, в идеале бы local first версию интегрированную с локальной версией Obisidian
#python #readings #daata #datalake #products #notes
DuckLake
Updates in the DuckLake 0.2 Standard
We are releasing the updated DuckLake 0.2 standard with several new fatures.
✍7🤔1
Forwarded from Национальный цифровой архив
С 25 августа перестанут работать короткие ссылки в сокращателе ссылок от Google, сам сервис перестал работать с 2019 года, но ранее созданные ссылки действовали, теперь же и ссылки действовать перестанут. Чем вызвана такая срочность и закрытие непонятно, у корпорации однозначно были и есть ресурсы сервис поддерживать.
Команда ArchiveTeam занимается архивацией этих ссылок и всего собрано 84ТБ данных. Прогресс архивации можно отследить в трекере и там же присоединиться к архивации развернув собственный экземпляр ArchiveTeam Warrior, специальной виртуальной машины для выполнения задач в рамках проектов с распределенной архивацией цифровых материалов.
#opendata #digitalpreservation #webarchive
Команда ArchiveTeam занимается архивацией этих ссылок и всего собрано 84ТБ данных. Прогресс архивации можно отследить в трекере и там же присоединиться к архивации развернув собственный экземпляр ArchiveTeam Warrior, специальной виртуальной машины для выполнения задач в рамках проектов с распределенной архивацией цифровых материалов.
#opendata #digitalpreservation #webarchive
🔥6🤨5🌚1
Любопытный инструмент SwellDB [1] генерация таблиц и обогащение данных с помощью LLM (OpenAI) с использованием SQL или датафреймов.
Инструмент совсем свежий, малоизвестный, идущий вместе со статьями SwellDB: Dynamic Query-Driven Table Generation with Large Language Models [2] и SwellDB: GenAI-Native Query Processing via On-the-Fly Table Generation [3]
Выглядит весьма любопытно для достаточно очевидных справочных данных, такие задачи возникают регулярно.
А ещё этот инструмент поднимает вопрос о том что многие данные теперь доступны не через каталоги и реестры НСИ, а через LLM. С помощью LLM можно создавать новые каталоги данных только из созданных датасетов или вообще обходиться без них.
Ссылки:
[1] https://github.com/SwellDB/SwellDB
[2] https://dl.acm.org/doi/10.1145/3722212.3725136
[3] https://github.com/gsvic/gsvic.github.io/blob/gh-pages/papers/SwellDB_VLDB_PhD_Workshop_2025.pdf
#dataengineering #data #opensource
Инструмент совсем свежий, малоизвестный, идущий вместе со статьями SwellDB: Dynamic Query-Driven Table Generation with Large Language Models [2] и SwellDB: GenAI-Native Query Processing via On-the-Fly Table Generation [3]
Выглядит весьма любопытно для достаточно очевидных справочных данных, такие задачи возникают регулярно.
А ещё этот инструмент поднимает вопрос о том что многие данные теперь доступны не через каталоги и реестры НСИ, а через LLM. С помощью LLM можно создавать новые каталоги данных только из созданных датасетов или вообще обходиться без них.
Ссылки:
[1] https://github.com/SwellDB/SwellDB
[2] https://dl.acm.org/doi/10.1145/3722212.3725136
[3] https://github.com/gsvic/gsvic.github.io/blob/gh-pages/papers/SwellDB_VLDB_PhD_Workshop_2025.pdf
#dataengineering #data #opensource
✍8
Подборка ссылок про данные, технологии и не только:
- FastLanes новый формат для хранения данных, обещают что на 40% лучше сжатие и на 40% быстрее декодирование чем в Parquet. Доступны реализации на Python, C++ и Rust. Лицензия MIT. Вместе с кодом ссылки на 4 научные работы и пример по преобразованию CSV. Нехватает только интеграции в какой-либо движок для датафреймов или в DuckDB. Происходит из команды CWIDA которые много что интересного про базы данных делали и делают. В частности DuckDB Lab - это их спинофф, так что выглядит любопытно и, скорее всего, поддержка внутри DuckDB ожидаема.
- Parquet Content-Defined Chunking обновления в Pandas и Pyarrow для поддержки точечных изменений в Parquet файлах благодаря которым можно безболезненно дописывать данные в Parquet файлы. Перспективно в задачах преобразования данных в Parquet которые, внезапно, удешевились и вообще для использования Parquet в озерах данных. Текст в блоге Hugging Face, технический, но важный
- Three TigerData Engineers Told Us the Truth About MCP – Security Is Its Achilles Heel анализ работы MCP серверов и их высокой небезопасности в большинстве реализаций. Стоит почитать прежде чем делать свой MCP экспорт
- How to build data platforms электронная книга от команды Dagster'а о том как строить свои дата платформы. Высылают если заполнить форму. Документ полезный для всех кто планирует делать свою инфраструктуру данных, условно, с нуля.
P.S. Напоминаю что мы ищем ещё одного дата инженера в команду Dateno https://t.me/datenosearch/13, писать можно и нужно на dateno@dateno.io
- FastLanes новый формат для хранения данных, обещают что на 40% лучше сжатие и на 40% быстрее декодирование чем в Parquet. Доступны реализации на Python, C++ и Rust. Лицензия MIT. Вместе с кодом ссылки на 4 научные работы и пример по преобразованию CSV. Нехватает только интеграции в какой-либо движок для датафреймов или в DuckDB. Происходит из команды CWIDA которые много что интересного про базы данных делали и делают. В частности DuckDB Lab - это их спинофф, так что выглядит любопытно и, скорее всего, поддержка внутри DuckDB ожидаема.
- Parquet Content-Defined Chunking обновления в Pandas и Pyarrow для поддержки точечных изменений в Parquet файлах благодаря которым можно безболезненно дописывать данные в Parquet файлы. Перспективно в задачах преобразования данных в Parquet которые, внезапно, удешевились и вообще для использования Parquet в озерах данных. Текст в блоге Hugging Face, технический, но важный
- Three TigerData Engineers Told Us the Truth About MCP – Security Is Its Achilles Heel анализ работы MCP серверов и их высокой небезопасности в большинстве реализаций. Стоит почитать прежде чем делать свой MCP экспорт
- How to build data platforms электронная книга от команды Dagster'а о том как строить свои дата платформы. Высылают если заполнить форму. Документ полезный для всех кто планирует делать свою инфраструктуру данных, условно, с нуля.
P.S. Напоминаю что мы ищем ещё одного дата инженера в команду Dateno https://t.me/datenosearch/13, писать можно и нужно на dateno@dateno.io
GitHub
GitHub - cwida/FastLanes: Next-Gen Big Data File Format
Next-Gen Big Data File Format. Contribute to cwida/FastLanes development by creating an account on GitHub.
🔥6❤1✍1👍1
В качестве регулярных напоминаний, несколько лет назад я делал библиотеку для Python под названием newsworker по автоматическому извлечению новостей из веб-страниц вместо RSS лент, она всё ещё работает и актуальна.
Когда я её создавал у меня была большая идея в создания новостного агрегатора с сайтов которые RSS ленты не экспортировали, к примеру, это более половины сайтов госорганов и госучреждений. Ключевое было в том чтобы не писать парсеры для каждого сайта, а чтобы было достаточно скормить анализатору ссылку и он уже сам бы нашёл блоки с новостями, понял бы какие ссылки там есть, идентифицировал бы даты и новостные блоки и создавал бы новостную ленту из которой можно было бы сконструировать RSS/ATOM ленту что называется low code, без усилий.
Для той же цели я создавал ещё одну библиотеку qddate которая умеет определять даты написанные 300+ способами, на разных языках и форматах. Собственно newsworker извлекал из веб страницы тексты, находил даты, анализировал компоновку веб страницы, идентифицировал заголовок, текст, ссылки, дату и сохранял результаты. qddate писалась довольно нестандартно, вместо регулярных выражений там применялись шаблоны pyparsing и жёстко вкодированные якоря для быстрого отсева нерелевантных текстов. Самое трудоёмкое, собственно, было именно в идентификации дат.
Хотя я давно эту библиотеку newsworker не обновлял, задачи по созданию агрегатора давно отпали, но код всё ещё работает и для тех кто решает подобные задачи она может пригодится.
Возможно, сейчас можно было бы пойти путём автоматизированного вайб кодинга и натравливать LLM на каждую такую страницу, и LLM может сделать индивидуальные парсеры, но... старые подходы тоже работают и, возможно, не хуже, а то и лучше. это
Общая концепция вокруг этого всего у меня была в восприятии любого веб-ресурса как базы данных. Автоматический интеллектуальный скрейпинг условно любого контента. С новостями это было проще всего, это было, в принципе, решаемо.
#opensource #data #datatools
Когда я её создавал у меня была большая идея в создания новостного агрегатора с сайтов которые RSS ленты не экспортировали, к примеру, это более половины сайтов госорганов и госучреждений. Ключевое было в том чтобы не писать парсеры для каждого сайта, а чтобы было достаточно скормить анализатору ссылку и он уже сам бы нашёл блоки с новостями, понял бы какие ссылки там есть, идентифицировал бы даты и новостные блоки и создавал бы новостную ленту из которой можно было бы сконструировать RSS/ATOM ленту что называется low code, без усилий.
Для той же цели я создавал ещё одну библиотеку qddate которая умеет определять даты написанные 300+ способами, на разных языках и форматах. Собственно newsworker извлекал из веб страницы тексты, находил даты, анализировал компоновку веб страницы, идентифицировал заголовок, текст, ссылки, дату и сохранял результаты. qddate писалась довольно нестандартно, вместо регулярных выражений там применялись шаблоны pyparsing и жёстко вкодированные якоря для быстрого отсева нерелевантных текстов. Самое трудоёмкое, собственно, было именно в идентификации дат.
Хотя я давно эту библиотеку newsworker не обновлял, задачи по созданию агрегатора давно отпали, но код всё ещё работает и для тех кто решает подобные задачи она может пригодится.
Возможно, сейчас можно было бы пойти путём автоматизированного вайб кодинга и натравливать LLM на каждую такую страницу, и LLM может сделать индивидуальные парсеры, но... старые подходы тоже работают и, возможно, не хуже, а то и лучше. это
Общая концепция вокруг этого всего у меня была в восприятии любого веб-ресурса как базы данных. Автоматический интеллектуальный скрейпинг условно любого контента. С новостями это было проще всего, это было, в принципе, решаемо.
#opensource #data #datatools
🔥10
А вот вам ещё цифры про портал открытых данных РФ data.gov.ru, вернее цифры про то чего там нет
В процессе архивации госсайтов РФ за 2025 год у меня на архивном сервере сейчас лежит около 1.1ТБ сжатых WARC файлов собранных с 73 госсайтов федеральных органов и их региональных подразделений.
Так вот цифры из этих архивов:
- 28 466 файлов с данными в форматах CSV, XLS и XLSX опубликовано на этих сайтах
- 22ГБ общий объём этих файлов
- большая часть файлов - это разного рода реестры с юр. лицами и ИП, а также статистика
- многие данные также внутри PDF/DOC/DOCX документов, особенно на сайтах Росстата и его терр управлений, они извлекаемы
- не все эти данные мусор, как раз там есть вполне используемые данные
И всё это не считая файлов с данными внутри ZIP и RAR архивов которых тоже немало.
Думаю что дальше всё понятно что я мог бы сказать про data.gov.ru 😉
#opendata #digitalpreservation
В процессе архивации госсайтов РФ за 2025 год у меня на архивном сервере сейчас лежит около 1.1ТБ сжатых WARC файлов собранных с 73 госсайтов федеральных органов и их региональных подразделений.
Так вот цифры из этих архивов:
- 28 466 файлов с данными в форматах CSV, XLS и XLSX опубликовано на этих сайтах
- 22ГБ общий объём этих файлов
- большая часть файлов - это разного рода реестры с юр. лицами и ИП, а также статистика
- многие данные также внутри PDF/DOC/DOCX документов, особенно на сайтах Росстата и его терр управлений, они извлекаемы
- не все эти данные мусор, как раз там есть вполне используемые данные
И всё это не считая файлов с данными внутри ZIP и RAR архивов которых тоже немало.
Думаю что дальше всё понятно что я мог бы сказать про data.gov.ru 😉
#opendata #digitalpreservation
✍7🌚1
Свежий план Правительства Китая по развитию ИИ, для тех кому лень читать его на китайском языке, вот краткие тезисы
—
1️⃣ ИИ — для всех:
Развиваем технологии вместе — от государств до граждан. В фокусе — устойчивое развитие и решение глобальных задач.
2️⃣ Поддержка инноваций:
Создаём международные платформы, снижаем барьеры, делимся опытом и находим прорывы вместе.
3️⃣ ИИ в каждую отрасль:
Промышленность, медицина, образование, агро — ИИ должен приносить пользу повсюду.
4️⃣ Цифровая инфраструктура:
Сети, дата-центры, вычислительные мощности — особенно для стран Глобального Юга. Без базы — нет прогресса.
5️⃣ Открытая экосистема:
Поддержка open source, совместимость систем, доступ к разработкам для всех. Без монополий.
6️⃣ Данные — топливо ИИ:
Безопасный и законный обмен данными. Качество, разнообразие, защита приватности.
7️⃣ Зелёный ИИ:
Энергоэффективные алгоритмы и оборудование. ИИ не должен вредить планете.
8️⃣ Общие стандарты:
Согласованные международные нормы: безопасность, этика, прозрачность.
9️⃣ Государства — пример:
Госуслуги с ИИ — быстрее, точнее, прозрачнее. Но с уважением к правам и приватности.
🔟 Безопасность прежде всего:
Анализ рисков, защита от злоупотреблений, объяснимость и контроль.
1️⃣1️⃣ Выполнение цифрового договора ООН:
Справедливое цифровое будущее — без цифрового неравенства.
1️⃣2️⃣ Образование и потенциал:
Учимся и учим: от лабораторий до курсов для всех. Особое внимание — женщинам и детям.
1️⃣3️⃣ Управление для всех:
ИИ — это не только дело корпораций. Все голоса должны быть услышаны: учёные, госслужбы, бизнес, общество.
—
В целом же что план Китая, что план США, оба про глобальную экспансию нынешних "ИИ сверхдержав".
Можно обратить внимание что все стратегии упоминают открытый код
#ai #china #data
—
1️⃣ ИИ — для всех:
Развиваем технологии вместе — от государств до граждан. В фокусе — устойчивое развитие и решение глобальных задач.
2️⃣ Поддержка инноваций:
Создаём международные платформы, снижаем барьеры, делимся опытом и находим прорывы вместе.
3️⃣ ИИ в каждую отрасль:
Промышленность, медицина, образование, агро — ИИ должен приносить пользу повсюду.
4️⃣ Цифровая инфраструктура:
Сети, дата-центры, вычислительные мощности — особенно для стран Глобального Юга. Без базы — нет прогресса.
5️⃣ Открытая экосистема:
Поддержка open source, совместимость систем, доступ к разработкам для всех. Без монополий.
6️⃣ Данные — топливо ИИ:
Безопасный и законный обмен данными. Качество, разнообразие, защита приватности.
7️⃣ Зелёный ИИ:
Энергоэффективные алгоритмы и оборудование. ИИ не должен вредить планете.
8️⃣ Общие стандарты:
Согласованные международные нормы: безопасность, этика, прозрачность.
9️⃣ Государства — пример:
Госуслуги с ИИ — быстрее, точнее, прозрачнее. Но с уважением к правам и приватности.
🔟 Безопасность прежде всего:
Анализ рисков, защита от злоупотреблений, объяснимость и контроль.
1️⃣1️⃣ Выполнение цифрового договора ООН:
Справедливое цифровое будущее — без цифрового неравенства.
1️⃣2️⃣ Образование и потенциал:
Учимся и учим: от лабораторий до курсов для всех. Особое внимание — женщинам и детям.
1️⃣3️⃣ Управление для всех:
ИИ — это не только дело корпораций. Все голоса должны быть услышаны: учёные, госслужбы, бизнес, общество.
—
В целом же что план Китая, что план США, оба про глобальную экспансию нынешних "ИИ сверхдержав".
Можно обратить внимание что все стратегии упоминают открытый код
#ai #china #data
www.mfa.gov.cn
重要新闻_中华人民共和国外交部
人工智能全球治理行动计划(全文)
🔥7