Судя по новостям в России начали банить Telegram и я мог бы много чего сказать про глупость этого, про то что по рядовым чиновникам и госслужащим это бьет не меньше чем по всем остальными о том что внутри российских госорганов недоверие MAX'у не меньшее чем у простых и продвинутых россиян. Политическая целесообразность, тем не менее, в РФ абсолютно затмевает экономическую.
Тем не менее я не сомневаюсь что аудиторию мой канал не потеряет как и большая часть коммуникаций сохранится. Самое очевидное и значимое то что:
1. Многие команды работающие в РФ частично или полностью будут вынуждены теперь повсеместно использовать VPN. Я, кстати, не испытываю сомнений что пока SSH протокол не начали замедлять будет сложно заблокировать что VPN'ы что прокси для отдельных приложений.
2. Не только в контексте РФ, но и других стран есть явная ниша для zero-config сервисов вроде Tailscale или Twingate для организации внутрикорпоративных сетей. Применительно к РФ их главный недостаток сейчас в том что они работают с использованием Wireguard как основного протокола.
#thoughts
Тем не менее я не сомневаюсь что аудиторию мой канал не потеряет как и большая часть коммуникаций сохранится. Самое очевидное и значимое то что:
1. Многие команды работающие в РФ частично или полностью будут вынуждены теперь повсеместно использовать VPN. Я, кстати, не испытываю сомнений что пока SSH протокол не начали замедлять будет сложно заблокировать что VPN'ы что прокси для отдельных приложений.
2. Не только в контексте РФ, но и других стран есть явная ниша для zero-config сервисов вроде Tailscale или Twingate для организации внутрикорпоративных сетей. Применительно к РФ их главный недостаток сейчас в том что они работают с использованием Wireguard как основного протокола.
#thoughts
❤27💯14🤝6🤔2
Для меня один из давних вопросов в том могут ли LLM работать с двоичными данными и делать это хорошо. Но если я только задумывался об этом то ребята из Quesma проделали серию тестов с внедрением вредоносов в несколько бинарников популярных серверных продуктов и попробовали с помощью разных LLM их выявить используя опенсорные инструменты Ghidra и Radare2. А по итогам они написали подробный отчет в котором есть еще и ссылки на детали замеров и исходники.
В качестве короткого резюме - да, возможно. Лучше всего себя показал последняя модель Claude Opus 4.6, хуже всего Grok-4.1-fast. Впрочем использование Claude Opus 4.6 было самым дорогим, его использование вышло в $300, но и выявил он 49% всего вредоносного кода (бинарного в исполняемых файлах)
Результат интересен еще и его обратимостью, если ИИ ассистенты так хороши в обнаружении вредоносного кода в бинарниках, то они же могут быть хороши и в его сокрытии. А значит и хакеры могут получить более опасные инструменты и борьба с ними станет тяжелее.
#opensource #ai #itsecurity
В качестве короткого резюме - да, возможно. Лучше всего себя показал последняя модель Claude Opus 4.6, хуже всего Grok-4.1-fast. Впрочем использование Claude Opus 4.6 было самым дорогим, его использование вышло в $300, но и выявил он 49% всего вредоносного кода (бинарного в исполняемых файлах)
Результат интересен еще и его обратимостью, если ИИ ассистенты так хороши в обнаружении вредоносного кода в бинарниках, то они же могут быть хороши и в его сокрытии. А значит и хакеры могут получить более опасные инструменты и борьба с ними станет тяжелее.
#opensource #ai #itsecurity
👍7❤6
Ещё в рубрике как это устроено у них о том что порталы и каталоги открытых данных даже со свободными лицензиями не всегда содержат открытые данные.
Портал открытых данных The AIDS Data Repository содержит 598 наборов данных которые организованы так что для доступа к ним нужна регистрация в их внутренней системе. На портале доступны карточки метаданных, но сами ресурсы вынесены в отдельную систему с авторизацией.
Проект OpenHeritage3D содержит 3D модели многочисленных культурных объектов по всему миру, как правило на условиях CC BY-NC-ND, довольно ограничивающих, но дело не только в них. Данные напрямую скачать нельзя, нужно заполнить Download Submission Form и только после этого получить ссылки на закачку данных на почту.
Собственно это одна из причин почему открытыми данными называют то что соответствует Open Data Principles, а не все что де факто так называется или общедоступно.
#opendata #datacatalogs
Портал открытых данных The AIDS Data Repository содержит 598 наборов данных которые организованы так что для доступа к ним нужна регистрация в их внутренней системе. На портале доступны карточки метаданных, но сами ресурсы вынесены в отдельную систему с авторизацией.
Проект OpenHeritage3D содержит 3D модели многочисленных культурных объектов по всему миру, как правило на условиях CC BY-NC-ND, довольно ограничивающих, но дело не только в них. Данные напрямую скачать нельзя, нужно заполнить Download Submission Form и только после этого получить ссылки на закачку данных на почту.
Собственно это одна из причин почему открытыми данными называют то что соответствует Open Data Principles, а не все что де факто так называется или общедоступно.
#opendata #datacatalogs
🔥3❤🔥2
В рубрике интересных и малоизвестных проектов:
- PyDI малоизвестный широкой публике инструмент интеграции данных через LLM. Делается в Университете Маннхейма. Много полезного чтобы посмотреть как реализуют задачи schema matching, сопоставления структур данных для интеграции
- Web Data Commons коллекция огромного объёма (ну ладно, не огромного, просто не маленьких) наборов данных веб разметки объектов извлеченных из Common Crawl. Если проще - результаты извлечения объектов Schema.org из дампов Common Crawl. Уже год не добавляют нового, но и имеющееся весьма полезно
- DuckDB eurostat расширение для DuckDB для работы с данными Евростата. Я смотрю на это и думаю, ну почему, ну почему это сделал не я😱. Идея отличная, может сделать расширение поиска данных в Dateno через DuckDB? Но у нас нет SDK для C++, но можно и без SDK. Я вот не писал на C++ уже лет 30, только читал, патчил, собирал, но не вел полноценной разработки. Но самому такое делать и не надо, конечно. Надо привлечь кого-то к этому прекрасному делу.
- DOOMQL реализация игры DOOM на SQL в базе CedarDB. Для всех кто любит DOOM. В основе аналогичная реализация игры для DuckDB, на неё там приведены ссылки.
#opensource #data #datasets #dataengineering
- PyDI малоизвестный широкой публике инструмент интеграции данных через LLM. Делается в Университете Маннхейма. Много полезного чтобы посмотреть как реализуют задачи schema matching, сопоставления структур данных для интеграции
- Web Data Commons коллекция огромного объёма (ну ладно, не огромного, просто не маленьких) наборов данных веб разметки объектов извлеченных из Common Crawl. Если проще - результаты извлечения объектов Schema.org из дампов Common Crawl. Уже год не добавляют нового, но и имеющееся весьма полезно
- DuckDB eurostat расширение для DuckDB для работы с данными Евростата. Я смотрю на это и думаю, ну почему, ну почему это сделал не я😱. Идея отличная, может сделать расширение поиска данных в Dateno через DuckDB? Но у нас нет SDK для C++, но можно и без SDK. Я вот не писал на C++ уже лет 30, только читал, патчил, собирал, но не вел полноценной разработки. Но самому такое делать и не надо, конечно. Надо привлечь кого-то к этому прекрасному делу.
- DOOMQL реализация игры DOOM на SQL в базе CedarDB. Для всех кто любит DOOM. В основе аналогичная реализация игры для DuckDB, на неё там приведены ссылки.
#opensource #data #datasets #dataengineering
GitHub
GitHub - wbsg-uni-mannheim/PyDI: The PyDI framework provides methods for end-to-end data integration. The framework covers all…
The PyDI framework provides methods for end-to-end data integration. The framework covers all steps of the integration process, including schema matching, data translation, entity matching, and dat...
👍8
Мысли вслух, если все эти разговоры что РФ и США будут укреплять экономические связи если/когда закончится активная фаза военного конфликта, то звучит это всё так что существенная часть импортозамещения пойдет, выражаясь образно, ослу под хвост.
То есть от "отечественных ИТ продуктов" внутри госорганов отказа не будет, а вот бизнес крупняк может если не полностью то существенно вернуться к покупке лицензий на ПО из США. Кто-то может быть и нет, но кто-то точно да, те кто дольше всех тянул с переходом и пользовался пиратскими версиями сколько мог.
Но и это не так критично как то что американские ИИ-бигтехи быстро сожрут весь потребительский рынок прикладных ИИ ассистентов для конечных потребителей. Что Сбер, что Яндекс, им сейчас не конкуренты по множеству объективных причин.
#thoughts #itmarket
То есть от "отечественных ИТ продуктов" внутри госорганов отказа не будет, а вот бизнес крупняк может если не полностью то существенно вернуться к покупке лицензий на ПО из США. Кто-то может быть и нет, но кто-то точно да, те кто дольше всех тянул с переходом и пользовался пиратскими версиями сколько мог.
Но и это не так критично как то что американские ИИ-бигтехи быстро сожрут весь потребительский рынок прикладных ИИ ассистентов для конечных потребителей. Что Сбер, что Яндекс, им сейчас не конкуренты по множеству объективных причин.
#thoughts #itmarket
❤11👍8😁6
В рубрике как это устроено у них Osti.gov портал с результатами исследований профинансированными Департаментом энергетики США (IS Department of Energy). Включает более 3 миллионов научных результатов: статей, книг, видеозаписей, отчетов, ПО, патентов и, конечно же, данных. которых там более 652 тысяч записей. Это не просто много, а очень много и в целом описывает подход федеральных органов в США к раскрытию данных. В отличие от Китая где научные данный собираются в единый Science Data Bank и в отличие от Европы где действует единый агрегатор OpenAIRE, в США существует несколько крупных тематических агрегаторов каталогов научных данных объединённых под крупными федеральными ведомствами.
Так, помимо Osti.gov, существует ScienceBase.gov с геологическими данными и NASA Earthdata с космическими данными о Земле и NOAA Onestop единый поисковик данных о погоде и FRED банк данных по экономии и социологии от резервного банка Сент-Луиса.
Важная характеристика открытости данных в США в доступности данных для исследователей практически всех научных дисциплин. И важно помнить что их федеральный портал data.gov это далеко не самый крупный государственный портал данных страны.
#opendata #usa #energy #datacatalogs #datasets
Так, помимо Osti.gov, существует ScienceBase.gov с геологическими данными и NASA Earthdata с космическими данными о Земле и NOAA Onestop единый поисковик данных о погоде и FRED банк данных по экономии и социологии от резервного банка Сент-Луиса.
Важная характеристика открытости данных в США в доступности данных для исследователей практически всех научных дисциплин. И важно помнить что их федеральный портал data.gov это далеко не самый крупный государственный портал данных страны.
#opendata #usa #energy #datacatalogs #datasets
⚡6👍3❤1🔥1
Я как то рассказывал что я мэйнтейню репозиторий awesome-status-pages на Github'е и так исторически сложилось что до сих пор я не делал ни одного проекта который собрал бы такое же количество звезд (3 617). Совершенно непредсказуемая популярность от побочного awesome листа который я сварганил когда-то за час после того как сам исследовал эту тему. Тем не менее это оказалось именно тем куда потоком стекаются каждый новый создатель таких сервисов, а их сотни, иногда кажется что каждый разработчик хочет сделать свой велосипед проект status pages.
Пока массово не применяли ИИ - это было нормально, а теперь пошел поток ИИ запросов от Claude Code, и вот тут пришлось уже писать пугающее предупреждение и начать банить тех кто отправляет такие пулл реквесты через Claude Code. Их очень легко отличить от человеческих, они слишком грамотно написаны😉
Но чую это только начало, а дальше будет только хуже.
#opensource
Пока массово не применяли ИИ - это было нормально, а теперь пошел поток ИИ запросов от Claude Code, и вот тут пришлось уже писать пугающее предупреждение и начать банить тех кто отправляет такие пулл реквесты через Claude Code. Их очень легко отличить от человеческих, они слишком грамотно написаны😉
Но чую это только начало, а дальше будет только хуже.
#opensource
😁10👍5
Свежий доклад Building Open Digital States: Country Case Studies on the Impact of DPGs for DPI от Digital Public Goods Alliance по продвижению использования продуктов с открытым кодом среди органов власти и международных НКО для решения задач предоставления услуг, повышения эффективности госуправления и не только.
Доклад любопытный, в первую очередь, кейсами по развивающимся странам. Например, можно прочитать про внедрение X-Road в Кыргызстане и про системы моментальных платежей в Руанде и на Филлипинах.
Сама инициатива полезная для понимания как альтернативно может развиваться цифровая инфраструктура без коллосальных инвестиций или опоры на бигтехи и ИТ крупняк вендоров-внедренцев. При этом, конечно, все эти примеры это капли в море реальных ИТ расходов государств по странам, но тем не менее это показательные примеры.
А ещё есть много вопросов. Например, почему в Кыргызстане внедряют X-Road из Эстонии (на самом деле теперь его продвигает Nordic Institute for Interoperability Solutions куда еще входят Финляндия и Исландия), а не российский Гостех? И ответ не только в том чтоГостеха не существует Сбер под международными санкциями, но и в том что исходный код X-Road открыт и средства международной помощи выделяются на его внедрение.
#opensource #publicgood
Доклад любопытный, в первую очередь, кейсами по развивающимся странам. Например, можно прочитать про внедрение X-Road в Кыргызстане и про системы моментальных платежей в Руанде и на Филлипинах.
Сама инициатива полезная для понимания как альтернативно может развиваться цифровая инфраструктура без коллосальных инвестиций или опоры на бигтехи и ИТ крупняк вендоров-внедренцев. При этом, конечно, все эти примеры это капли в море реальных ИТ расходов государств по странам, но тем не менее это показательные примеры.
А ещё есть много вопросов. Например, почему в Кыргызстане внедряют X-Road из Эстонии (на самом деле теперь его продвигает Nordic Institute for Interoperability Solutions куда еще входят Финляндия и Исландия), а не российский Гостех? И ответ не только в том что
#opensource #publicgood
👍5❤2🔥2
Читаю с удовольствием историю про появление RevPDF оффлайнового редактора для PDF (а заодно и просмотрщика и конвертера). Автор всерьез заморочился тем чтобы создать ПО с минимальным футпринтом, работающее оффлайн и быстро. Честно говоря выглядит этого особенно хорошо на фоне того в какое неприятное приложение превратился Acrobat Reader и того что редактора PDF почти все платные.
У приложения нет открытого кода, сам автор пишет что во всяком случае пока.
Если автор еще и код откроет так совсем бесценным приложением это будет.
#apps #productivity #softwareengineering
У приложения нет открытого кода, сам автор пишет что во всяком случае пока.
Если автор еще и код откроет так совсем бесценным приложением это будет.
#apps #productivity #softwareengineering
👍19🔥8⚡5✍1❤1
Новая версия 1.1 стандарта Croissant как хороший пример эволюции стандартизации описания данных. Стандарт создавался для датасетов для ИИ. Важная его часть - это аннотирование семантическими типами, объектами из Wikidata и иными тематическими справочниками. Это более чем важно для автоматизации понимания содержимого датасета и это то что можно реализовывать уже сейчас для описания наборов данных.
Кроме того в версию стандарта добавлена интеграция с онтологиями прав использования DUO и W3C ORDL и применение W3C PROV онтологии происхождения цифрового объекта.
Как ни посмотри, одни плюсы. Этот стандарт однозначно надо использовать для описания данных в открытых каталогах данных и не только.
#opendata #standards #data #datasets
Кроме того в версию стандарта добавлена интеграция с онтологиями прав использования DUO и W3C ORDL и применение W3C PROV онтологии происхождения цифрового объекта.
Как ни посмотри, одни плюсы. Этот стандарт однозначно надо использовать для описания данных в открытых каталогах данных и не только.
#opendata #standards #data #datasets
👍7❤1🤝1
Полезные ссылки про данные, технологии и не только:
- Village SQL форк MySQL с возможностью написания расширений и несколькими готовыми расширениями для криптографических функций, генерации UUID и, конечно же, функций для промптинга LLM. Код под GPL2, команда с большим опытом разработки СУБД. Для тех чья жизнь связана с MySQL может быть полезной альтернативой
- Where Data Engineering Is Heading in 2026 - 5+ Trends автор рассуждает о трендах дата инженерии, я бы выделил ту мысль что скоро в вакансиях перестанут упоминать применение ИИ ассистентов как обязательное требование потому что оно будет подразумеваться.
- Polyglot програмная библиотека для Rust для парсинга SQL. Нужный инструмент для самых разнообразных задач. Пока выглядит как наиболее продвинутый из всех мне известных.
- What the fastest-growing tools reveal about how software is being built в блоге Github о том что AI теперь всегда синонимичен Python, о том что Typescript напирает популярность, а Javascript теряет и ряд других интересностей из анализов трендов на Github'е
- Monty облегченная версия интерпретатора Python'а написанная на Rust. Главное - безопасная работа и минимизированная скорость запуска. Зачем? Для экономии ресурсов при запуске в изолированных контейнерах ИИ агентов. Делают ребята из Pydantic. Выглядит как важный и нужный продукт, заодно у них есть сравнение с альтернативами.
#tools #datatools #opensource #dataengineering
- Village SQL форк MySQL с возможностью написания расширений и несколькими готовыми расширениями для криптографических функций, генерации UUID и, конечно же, функций для промптинга LLM. Код под GPL2, команда с большим опытом разработки СУБД. Для тех чья жизнь связана с MySQL может быть полезной альтернативой
- Where Data Engineering Is Heading in 2026 - 5+ Trends автор рассуждает о трендах дата инженерии, я бы выделил ту мысль что скоро в вакансиях перестанут упоминать применение ИИ ассистентов как обязательное требование потому что оно будет подразумеваться.
- Polyglot програмная библиотека для Rust для парсинга SQL. Нужный инструмент для самых разнообразных задач. Пока выглядит как наиболее продвинутый из всех мне известных.
- What the fastest-growing tools reveal about how software is being built в блоге Github о том что AI теперь всегда синонимичен Python, о том что Typescript напирает популярность, а Javascript теряет и ряд других интересностей из анализов трендов на Github'е
- Monty облегченная версия интерпретатора Python'а написанная на Rust. Главное - безопасная работа и минимизированная скорость запуска. Зачем? Для экономии ресурсов при запуске в изолированных контейнерах ИИ агентов. Делают ребята из Pydantic. Выглядит как важный и нужный продукт, заодно у них есть сравнение с альтернативами.
#tools #datatools #opensource #dataengineering
GitHub
GitHub - villagesql/villagesql-server: VillageSQL
VillageSQL. Contribute to villagesql/villagesql-server development by creating an account on GitHub.
🔥5🤔1
Статистика использования генеративных ИИ инструментов молодежью в странах ЕС. А также датасет на котором эта визуализация построена.
Добавлю что по тому же показателю в Евростате мужчины чаще используют генеративный ИИ в работе, а женщины при получении образования. Но это вы уже сами можете найти на сайте Евростата;)
Интересно что по ЕС такие данные есть, а по многим другим странам и территориям они отсутствуют. Если ли такие измерения по РФ (включая регионы), Казахстану, Узбекистану?
Вообще стат индикаторы по цифровизации должны оперативно обновляться под развивающееся внедрение ИИ. А где они есть за пределами наиболее развитых стран?
#statistics #aiagents
Добавлю что по тому же показателю в Евростате мужчины чаще используют генеративный ИИ в работе, а женщины при получении образования. Но это вы уже сами можете найти на сайте Евростата;)
Интересно что по ЕС такие данные есть, а по многим другим странам и территориям они отсутствуют. Если ли такие измерения по РФ (включая регионы), Казахстану, Узбекистану?
Вообще стат индикаторы по цифровизации должны оперативно обновляться под развивающееся внедрение ИИ. А где они есть за пределами наиболее развитых стран?
#statistics #aiagents
👍4🔥3✍2
У меня тут внезапный вопрос не про открытые данные, а про их восприятие. Мы регулярно проводим всякие конкурсы и хакатоны и заморочались тем что не можем подобрать правильную символику открытости данных. Понятно что есть символика организаций которые тему продвигают, а вот визуальной символики которую можно было бы превратить, например, в статуэтку придумать не получается.
Может у сообщества есть идеи? Поделитесь ими в чате @begtinchat
#questions
Может у сообщества есть идеи? Поделитесь ими в чате @begtinchat
#questions
👍5
Тем временем я постепенно, но столкнулся с ограничениями раздумывающих ИИ ассистентов с решением задач которые требуют коммерческих сервисов. Возможно они всячески избегают предлагать решения которые предполагают платить деньги каким-либо сервисам, возможно, не знают решения задач на их основе.
Вот в пример задача которую я регулярно решаю - пополнение реестра каталогов Dateno (dateno.io/registry) и я регулярно задаю сложные вопросы для deep thinking сервисов которые звучат как "мне нужен полный список сайтов работающих на базе YYY" (реальные промпты посложнее, но так понятнее) и в ответ я получаю довольно неплохо структурированные ответы о том как искать эти данные на сайте вендора или запросами к Google и оценки трудоёмкости в несколько месяцев.
Хотя есть более эффективные инструменты из мира OSINT такие как BuiltWith или Censys которые позволяют получить списки по многим веб сайтов оплачивая отчеты по технологиям. Это стоит денег, но кратно эффективнее (не рекламирую их, просто констатирую). И ни один из ИИ ассистентов не предложил этот путь.
Это довольно существенное ограничение, скорее всего преодолимое путём проектирования задач на ранних этапах, но приводящее к ситуации когда ИИ ассистенты имеют ограниченное число маршрутов и неплохо действуют в их пределах и совсем не действуют там где эти маршруты не так очевидны.
#opendata #thoughts #ai
Вот в пример задача которую я регулярно решаю - пополнение реестра каталогов Dateno (dateno.io/registry) и я регулярно задаю сложные вопросы для deep thinking сервисов которые звучат как "мне нужен полный список сайтов работающих на базе YYY" (реальные промпты посложнее, но так понятнее) и в ответ я получаю довольно неплохо структурированные ответы о том как искать эти данные на сайте вендора или запросами к Google и оценки трудоёмкости в несколько месяцев.
Хотя есть более эффективные инструменты из мира OSINT такие как BuiltWith или Censys которые позволяют получить списки по многим веб сайтов оплачивая отчеты по технологиям. Это стоит денег, но кратно эффективнее (не рекламирую их, просто констатирую). И ни один из ИИ ассистентов не предложил этот путь.
Это довольно существенное ограничение, скорее всего преодолимое путём проектирования задач на ранних этапах, но приводящее к ситуации когда ИИ ассистенты имеют ограниченное число маршрутов и неплохо действуют в их пределах и совсем не действуют там где эти маршруты не так очевидны.
#opendata #thoughts #ai
Dateno
Dateno Registry and Dataset Search Engine
A next-generation data search service provides fast, comprehensive access to open datasets worldwide, with powerful filters and an API-first architecture for seamless integration.
👍5🔥2
Forwarded from RPPA PRO: Privacy • AI • Cybersecurity • IP
Media is too big
VIEW IN TELEGRAM
AI Data Governance Framework - это не абстрактная теория, а практическая стратегия управления данными под задачи ИИ
определение структуры управления
RPPA.pro | RPPAedu.pro | AI Governance
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6✍4👏3❤1
В рубрике как это устроено у них DataLabor португальский исследовательский портал с данными и визуализацией статистики труда в стране, основан на базе официальной статистики переведенной у удобные дашборды и графики временных рядов.
Создан в лаборатории Colabor созданной рядом академических структур для анализа рынка труда.
Лично мне нехватает явного раздела с датасетами, но и без него полезный ресурс.
#opendata #statistics #portugal
Создан в лаборатории Colabor созданной рядом академических структур для анализа рынка труда.
Лично мне нехватает явного раздела с датасетами, но и без него полезный ресурс.
#opendata #statistics #portugal
👍3
Zvec свежая замена Sqlite в задачах векторного поиска и RAG. Выложено Alibaba под лицензией Apache 2.0. В моем понимании это прямая альтернатива LanceDB, но LanceDB пока выглядит интереснее.
#opensource #datatools #dataengineering
#opensource #datatools #dataengineering
🔥5👍3
Всякие бесполезные факты о том как устроены открытые данные в мире:
1. Больше всего данных опубликовано на порталах на базе CKAN'а, каталога открытых данных с открытым кодом, несмотря на то что в мире много разного открытого ПО для публикации данных, CKAN остается лидером по использованию на национальном и международном уровнях. Главным образом из-за богатых возможностей расширения через плагины.
2. Крупнейшим коммерческим вендором SaaS порталов открытых данных является ArcGIS с их продуктом ArcGIS Hub. В мире несколько тысяч их порталов с открытыми данными, преимущественно с акцентом на геоданные, но ими не ограничивается. Точную цифру я не называю потому что хотя они и есть в реестре Dateno, но не все, их очень много.
3. Порталов данных публикующих связанные данные (Linked Data) очень мало и почти все они сосредоточены в Европе, более всего их в Северной Европе (Нидерланды, Швеция, Германия)
4. Почти все наборы данных для ИИ публикуются на Hugging Face и паре китайских сервисов. Не все, но явное большинство. Это то что можно назвать естественной монополией из-за удобных сервисов Hugging Face
5. Россия одна из немногих стран где открытые данные публикуются по собственным, весьма экзотичным стандартам, не имеющим вообще никакого отношения к мировым практикам - ни лучшим, ни худшим, вообще никаким
6. Очень много открытых данных публикуется в Таиланде и в Индонезии, там есть явно оформленные государственные инициативы и сотни тысяч опубликованных датасетов. Большая их часть - это мусор и Open by default, но факт остается фактом.
7. Почти во всех развитых странах акцент открытости данных идет на геоданные и на научные данные, а иные данные выделены в сфокусированные инициативы, часто международные.
8. У всех университетов в которых наука реально существует есть свои порталы раскрытия данных как часть порталов раскрытия научных результатов или как отдельные явления.
9. Если собрать все данные со всех порталов открытых данных государств в мире - это будет лишь доля процентов от крупнейших открытых репозиториев геномных данных и данных физических экспериментов и данных мониторинга поверхности Земли
#opendata #facts
1. Больше всего данных опубликовано на порталах на базе CKAN'а, каталога открытых данных с открытым кодом, несмотря на то что в мире много разного открытого ПО для публикации данных, CKAN остается лидером по использованию на национальном и международном уровнях. Главным образом из-за богатых возможностей расширения через плагины.
2. Крупнейшим коммерческим вендором SaaS порталов открытых данных является ArcGIS с их продуктом ArcGIS Hub. В мире несколько тысяч их порталов с открытыми данными, преимущественно с акцентом на геоданные, но ими не ограничивается. Точную цифру я не называю потому что хотя они и есть в реестре Dateno, но не все, их очень много.
3. Порталов данных публикующих связанные данные (Linked Data) очень мало и почти все они сосредоточены в Европе, более всего их в Северной Европе (Нидерланды, Швеция, Германия)
4. Почти все наборы данных для ИИ публикуются на Hugging Face и паре китайских сервисов. Не все, но явное большинство. Это то что можно назвать естественной монополией из-за удобных сервисов Hugging Face
5. Россия одна из немногих стран где открытые данные публикуются по собственным, весьма экзотичным стандартам, не имеющим вообще никакого отношения к мировым практикам - ни лучшим, ни худшим, вообще никаким
6. Очень много открытых данных публикуется в Таиланде и в Индонезии, там есть явно оформленные государственные инициативы и сотни тысяч опубликованных датасетов. Большая их часть - это мусор и Open by default, но факт остается фактом.
7. Почти во всех развитых странах акцент открытости данных идет на геоданные и на научные данные, а иные данные выделены в сфокусированные инициативы, часто международные.
8. У всех университетов в которых наука реально существует есть свои порталы раскрытия данных как часть порталов раскрытия научных результатов или как отдельные явления.
9. Если собрать все данные со всех порталов открытых данных государств в мире - это будет лишь доля процентов от крупнейших открытых репозиториев геномных данных и данных физических экспериментов и данных мониторинга поверхности Земли
#opendata #facts
✍6❤🔥1
Немного отвлекаясь от темы данных, про замедление Telegram в РФ сухо и тезисно.
Часть первая
Про Telegram
1. Telegram в России достиг высокого уровня проникновения в жёсткой конкурентной борьбе с другими мессенжерами благодаря множеству качественных параметров которые так просто не воспроизвести по причине создания эффективной экосистемы и высоко заданной планке скорости работы и прозрачности (открытый код, публичные аудиты шифрования и тд.)
2. Учитывая массовость его проникновения в массовую аудиторию и активное проникновение во все сферы жизни от частной переписки до использования бизнесом и органами власти его "замедление" это глобальный болезненный процесс для личных коммуникаций, бизнеса и организационных процессов для десятков миллионов людей.
3. Фактически владелец(-ы) Telegram'а находятся в ситуации ультиматума потерять российский рынок или мировой. Как бы ни была болезнена для них потеря российского рынка она более вероятна чем потеря существенной части мирового. А потери неизбежны при любом исходе текущей ситуации с "замеделением".
4. При этом полной потери российского рынка у Telegram не произойдет поскольку для многих Telegram не только стал привычной, но и срабатывает накопительный эффект. Огромные архивы сообщений, знаний, документов и иных материалов находятся именно в экосистеме Telegram'а и скорее многие из тех кто ещё не озаботился наличием VPN сервисов сделают это в течение короткого времени.
5. С учетом этого, скорее всего, Telegram потеряет не всю российскую аудиторию, а только наименее образованную, технически неграмотную и замкнутую только на внутрироссийские коммуникации.
Про мессенжер MAX
4. Мессенжер MAX которые де-факто предлагается политическими властями ему на замену был бы неплох обладай он хотя бы частью качественных характеристик Telegram'а, но ключевые его характеристики в нём не могут быть реализованы скорее по политическим чем по техническим причинам. Команда MAX'а не может открыть его код, не может обеспечить полную приватность переписки, не может гарантировать отсутствие доступа к данным переписки для органов власти.
5. Государственное продвижение MAX'а создало очень сильный обратный эффект и резкое неприятие пользователями как и любой жёстко навязываемый сервис. Декларируемые большие цифры охвата аудитории: а) Невозможно перепроверить. б) Ничего не говорят о реальном использовании, а не о полупринудительной регистрации в сервисе бюджетников и прочих слабозащищенных давлению лиц.
6. Попытки продвижения MAX'а как инструмента взаимодействия с гос-вом дезавуируют длительные усилия по развития экосистемы Госуслуг и других полностью государственных мобильных приложений и сервисов. Зачем получать сервисы через MAX если в России столь сильны позиции в fintech'е включая госбанки, если так хорошо было сделано приложение Госуслуг?
7. Можно констатировать что продвижение MAX'а через его потребительские качества провалилось, а насильственное продвижение вызывает лишь усиление сопротивления его использованию.
#thoughts #telegram #MAX
Часть первая
Про Telegram
1. Telegram в России достиг высокого уровня проникновения в жёсткой конкурентной борьбе с другими мессенжерами благодаря множеству качественных параметров которые так просто не воспроизвести по причине создания эффективной экосистемы и высоко заданной планке скорости работы и прозрачности (открытый код, публичные аудиты шифрования и тд.)
2. Учитывая массовость его проникновения в массовую аудиторию и активное проникновение во все сферы жизни от частной переписки до использования бизнесом и органами власти его "замедление" это глобальный болезненный процесс для личных коммуникаций, бизнеса и организационных процессов для десятков миллионов людей.
3. Фактически владелец(-ы) Telegram'а находятся в ситуации ультиматума потерять российский рынок или мировой. Как бы ни была болезнена для них потеря российского рынка она более вероятна чем потеря существенной части мирового. А потери неизбежны при любом исходе текущей ситуации с "замеделением".
4. При этом полной потери российского рынка у Telegram не произойдет поскольку для многих Telegram не только стал привычной, но и срабатывает накопительный эффект. Огромные архивы сообщений, знаний, документов и иных материалов находятся именно в экосистеме Telegram'а и скорее многие из тех кто ещё не озаботился наличием VPN сервисов сделают это в течение короткого времени.
5. С учетом этого, скорее всего, Telegram потеряет не всю российскую аудиторию, а только наименее образованную, технически неграмотную и замкнутую только на внутрироссийские коммуникации.
Про мессенжер MAX
4. Мессенжер MAX которые де-факто предлагается политическими властями ему на замену был бы неплох обладай он хотя бы частью качественных характеристик Telegram'а, но ключевые его характеристики в нём не могут быть реализованы скорее по политическим чем по техническим причинам. Команда MAX'а не может открыть его код, не может обеспечить полную приватность переписки, не может гарантировать отсутствие доступа к данным переписки для органов власти.
5. Государственное продвижение MAX'а создало очень сильный обратный эффект и резкое неприятие пользователями как и любой жёстко навязываемый сервис. Декларируемые большие цифры охвата аудитории: а) Невозможно перепроверить. б) Ничего не говорят о реальном использовании, а не о полупринудительной регистрации в сервисе бюджетников и прочих слабозащищенных давлению лиц.
6. Попытки продвижения MAX'а как инструмента взаимодействия с гос-вом дезавуируют длительные усилия по развития экосистемы Госуслуг и других полностью государственных мобильных приложений и сервисов. Зачем получать сервисы через MAX если в России столь сильны позиции в fintech'е включая госбанки, если так хорошо было сделано приложение Госуслуг?
7. Можно констатировать что продвижение MAX'а через его потребительские качества провалилось, а насильственное продвижение вызывает лишь усиление сопротивления его использованию.
#thoughts #telegram #MAX
👍19💯12🔥3❤2✍2