Почему нужно архивировать данные․ Каспийский трубопроводный консорциум ранее публиковал статистику по отгрузке нефтепродуктов на своём сайте. Теперь этот раздел недоступен [1], последняя публикация в интернет-архиве есть за март 2022 года. Похоже данные исчезли в март-апреле причём включая все исторические данные.
Другой пример, аналитика цен на недвижимость от сервиса Domofond. Данные перестали обновляться с апреля 2022 года [3]. Архивные данные остались, но новых данных нет. Почему данные перестали обновляться неизвестно.
Федеральное Казначейство с февраля не публикует ежемесячные отчеты об исполнении федерального бюджета [4]. Об этом уже многие писали данных далее становится постепенно всё меньше.
Не все эти данные являются открытыми в определении свободных лицензий, но это, безусловно, те общедоступные данные которые характеризуют состояние экономики.
Причём если писать о том что закрыли ещё можно, то лично я уже опасаюсь писать о тех данных которые ещё не закрыты. Потому что любые данные дающие реальную картину состояния экономики или общества могут исчезнуть.
Ссылки։
[1] https://www.cpc.ru/RU/operations/Pages/loading.aspx
[2] https://web.archive.org/web/20220314112004/https://www.cpc.ru/RU/operations/Pages/loading.aspx
[3] https://www.domofond.ru/tseny-na-nedvizhimost
[4] https://roskazna.gov.ru/ispolnenie-byudzhetov/federalnyj-byudzhet/1020/
#opendata #data #russia
Другой пример, аналитика цен на недвижимость от сервиса Domofond. Данные перестали обновляться с апреля 2022 года [3]. Архивные данные остались, но новых данных нет. Почему данные перестали обновляться неизвестно.
Федеральное Казначейство с февраля не публикует ежемесячные отчеты об исполнении федерального бюджета [4]. Об этом уже многие писали данных далее становится постепенно всё меньше.
Не все эти данные являются открытыми в определении свободных лицензий, но это, безусловно, те общедоступные данные которые характеризуют состояние экономики.
Причём если писать о том что закрыли ещё можно, то лично я уже опасаюсь писать о тех данных которые ещё не закрыты. Потому что любые данные дающие реальную картину состояния экономики или общества могут исчезнуть.
Ссылки։
[1] https://www.cpc.ru/RU/operations/Pages/loading.aspx
[2] https://web.archive.org/web/20220314112004/https://www.cpc.ru/RU/operations/Pages/loading.aspx
[3] https://www.domofond.ru/tseny-na-nedvizhimost
[4] https://roskazna.gov.ru/ispolnenie-byudzhetov/federalnyj-byudzhet/1020/
#opendata #data #russia
😢18❤10👍1
Полезное чтение про данные, технологи и не только. Сегодня выпуск посвящённый ИИ։
- PubMedGPT 2.7B [1] языковая модель для задач работы с текстами в области биомедицины. Пока есть гипотезы что языковые модели и продукты на их основе могут подорвать бизнес Google, тем временем можно точно предсказать что у учёных скоро будут инструменты-помощники в исследованиях. В биоинформатике и медицине точно.
- Petals [2] инструмент с открытым кодом для запуска до 100+ языковых моделей без дорогостоящего железа. Вполне возможно может упростить и удешевить работу с такими моделями.
- New software based on Artificial Intelligence helps to interpret complex data [3] ПО для интерпретации сложных данных. Основано на само-обучающихся нейросетях. Описание звучит интересно. Область применения в фотонной диагностике на электронных лазерах.
- 2022: A Year Full of Amazing AI papers- A Review [4] много ссылок на интересные статьи про ИИ за 2022 год. Всегда можно найти что-то что раньше пропустил
- 2 coders made a teleprompter AI that suggests smart things to say during your work meetings [5] два разработчика сделали бота подсказчика для совещаний. На базе GPT-3 и слушающий что Вы говорите и подсказывающий что говорить дальше
- Natural Language Processing Market Size to Reach USD 98.05 Billion in 2030 | Emergen Research [6] а это пожалуй одна из важнейших новостей, оценка рынка естественной обработки языка в 98 миллиардов долларов США к 2030 году. Это очень и очень скоро.
- Face Recognition Tech Gets Girl Scout Mom Booted From Rockettes Show — Due to Where She Works [7] реальная история о том как на женщину не пропустили на мероприятие от MSG Entertainment поскольку она была среди юристов которые в другом городе вели производство по одному из дел против компании. Всех юристов ведущих дела против компании добавили в систему распознавания лиц и её идентифицировали автоматически и уведомили охрану.
Ссылки։
[1] https://crfm.stanford.edu/2022/12/15/pubmedgpt.html
[2] https://github.com/bigscience-workshop/petals
[3] https://www.sciencedaily.com/releases/2022/12/221220112957.htm
[4] https://github.com/louisfb01/best_AI_papers_2022
[5] https://www.businessinsider.com/tele-prompt-ai-gpt-3-bot-what-to-say-meetings-2022-12
[6] https://finance.yahoo.com/news/natural-language-processing-market-size-193000299.html
[7] https://www.nbcnewyork.com/investigations/face-recognition-tech-gets-girl-scout-mom-booted-from-rockettes-show-due-to-her-employer/4004677/
#data #ai #technology #readings
- PubMedGPT 2.7B [1] языковая модель для задач работы с текстами в области биомедицины. Пока есть гипотезы что языковые модели и продукты на их основе могут подорвать бизнес Google, тем временем можно точно предсказать что у учёных скоро будут инструменты-помощники в исследованиях. В биоинформатике и медицине точно.
- Petals [2] инструмент с открытым кодом для запуска до 100+ языковых моделей без дорогостоящего железа. Вполне возможно может упростить и удешевить работу с такими моделями.
- New software based on Artificial Intelligence helps to interpret complex data [3] ПО для интерпретации сложных данных. Основано на само-обучающихся нейросетях. Описание звучит интересно. Область применения в фотонной диагностике на электронных лазерах.
- 2022: A Year Full of Amazing AI papers- A Review [4] много ссылок на интересные статьи про ИИ за 2022 год. Всегда можно найти что-то что раньше пропустил
- 2 coders made a teleprompter AI that suggests smart things to say during your work meetings [5] два разработчика сделали бота подсказчика для совещаний. На базе GPT-3 и слушающий что Вы говорите и подсказывающий что говорить дальше
- Natural Language Processing Market Size to Reach USD 98.05 Billion in 2030 | Emergen Research [6] а это пожалуй одна из важнейших новостей, оценка рынка естественной обработки языка в 98 миллиардов долларов США к 2030 году. Это очень и очень скоро.
- Face Recognition Tech Gets Girl Scout Mom Booted From Rockettes Show — Due to Where She Works [7] реальная история о том как на женщину не пропустили на мероприятие от MSG Entertainment поскольку она была среди юристов которые в другом городе вели производство по одному из дел против компании. Всех юристов ведущих дела против компании добавили в систему распознавания лиц и её идентифицировали автоматически и уведомили охрану.
Ссылки։
[1] https://crfm.stanford.edu/2022/12/15/pubmedgpt.html
[2] https://github.com/bigscience-workshop/petals
[3] https://www.sciencedaily.com/releases/2022/12/221220112957.htm
[4] https://github.com/louisfb01/best_AI_papers_2022
[5] https://www.businessinsider.com/tele-prompt-ai-gpt-3-bot-what-to-say-meetings-2022-12
[6] https://finance.yahoo.com/news/natural-language-processing-market-size-193000299.html
[7] https://www.nbcnewyork.com/investigations/face-recognition-tech-gets-girl-scout-mom-booted-from-rockettes-show-due-to-her-employer/4004677/
#data #ai #technology #readings
GitHub
GitHub - bigscience-workshop/petals: 🌸 Run LLMs at home, BitTorrent-style. Fine-tuning and inference up to 10x faster than offloading
🌸 Run LLMs at home, BitTorrent-style. Fine-tuning and inference up to 10x faster than offloading - bigscience-workshop/petals
🔥5❤2👍2
В рубрике интересных наборов данных большая коллекция коллекций геопространственных наборов данных geospatial-data-catalogs [1] включает наборы данных из։
- AWS Open Data
- AWS Open Geospatial Data
- AWS Open Geospatial Data with STAC endpoint
- STAC Index Catalogs
- Earth Engine Catalog
- Planetary Computer Catalog
В общей сложности это более 2000 наборов данных довольно большого объёма, многие из них - это спутниковые снимки, а также все метаданные извлечённые из первоисточников.
Обратите внимание, ни один из этих каталогов не является государственным. Earth Engine Catalog - это Google, Planetary Computer Catalog - это Microsoft, каталоги на AWS - это Amazon, а STAC Index - это общественный каталог вокруг спецификации STAC [2].
А также не могу не напомнить о слегка олдскульном, но любопытном каталоге общедоступных инсталляций ArcGIS [3].
Геоданных становится всё больше, думаю что рано или поздно большая часть госпорталов открытых данных будут поддерживать спецификацию STAC, а открытые каталоги big tech корпораций будут агрегировать их оттуда.
Ссылки։
[1] https://github.com/giswqs/geospatial-data-catalogs
[2] https://stacspec.org/en
[3] https://mappingsupport.com/p/surf_gis/list-federal-state-county-city-GIS-servers.pdf
#opendata #geodata #geospatial #datacatalogs
- AWS Open Data
- AWS Open Geospatial Data
- AWS Open Geospatial Data with STAC endpoint
- STAC Index Catalogs
- Earth Engine Catalog
- Planetary Computer Catalog
В общей сложности это более 2000 наборов данных довольно большого объёма, многие из них - это спутниковые снимки, а также все метаданные извлечённые из первоисточников.
Обратите внимание, ни один из этих каталогов не является государственным. Earth Engine Catalog - это Google, Planetary Computer Catalog - это Microsoft, каталоги на AWS - это Amazon, а STAC Index - это общественный каталог вокруг спецификации STAC [2].
А также не могу не напомнить о слегка олдскульном, но любопытном каталоге общедоступных инсталляций ArcGIS [3].
Геоданных становится всё больше, думаю что рано или поздно большая часть госпорталов открытых данных будут поддерживать спецификацию STAC, а открытые каталоги big tech корпораций будут агрегировать их оттуда.
Ссылки։
[1] https://github.com/giswqs/geospatial-data-catalogs
[2] https://stacspec.org/en
[3] https://mappingsupport.com/p/surf_gis/list-federal-state-county-city-GIS-servers.pdf
#opendata #geodata #geospatial #datacatalogs
GitHub
GitHub - opengeos/geospatial-data-catalogs: A list of open geospatial datasets available on AWS, Earth Engine, Planetary Computer…
A list of open geospatial datasets available on AWS, Earth Engine, Planetary Computer, NASA CMR, and STAC Index - opengeos/geospatial-data-catalogs
👍10
По поводу Единой биометрической базы данных в России мне много что есть сказать, про разного рода политические аспекты многие журналисты написали, пишут или напишут.
Я же скажу про технические и регуляторные։
1. Важно понимать что прежде чем сама идея единой биометрической базы возникла многие российские компании много инвестировали в биометрию, сбор данных их клиентов и тд. Их причины были рыночными, где-то для защиты от мошенников, где-то для коммерческой слежки (читаем Surveillance capitalism).
2. Для всех этих компаний создаваемая база - это проблема, достаточно серьёзная. Они все теперь зажаты в очень жёсткие рамки, где государство во всём ограничивает компании прикрываясь интересами граждан и никак не ограничивает спецслужбы и, потенциально, другие органы власти.
3. Почему государство прикрывается интересами граждан? Потому что реальная забота об интересах граждан - это усиление граждан в судах и возможность получения значительной компенсации при нарушении прав. А регулирование через штрафы и запреты усиливает не граждан, а те органы власти которые это регулирование будут осуществлять.
4. Это важный аспект перестройки коммуникации с рынками работающими с пользовательскими данными. Стратегия росийского Пр-ва сейчас в том чтобы перевести частный бизнес в подчинённое состояние. Это модель существования "мы вам не мешаем, пока вы делаете то что вам скажут". Это касается не только ЕБС, но тут живой и близкий пример.
5. Это, кстати, касается и всего GR последних лет. Большая часть GR активностей компаний была построена на ситуациях срочной реакции на законопроекты в стиле "сейчас мы вам всем открутим яйца прикрываясь какой-нибудь хренью!" и компании пытались отбиваться чтобы "яйца открутили только чуть-чуть" или "не совсем оторвали". За этим образом скрывается существование исключительно в модели защитного GR.
6. Конечно, единственные выгодоприобретатели это спецслужбы, МВД и потенциальные другие органы власти которые могут получить доступ к этой базе. Ограничения на доступ к ней ровно на столько насколько спецслужбы и МВД бояться что они могут следить друг за другом. Насколько они друг другу не доверяют, насколько они в конфликте, настолько наложены ограничения,но не более
7. Это важно, потому что права гражданина никто сейчас не защищает. Потому что права в законе начинаются и заканчиваются на том что "гражданин имеет право не сдавать биометрию" и то что бизнес не имеет право "принуждать" к его сдаче. Ну, способы принуждения бывают разные. Самый простой - это вписывание в условия договора мелким шрифтом. Да, ты можешь отказаться, если прочитаешь, если обратишь внимание, наверное этот пункт могут вычеркнуть.
8. А если твои данные уже будут в ЕБС то что-как? Права заканчиваются ? А что с ошибками ? А что с разбором инцидентов ? Типа это не для закона ? Нет, это несёрьёзно. Но, повторюсь, права гражданина сейчас никто не защищает.
9. Добавлю что с точки зрения информационной безопасности создание единой базы данных - это, скорее, проблема чем возможность. Единая база - это единая точка сбоя, единый источник утечки и масштабные неуправляемые последствия в случае если это произойдёт.
На этом фоне нельзя не отметить что начинают затыкать рот тем кто выступает против слежки и активно об этом говорит. Например, признание инагентами ребят из Роскомсвободы, не говоря уже о десятках журналистов, многие из которых писали про усиление слежки в России.
Тенденция плохая, не говоря уже о том что лично меня много лет уже поражает насколько российские законотворцы не думают о собственном будущем. Внедрение массовой слежки даёт возможность следить не только за всеми, но и за ними. Это примерно как принять закон о том чтобы создать комнату с компроматом на себя и вручить ключи правоохранителям.
#russia #regulation #privacy #security
Я же скажу про технические и регуляторные։
1. Важно понимать что прежде чем сама идея единой биометрической базы возникла многие российские компании много инвестировали в биометрию, сбор данных их клиентов и тд. Их причины были рыночными, где-то для защиты от мошенников, где-то для коммерческой слежки (читаем Surveillance capitalism).
2. Для всех этих компаний создаваемая база - это проблема, достаточно серьёзная. Они все теперь зажаты в очень жёсткие рамки, где государство во всём ограничивает компании прикрываясь интересами граждан и никак не ограничивает спецслужбы и, потенциально, другие органы власти.
3. Почему государство прикрывается интересами граждан? Потому что реальная забота об интересах граждан - это усиление граждан в судах и возможность получения значительной компенсации при нарушении прав. А регулирование через штрафы и запреты усиливает не граждан, а те органы власти которые это регулирование будут осуществлять.
4. Это важный аспект перестройки коммуникации с рынками работающими с пользовательскими данными. Стратегия росийского Пр-ва сейчас в том чтобы перевести частный бизнес в подчинённое состояние. Это модель существования "мы вам не мешаем, пока вы делаете то что вам скажут". Это касается не только ЕБС, но тут живой и близкий пример.
5. Это, кстати, касается и всего GR последних лет. Большая часть GR активностей компаний была построена на ситуациях срочной реакции на законопроекты в стиле "сейчас мы вам всем открутим яйца прикрываясь какой-нибудь хренью!" и компании пытались отбиваться чтобы "яйца открутили только чуть-чуть" или "не совсем оторвали". За этим образом скрывается существование исключительно в модели защитного GR.
6. Конечно, единственные выгодоприобретатели это спецслужбы, МВД и потенциальные другие органы власти которые могут получить доступ к этой базе. Ограничения на доступ к ней ровно на столько насколько спецслужбы и МВД бояться что они могут следить друг за другом. Насколько они друг другу не доверяют, насколько они в конфликте, настолько наложены ограничения,но не более
7. Это важно, потому что права гражданина никто сейчас не защищает. Потому что права в законе начинаются и заканчиваются на том что "гражданин имеет право не сдавать биометрию" и то что бизнес не имеет право "принуждать" к его сдаче. Ну, способы принуждения бывают разные. Самый простой - это вписывание в условия договора мелким шрифтом. Да, ты можешь отказаться, если прочитаешь, если обратишь внимание, наверное этот пункт могут вычеркнуть.
8. А если твои данные уже будут в ЕБС то что-как? Права заканчиваются ? А что с ошибками ? А что с разбором инцидентов ? Типа это не для закона ? Нет, это несёрьёзно. Но, повторюсь, права гражданина сейчас никто не защищает.
9. Добавлю что с точки зрения информационной безопасности создание единой базы данных - это, скорее, проблема чем возможность. Единая база - это единая точка сбоя, единый источник утечки и масштабные неуправляемые последствия в случае если это произойдёт.
На этом фоне нельзя не отметить что начинают затыкать рот тем кто выступает против слежки и активно об этом говорит. Например, признание инагентами ребят из Роскомсвободы, не говоря уже о десятках журналистов, многие из которых писали про усиление слежки в России.
Тенденция плохая, не говоря уже о том что лично меня много лет уже поражает насколько российские законотворцы не думают о собственном будущем. Внедрение массовой слежки даёт возможность следить не только за всеми, но и за ними. Это примерно как принять закон о том чтобы создать комнату с компроматом на себя и вручить ключи правоохранителям.
#russia #regulation #privacy #security
👍34👏8🔥3💯1
В рубрике как это работает у них визуализация стоимости аренды квадратного метра жилья во Франции. Автору в комментариях пишут что надо бы добавить градацию от 20 до 30 евро для Парижа, но в целом и так очень наглядно. А главное что визуализация на открытых государственных данных Министерства экологического перехода страны (Ministère de la Transition écologiqueю). Данные сверхгранулированные, гораздо более детальные чем муниципальное деление. Подробнее в файлах и в методологии.
Ссылки։
[1] https://twitter.com/BorisMericskay/status/1607437455656902657/photo/1
[2] https://www.data.gouv.fr/fr/datasets/carte-des-loyers-indicateurs-de-loyers-dannonce-par-commune-en-2022/
#opendata #france #datasets
Ссылки։
[1] https://twitter.com/BorisMericskay/status/1607437455656902657/photo/1
[2] https://www.data.gouv.fr/fr/datasets/carte-des-loyers-indicateurs-de-loyers-dannonce-par-commune-en-2022/
#opendata #france #datasets
❤13👍1
В рубрике как это работает у них, французский портал code.gouv.fr [1] посвящённый использованию открытого кода. Содержит данные о 15 114 репозиториях кода созданных органами власти и госучреждениями Франции. Например, не все знают что язык программирования OCaml создан и поддерживается французским Institute for Research in Computer Science and Automation (INRIA). Или вот язык программирования Catala [2] для описания юридических текстов.
Причём код размещён не только на Github'е, но и на десятках инсталляций Gitlab.
Много кода завязано на открытые данные. Во Франции есть своя экосистема открытости госданных, она построена на движке udata и наборе собственных открытых инфраструктурных сервисов.
Ну и помимо всего прочего там же отдельные разделы с информацией о зависимости кода от внешних библиотек и реестр рекомендуемого открытого ПО.
Ссылки։
[1] https://code.gouv.fr
[2] https://github.com/CatalaLang/catala
#opensource #france
Причём код размещён не только на Github'е, но и на десятках инсталляций Gitlab.
Много кода завязано на открытые данные. Во Франции есть своя экосистема открытости госданных, она построена на движке udata и наборе собственных открытых инфраструктурных сервисов.
Ну и помимо всего прочего там же отдельные разделы с информацией о зависимости кода от внешних библиотек и реестр рекомендуемого открытого ПО.
Ссылки։
[1] https://code.gouv.fr
[2] https://github.com/CatalaLang/catala
#opensource #france
👍10🔥1
47.8 миллионов километров дорог распознано в картах Bing и выложено Microsoft онлайн в виде открытых данных под лицензией ODbl [1]. В данных совсем нет Китая, Японии, Кореи, Папуа Новая-Гвинея.
Но Россия есть, и обитаемая зона её не так велика как географическая.
Все данные в формате TSV, сжатый объём около 10GB.
Ссылки։
[1] https://github.com/microsoft/RoadDetections
#opendata #datasets #microsoft
Но Россия есть, и обитаемая зона её не так велика как географическая.
Все данные в формате TSV, сжатый объём около 10GB.
Ссылки։
[1] https://github.com/microsoft/RoadDetections
#opendata #datasets #microsoft
👍23🔥3
Новый год приближается очень быстро, можно подвести краткие итоги. В этом году я очень много писал в телеграм канал, более 1000 публикаций. Читателей стало больше, но всё ещё разумное количество. Много репостов и просмотров, много реакций и комментариев.
Я начинал этот канал как записную книжку о прочитанном, просмотренном, обдуманном и большую часть времени так и продолжаю его вести. Спасибо что читаете!
Я начинал этот канал как записную книжку о прочитанном, просмотренном, обдуманном и большую часть времени так и продолжаю его вести. Спасибо что читаете!
👍53❤9🍾5🙏3
Свежее регулирование от Еврокомиссии определяющее раскрытие особо ценных наборов данных (high value datasets) [1].
Охватывает ключевые наборы данных по таким темам как։
- Geospatial
- Earth observation and environment
- Meteorological
- Statistics
- Companies and company ownership
- Mobility
Все данные должны публиковаться под лицензиями CC0 или CC-BY, через API и доступными для массовой выгрузки (bulk download). Еврокомиссия будет мониторить раскрытие данных и раз в два года собирать отчет о выполнении этой директивы.
Обратите внимание, что в этих списках не так много данных о финансах, к примеру, и даже раскрытие по компаниям не так подробно как могло бы быть. Нет данных о бюджетах, о госконтрактах и ещё много чего.
Зато очень много данных связанных с качеством жизни - это данных об окружающей среде, загрязнении воздуха, воды, земли и многое другое.
Поэтому хотя и это регулирование не идеальное, но оно важное и надеюсь оно будет далее расширяться. Причём за основу можно было бы взять данные перечисленные в Global Data Barometer
Можно сравнить эту директиву с регулированием в Казахстане о котором я писал недавно. И найти отличия. Подсказка։ в Казахстане нет ни свободного доступа, ни открытых лицензий, ни иной конкретики.
Про Россию даже писать здесь нечего. Российские НПА требуют раскрытия огромного объёма бессмысленных данных и игнорируют раскрытие реально значимых. Ненужных данных много, нужные всё сложнее получить.
Ссылки։
[1] https://eur-lex.europa.eu/legal-content/EN/TXT/?uri=PI_COM:C(2022)9562
#opendata #datasets #europe
Охватывает ключевые наборы данных по таким темам как։
- Geospatial
- Earth observation and environment
- Meteorological
- Statistics
- Companies and company ownership
- Mobility
Все данные должны публиковаться под лицензиями CC0 или CC-BY, через API и доступными для массовой выгрузки (bulk download). Еврокомиссия будет мониторить раскрытие данных и раз в два года собирать отчет о выполнении этой директивы.
Обратите внимание, что в этих списках не так много данных о финансах, к примеру, и даже раскрытие по компаниям не так подробно как могло бы быть. Нет данных о бюджетах, о госконтрактах и ещё много чего.
Зато очень много данных связанных с качеством жизни - это данных об окружающей среде, загрязнении воздуха, воды, земли и многое другое.
Поэтому хотя и это регулирование не идеальное, но оно важное и надеюсь оно будет далее расширяться. Причём за основу можно было бы взять данные перечисленные в Global Data Barometer
Можно сравнить эту директиву с регулированием в Казахстане о котором я писал недавно. И найти отличия. Подсказка։ в Казахстане нет ни свободного доступа, ни открытых лицензий, ни иной конкретики.
Про Россию даже писать здесь нечего. Российские НПА требуют раскрытия огромного объёма бессмысленных данных и игнорируют раскрытие реально значимых. Ненужных данных много, нужные всё сложнее получить.
Ссылки։
[1] https://eur-lex.europa.eu/legal-content/EN/TXT/?uri=PI_COM:C(2022)9562
#opendata #datasets #europe
👍10❤4❤🔥1
Если говорить про рынки основанные на данных, то 2022 год - это, безусловно, год Generative AI. Многие уже видели подборку продуктов в этой области [1] и это далеко не все продукты. Следующий год будет проходить под девизом "какую следующую креативную профессию мы собираемся [уничтожить] автоматизировать?".
На втором уровне этого рынка стремительно растёт вопрос на данные которыми можно обучать языковые модели, генеративные сервисы и иные многочисленные продукты.
Многие нынешние лидеры рынков проверки орфографии, поиска, чат-ботов, личных помощников, сервисов электронной почты и тд. столкнутся с необходимостью ожесточенной конкуренции с новичками, дающими лучший сервис с помощью ИИ.
P.S․ В данном случае ИИ это уже не только машинное обучение, но именно огромные языковые модели.
Ссылки։
[1] https://t.co/QiNl7VP8oI
#ai #itmarket #endoftheyear
На втором уровне этого рынка стремительно растёт вопрос на данные которыми можно обучать языковые модели, генеративные сервисы и иные многочисленные продукты.
Многие нынешние лидеры рынков проверки орфографии, поиска, чат-ботов, личных помощников, сервисов электронной почты и тд. столкнутся с необходимостью ожесточенной конкуренции с новичками, дающими лучший сервис с помощью ИИ.
P.S․ В данном случае ИИ это уже не только машинное обучение, но именно огромные языковые модели.
Ссылки։
[1] https://t.co/QiNl7VP8oI
#ai #itmarket #endoftheyear
⚡8👍3
2023 год наступил, я под него откладывал набор предсказаний, предположений, мыслей того что нас ждёт в этом году. В этом году мой список будет краток и, почти наверняка неполон.
Технологический рынок в целом
- несомненно 2023 год будет годом Generative AI. Везде где хоть как-то создаётся любой контент появится, или расширение существующих, или новые продукты
- стартапы и продукты в этой области будут появляться до 100+ в месяц
- реальный масштаб изменений пока до конца оценить, но он будет велик, без сомнений
Рынок данных
- будет всплеск потребности данных для языковых моделей, рынок сбора данных значительно адаптируется под ИИ
- концепция Modern Data Stack постепенно будет размываться, возможно исчезнет из основного лексикона
- продукты корпоративных каталогов данных будут терять клиентов и востребованность, поскольку функции data lineage будут полноценно реализовывать крупные облачные хранилища данных которыми управляют Google, AWS, Amazon и др.
Открытые данные
- наибольшая активность в этом году будет в темах публичных каталогов данных от Big Tech, данных для машинного обучения и открытых научных данных (FAIR и Open Access)
- усилится работа с открытыми данными в ООН и других межгосударственных структурах
- на государственном уровне в большинстве стран будет некая стагнация, не сильно хуже, не сильно лучше.
- в России открытость государства будет снижаться, затронет это и открытые данные и иные общедоступные ранее данные. В первую очередь любые данные дающие прямую или косвенную оценку состояния экономики и общества.
Государства и регулирование
- будет больше партнерств big tech и национальных правительств. Для создания языковых моделей для национальных языков, для распространения доступа к интернету, для повышения доступности технологий и тд.
- продолжится тренд на усиление регулирования персональных данных по всему миру, давления на big tech по локализации присутствия, центров обработки данных и тд.
- в России начнут применять оборотные штрафы к бизнесу, но к госкорпам и госорганам их не применят/их применение будет невозможно
#opendata #data #dataengineering #government #predictions
Технологический рынок в целом
- несомненно 2023 год будет годом Generative AI. Везде где хоть как-то создаётся любой контент появится, или расширение существующих, или новые продукты
- стартапы и продукты в этой области будут появляться до 100+ в месяц
- реальный масштаб изменений пока до конца оценить, но он будет велик, без сомнений
Рынок данных
- будет всплеск потребности данных для языковых моделей, рынок сбора данных значительно адаптируется под ИИ
- концепция Modern Data Stack постепенно будет размываться, возможно исчезнет из основного лексикона
- продукты корпоративных каталогов данных будут терять клиентов и востребованность, поскольку функции data lineage будут полноценно реализовывать крупные облачные хранилища данных которыми управляют Google, AWS, Amazon и др.
Открытые данные
- наибольшая активность в этом году будет в темах публичных каталогов данных от Big Tech, данных для машинного обучения и открытых научных данных (FAIR и Open Access)
- усилится работа с открытыми данными в ООН и других межгосударственных структурах
- на государственном уровне в большинстве стран будет некая стагнация, не сильно хуже, не сильно лучше.
- в России открытость государства будет снижаться, затронет это и открытые данные и иные общедоступные ранее данные. В первую очередь любые данные дающие прямую или косвенную оценку состояния экономики и общества.
Государства и регулирование
- будет больше партнерств big tech и национальных правительств. Для создания языковых моделей для национальных языков, для распространения доступа к интернету, для повышения доступности технологий и тд.
- продолжится тренд на усиление регулирования персональных данных по всему миру, давления на big tech по локализации присутствия, центров обработки данных и тд.
- в России начнут применять оборотные штрафы к бизнесу, но к госкорпам и госорганам их не применят/их применение будет невозможно
#opendata #data #dataengineering #government #predictions
👍19
В рубрике как это работает у них, проект FairSharing [1] база стандартов, политик и баз данных/каталогов данных связанных с научными исследованиями.
В общей сложности в базе собраны։
- 1973 баз данных
- 1646 стандартов
- 159 политик
- 3487 организаций
Важная особенность в том что все материалы тщательно перелинкованы, включают ссылки на научные публикации, информацию об организациях, их роли и так далее.
Это курируемый каталог, с командой из 8 человек из Data Readiness Group из Университета Оксфорда [2] и десятков если не сотен исследователей вовлеченных в его наполнение.
Изначально специализация команды была в биомедицине, бионауках и всё что подпадает под life sciences, поэтому можно заметить что и FairSharing содержит более всего ресурсов по медицине и биологии, а также то что в самом каталоге есть возможность фильтрации по материалам относящимся к видам животных. Тем не менее, сейчас проект развивается скорее как универсальный. К примеру, уже много материалов по компьютерным наукам и совсем мало по экономике.
Материалов связанных с Россией там очень мало, с другими постсоветскими странами. Есть данные по метеорологии, несколько баз данных по биологии и генетике, профинансированных РНФ, и несколько баз созданных ещё в советское время в рамках World Data Centers.
При этом данные интегрированы с проектами Re3Data от DataCite и ROR.
Лично меня удивило только что сделан он на самостоятельно разработанном движке, а не на Wikidata, к примеру, который смотрится почти идеально для подобных задач. С другой стороны у продуктов на базе Mediawiki и Wikidata свои ограничения, несомненно собственный движок гораздо гибче.
Ссылки։
[1] https://fairsharing.org/
[2] https://datareadiness.eng.ox.ac.uk/
#openaccess #opendata #fair #datastandards
В общей сложности в базе собраны։
- 1973 баз данных
- 1646 стандартов
- 159 политик
- 3487 организаций
Важная особенность в том что все материалы тщательно перелинкованы, включают ссылки на научные публикации, информацию об организациях, их роли и так далее.
Это курируемый каталог, с командой из 8 человек из Data Readiness Group из Университета Оксфорда [2] и десятков если не сотен исследователей вовлеченных в его наполнение.
Изначально специализация команды была в биомедицине, бионауках и всё что подпадает под life sciences, поэтому можно заметить что и FairSharing содержит более всего ресурсов по медицине и биологии, а также то что в самом каталоге есть возможность фильтрации по материалам относящимся к видам животных. Тем не менее, сейчас проект развивается скорее как универсальный. К примеру, уже много материалов по компьютерным наукам и совсем мало по экономике.
Материалов связанных с Россией там очень мало, с другими постсоветскими странами. Есть данные по метеорологии, несколько баз данных по биологии и генетике, профинансированных РНФ, и несколько баз созданных ещё в советское время в рамках World Data Centers.
При этом данные интегрированы с проектами Re3Data от DataCite и ROR.
Лично меня удивило только что сделан он на самостоятельно разработанном движке, а не на Wikidata, к примеру, который смотрится почти идеально для подобных задач. С другой стороны у продуктов на базе Mediawiki и Wikidata свои ограничения, несомненно собственный движок гораздо гибче.
Ссылки։
[1] https://fairsharing.org/
[2] https://datareadiness.eng.ox.ac.uk/
#openaccess #opendata #fair #datastandards
👍7
Полезное чтение про ИИ, языковые модели и не только։
- The Dark Risk of Large Language Models [1] от Gary Marcus об ограничениях языковых моделей и с предсказанием о том что в 2023 году хотя бы один человек умрёт/погибнет из-за советов или общения с чат-ботом
- AGI Debate [2] видеозапись недавних дебатов о возможности создания полноценного ИИ и прогресс текущих технологий по приближении к нему. Ведущий всё тот же Gary Marcus, а среди участников Noam Chomsky.
- Database of AI tools for every use case [3] подборка свежих отобранных инструментов на базе ИИ, чаще всего на базе ChatGPT. Много ссылок с описанием.
- Future Tools [4] база из 246 продуктов/стартапов разделённых по темам. Обновления чуть ли не ежедневно и тематические подборки там весьма неплохие. Думаю что и этот список неполон и реально сервисов и продуктов куда больше. Большая часть основаны на GPT-3 и ChatGPT.
- ChatGPT generated content vs McKinsey article on "How tools like ChatGPT can change your business" [5] консультанты из McKinsey написали статью о том как инструменты вроде ChatGPT могут поменять Ваш бизнес, а один из читателей попросил ChatGPT написать альтернативную таблицу применения ChatGPT по сравнению с той что была в статье. В комментариях многие пишут что в случае McKinsey важно не только содержание, но бренд.
Ссылки։
[1] https://www.wired.com/story/large-language-models-artificial-intelligence/
[2] https://www.youtube.com/watch?v=JGiLz_Jx9uI&t=393s
[3] https://bensbites.beehiiv.com/p/database-ai-tools-every-use-case
[4] https://www.futuretools.io/
[5] https://www.linkedin.com/feed/update/urn:li:share:7014223165421666304/
#ai #readings
- The Dark Risk of Large Language Models [1] от Gary Marcus об ограничениях языковых моделей и с предсказанием о том что в 2023 году хотя бы один человек умрёт/погибнет из-за советов или общения с чат-ботом
- AGI Debate [2] видеозапись недавних дебатов о возможности создания полноценного ИИ и прогресс текущих технологий по приближении к нему. Ведущий всё тот же Gary Marcus, а среди участников Noam Chomsky.
- Database of AI tools for every use case [3] подборка свежих отобранных инструментов на базе ИИ, чаще всего на базе ChatGPT. Много ссылок с описанием.
- Future Tools [4] база из 246 продуктов/стартапов разделённых по темам. Обновления чуть ли не ежедневно и тематические подборки там весьма неплохие. Думаю что и этот список неполон и реально сервисов и продуктов куда больше. Большая часть основаны на GPT-3 и ChatGPT.
- ChatGPT generated content vs McKinsey article on "How tools like ChatGPT can change your business" [5] консультанты из McKinsey написали статью о том как инструменты вроде ChatGPT могут поменять Ваш бизнес, а один из читателей попросил ChatGPT написать альтернативную таблицу применения ChatGPT по сравнению с той что была в статье. В комментариях многие пишут что в случае McKinsey важно не только содержание, но бренд.
Ссылки։
[1] https://www.wired.com/story/large-language-models-artificial-intelligence/
[2] https://www.youtube.com/watch?v=JGiLz_Jx9uI&t=393s
[3] https://bensbites.beehiiv.com/p/database-ai-tools-every-use-case
[4] https://www.futuretools.io/
[5] https://www.linkedin.com/feed/update/urn:li:share:7014223165421666304/
#ai #readings
WIRED
The Dark Risk of Large Language Models
AI is better at fooling humans than ever—and the consequences will be serious.
👍9❤1
Восстанавливаю привычку писать в блог тексты длиннее половины страницы. Написал в рассылку большой пост [1] про общедоступные каталоги межгосударственных структур вроде ООН того как они развиваются и с множеством примеров каталогов данных таких организаций.
Если коротко։
1. Развиваются хорошо, открытых данных всё больше
2. Десятки порталов открытых данных создано межгосударственными структурами.
Ссылки։
[1] https://begtin.substack.com/p/cb4
#opendata #un #datasets #blogging
Если коротко։
1. Развиваются хорошо, открытых данных всё больше
2. Десятки порталов открытых данных создано межгосударственными структурами.
Ссылки։
[1] https://begtin.substack.com/p/cb4
#opendata #un #datasets #blogging
🔥7👍4
В рубрике интересных проектов на открытых данных и создающих открытые данные база DB Nomics [1]. Это общедоступная база открытых данных показателей собранных из 65 источников таких как UN Data, портал открытых данных Всемирного банка, данные центральных банков многих стран, Евростата и так далее. Даже с сайта российского Росстата собирается несколько показателей [2]. Все содержимое сайта доступно через через открытое API [3] и в репозиториях на Git вместе с его кодом, который также полностью открыт [4]. Кроме того существуют клиенты для доступа к данным для языков программирования Python, R, Julia и для продуктов Mathlab, Stata и многих других. В общей сложности там собрано 24862 показателя, многие из которых обновляются ежедневно.
DB Nomics можно отнести к проектам для исследователей экономистов. Его команда работает во французском мозговом центре CEPREMAP и данные индикаторов, собираемых в проекте, используются для формирования макроэкномических моделей и прогнозов․ Таких как Macroeconomic outlook [5] от 23 декабря 2022 года.
Проектов собирающих данные показателей по странам довольно много, но важное отличие именно DB Nomics в открытости данных и кода и при этом довольно высоком качестве реализации.
Ссылки։
[1] https://db.nomics.world/
[2] https://db.nomics.world/ROSSTAT
[3] https://api.db.nomics.world/v22/apidocs
[4] https://git.nomics.world/dbnomics
[5] https://www.cepremap.fr/depot/2022/12/2022-12-23-Macroeconomic-Outlook.pdf
#opendata #dataset #economy #france #indicators
DB Nomics можно отнести к проектам для исследователей экономистов. Его команда работает во французском мозговом центре CEPREMAP и данные индикаторов, собираемых в проекте, используются для формирования макроэкномических моделей и прогнозов․ Таких как Macroeconomic outlook [5] от 23 декабря 2022 года.
Проектов собирающих данные показателей по странам довольно много, но важное отличие именно DB Nomics в открытости данных и кода и при этом довольно высоком качестве реализации.
Ссылки։
[1] https://db.nomics.world/
[2] https://db.nomics.world/ROSSTAT
[3] https://api.db.nomics.world/v22/apidocs
[4] https://git.nomics.world/dbnomics
[5] https://www.cepremap.fr/depot/2022/12/2022-12-23-Macroeconomic-Outlook.pdf
#opendata #dataset #economy #france #indicators
👍6