Для тех кто работает с данными и хочет разнообразить свой опыт, среди многих инструментов для работы с данными применяют не только Python и, например, для Jupyter Notebook существует множество ядер на других языках, позволяющих делать исполняемые публикации с помощью любимых, а не общепринятых языков программирования.
- IJulia - ядро для языка Julia
- IRKernel - ядро для языка R
- Wolfram Language for Jupiter - ядро для языка Wolfram Script
- Almond - ядро для языка Scala
- Xeus Cling - ядро для языка C++
- Jupiter NodeJS - ядро для языка Javascript (NodeJS)
- Kotlin kernel for Jupiter - ядро для языка Kotlin
существуют также ядра для PHP, C#, Go, OCaml, Powershell и десятков других
На мой взгляд, правда, мало что сравнится с Python по гибкости и доступности инструментов и готового кода, но многое обгонит по скорости. Для команд которым Python не является основным языком использование готовых ядер для Jyupiter может помочь в аналитической работе.
#datascience #jupiter #tools #overview
- IJulia - ядро для языка Julia
- IRKernel - ядро для языка R
- Wolfram Language for Jupiter - ядро для языка Wolfram Script
- Almond - ядро для языка Scala
- Xeus Cling - ядро для языка C++
- Jupiter NodeJS - ядро для языка Javascript (NodeJS)
- Kotlin kernel for Jupiter - ядро для языка Kotlin
существуют также ядра для PHP, C#, Go, OCaml, Powershell и десятков других
На мой взгляд, правда, мало что сравнится с Python по гибкости и доступности инструментов и готового кода, но многое обгонит по скорости. Для команд которым Python не является основным языком использование готовых ядер для Jyupiter может помочь в аналитической работе.
#datascience #jupiter #tools #overview
GitHub
GitHub - JuliaLang/IJulia.jl: Julia kernel for Jupyter
Julia kernel for Jupyter. Contribute to JuliaLang/IJulia.jl development by creating an account on GitHub.
Фонд Chan-Zukerberg Initiative [1] выдал грант на 190 тысяч долларов проекту Galaxy [2]. Galaxy - это платформа интенсивной работы с данными используемая, в первую очередь, для биомедицинских расчетов с 250 тысячами пользователей по всему миру, большой коллекцией больших данных и значительным числом инструментов для работы с ними [3]
В мире есть более 163 сред и инсталляций для развертывания или использования общедоступных проектов на базе Galaxy [4]. Некоторые только для внутреннего пользования, другие, как австралийский [5] поддерживаются национальным исследовательским агентством Австралии и общедоступны.
У Galaxy полностью открытый код [6] и сам проект создавался под data intesive science и пример того что часто исследователям нужны не просто данные, а сложные комплексные расширяемые среды где кроме данных есть ещё и инструменты работы с ними с учётом их специфики
Ссылки:
[1] https://chanzuckerberg.com/
[2] https://ardc.edu.au/news/chan-zuckerberg-initiative-injects-funds-into-galaxy-platform-for-biomedical-research/
[3] https://usegalaxy.org/
[4] https://galaxyproject.org/use/
[5] https://usegalaxy.org.au
[6] https://github.com/galaxyproject
#data #datascience
В мире есть более 163 сред и инсталляций для развертывания или использования общедоступных проектов на базе Galaxy [4]. Некоторые только для внутреннего пользования, другие, как австралийский [5] поддерживаются национальным исследовательским агентством Австралии и общедоступны.
У Galaxy полностью открытый код [6] и сам проект создавался под data intesive science и пример того что часто исследователям нужны не просто данные, а сложные комплексные расширяемые среды где кроме данных есть ещё и инструменты работы с ними с учётом их специфики
Ссылки:
[1] https://chanzuckerberg.com/
[2] https://ardc.edu.au/news/chan-zuckerberg-initiative-injects-funds-into-galaxy-platform-for-biomedical-research/
[3] https://usegalaxy.org/
[4] https://galaxyproject.org/use/
[5] https://usegalaxy.org.au
[6] https://github.com/galaxyproject
#data #datascience
Chan Zuckerberg Initiative
Our Approach to Solving Society’s Toughest Problems
We’re working to eradicate disease, improve education and address the needs of our local community.
Современный отраслевой портал данных выглядит как Allen Brain Map Data Portal [1] и включает не только возможность скачать данные и просмотреть их наглядно, но открытый код в виде SDK, а также документацию, API, научные статьи с результатами и ещё многое другое имеющее отраслевую специфику, в данном случае, в области изучения мозга.
Ссылки:
[1] https://portal.brain-map.org/
#opendata #datascience
Ссылки:
[1] https://portal.brain-map.org/
#opendata #datascience
👍1
Дайджест полезного чтения про данные и открытые данные:
- Why So Many Data Scientists Quit Good Jobs at Great Companies [1] - мартовская заметка в Medium о том почему Data Scientist'ы так часто уходят с из компаний с большим именем. По мне так большая часть проблем поколенческая, вроде завышенных ожиданий и отсутствия готовности к работе в "кровавом энтерпрайзе", но здесь ещё важный аспект в том что дата сайентисты хотят интересных задач, а кучу времени тратят на чистку и поиск данных.
- NOAA weather data in Snowflake [2] - огромная ежедневно пополняемая база данных погодной службы США в облаке Snowflake. Продолжение тренда на то что крупные коммерческие игроки хостинга, PaaS и IaaS используют большие открытые данные чтобы снижать барьеры доступа к данным для клиентов.
- Who's downloading pirated papers? Everyone - статья 2016 года [3] за авторством John Bohannon, а к ней данные 2017 года со статистикой SciHub [4], как ни странно, ни разу не скачанные с Zenodo, скорее всего поскольку недавно только были туда загружены.
Ссылки:
[1] https://medium.com/swlh/why-so-many-data-scientists-quit-good-jobs-at-great-companies-429ea61fb566
[2] https://towardsdatascience.com/noaa-weather-data-in-snowflake-free-20e90ee916ed
[3] https://science.sciencemag.org/content/352/6285/508
[4] https://zenodo.org/record/5012994#.YN27v0xn2Ul
#opendata #datasets #data #datascience
- Why So Many Data Scientists Quit Good Jobs at Great Companies [1] - мартовская заметка в Medium о том почему Data Scientist'ы так часто уходят с из компаний с большим именем. По мне так большая часть проблем поколенческая, вроде завышенных ожиданий и отсутствия готовности к работе в "кровавом энтерпрайзе", но здесь ещё важный аспект в том что дата сайентисты хотят интересных задач, а кучу времени тратят на чистку и поиск данных.
- NOAA weather data in Snowflake [2] - огромная ежедневно пополняемая база данных погодной службы США в облаке Snowflake. Продолжение тренда на то что крупные коммерческие игроки хостинга, PaaS и IaaS используют большие открытые данные чтобы снижать барьеры доступа к данным для клиентов.
- Who's downloading pirated papers? Everyone - статья 2016 года [3] за авторством John Bohannon, а к ней данные 2017 года со статистикой SciHub [4], как ни странно, ни разу не скачанные с Zenodo, скорее всего поскольку недавно только были туда загружены.
Ссылки:
[1] https://medium.com/swlh/why-so-many-data-scientists-quit-good-jobs-at-great-companies-429ea61fb566
[2] https://towardsdatascience.com/noaa-weather-data-in-snowflake-free-20e90ee916ed
[3] https://science.sciencemag.org/content/352/6285/508
[4] https://zenodo.org/record/5012994#.YN27v0xn2Ul
#opendata #datasets #data #datascience
Medium
Why So Many Data Scientists Quit Good Jobs at Great Companies
A look at why the ‘sexiest job of the 21st century’ has lost its appeal
Для тех кто интересуется "гражданской наукой" (citizen science) и данными - проект BirdNet [1] лаборатории орнитологии Корнелла в виде мобильного приложения куда каждый может загрузить часть птичьей песни для немедленной идентификации кто же её поёт.
У приложения открытый код [2] и там же возможность скачать открытую модель для распознавания.
Ссылки:
[1] https://birdnet.cornell.edu/
[2] https://github.com/kahst/BirdNET
#opensource #datascience #citizenscience
У приложения открытый код [2] и там же возможность скачать открытую модель для распознавания.
Ссылки:
[1] https://birdnet.cornell.edu/
[2] https://github.com/kahst/BirdNET
#opensource #datascience #citizenscience
GitHub
GitHub - birdnet-team/BirdNET-V1: Soundscape analysis with BirdNET.
Soundscape analysis with BirdNET. Contribute to birdnet-team/BirdNET-V1 development by creating an account on GitHub.
Forwarded from APICrafter
Обновления в каталоге APICrafter
Что нового
1. Данные о пакетах данных теперь публикуются более компактно. Страница пакета данных теперь включает сведения о характеристиках, таблицах и сборках данных вместе. Например [1] [2]
2. Таблицы открытых наборов данных теперь можно скачать в форматах JSONl, CSV и Parquet. Ссылки на данные публикуются на странице таблицы, например, "Точки обмена" [3]
Экспорт данных сейчас работает со следующими ограничениями:
- экспорт только для наборов данных менее чем с 100 тысячами записей
- форматы csv и parquet доступны только для таблиц без вложенных объектов
- сборки данных включают все данные и доступны всегда
Формат Parquet [4] популярен в data science и активно используется с помощью Jupyter Notebook.
Мы обязательно опубликуем примеры его использования.
Ссылки:
[1] https://tinyurl.com/2s3vuxaf
[2] https://tinyurl.com/2p89vp2k
[3] https://tinyurl.com/yckma22e
[4] https://tinyurl.com/mr4xjdmd
#apicrafter #datascience #datasets #parquet #json #csv
Что нового
1. Данные о пакетах данных теперь публикуются более компактно. Страница пакета данных теперь включает сведения о характеристиках, таблицах и сборках данных вместе. Например [1] [2]
2. Таблицы открытых наборов данных теперь можно скачать в форматах JSONl, CSV и Parquet. Ссылки на данные публикуются на странице таблицы, например, "Точки обмена" [3]
Экспорт данных сейчас работает со следующими ограничениями:
- экспорт только для наборов данных менее чем с 100 тысячами записей
- форматы csv и parquet доступны только для таблиц без вложенных объектов
- сборки данных включают все данные и доступны всегда
Формат Parquet [4] популярен в data science и активно используется с помощью Jupyter Notebook.
Мы обязательно опубликуем примеры его использования.
Ссылки:
[1] https://tinyurl.com/2s3vuxaf
[2] https://tinyurl.com/2p89vp2k
[3] https://tinyurl.com/yckma22e
[4] https://tinyurl.com/mr4xjdmd
#apicrafter #datascience #datasets #parquet #json #csv
Cogram [1] ассистент программирования для задач машинного обучения. Интегрируется с Python и помогает в работе с SQL. Переводит тексты на ясном английском языке в программные директивы.
Выглядит недорого, $29 в месяц за профессиональную версию и бесплатно для личного пользования. А перспективы хорошие. Так и хочется сказать что первое что делают разработчики и инженеры инструментов на базе ИИ - это лишать работы других разработчиков и инженеров ИИ;)
Ссылки:
[1] https://www.cogram.com
#machinelerning #datascience
Выглядит недорого, $29 в месяц за профессиональную версию и бесплатно для личного пользования. А перспективы хорошие. Так и хочется сказать что первое что делают разработчики и инженеры инструментов на базе ИИ - это лишать работы других разработчиков и инженеров ИИ;)
Ссылки:
[1] https://www.cogram.com
#machinelerning #datascience
Cogram
Cogram - The AI platform for Architects, Engineers, and Builders
From AI meeting minutes and field reports to email management and RFIs & Submittals, Cogram keeps your projects on schedule, within budget, and out of disputes.
👍1
У DataIKU [1], платформы для совместной работы над Data Science проектами, вышел небольшой обзор 3 Keys to a Modern Data Architecture Strategy Fit For Scaling AI [2].
Как и практически все продукты на текущем рынке работы с данными, ML/AI они пишут про своё место в Modern Data Stack определяя его в блоках трансформации данных (Transform) и Data Science.
Тут важно понимать что DataIKU - это дорогая платформа для крупных компаний ещё и с сильным акцентом на ИТ безопасность, потому они и пишут в своём обзоре что миграция в облако не так уж небезопасна. Год назад я пытался у продавцов DataIKU выяснить стоимость их продукта, но даже 5 писем и 3-х созвонов с ними не хватило и ответа я так и не получил, хотя и сам продукт интересный и его бесплатную версию интересно посмотреть хотя бы для понимания как такие продукты устроены и можно ли сделать более дешёвую, дружелюбную альтернативу.
Ссылки:
[1] https://www.dataiku.com
[2] https://content.dataiku.com/modern-data-architecture/modern-data-architecture
#datascience #moderndatastack #data #dataproducts
Как и практически все продукты на текущем рынке работы с данными, ML/AI они пишут про своё место в Modern Data Stack определяя его в блоках трансформации данных (Transform) и Data Science.
Тут важно понимать что DataIKU - это дорогая платформа для крупных компаний ещё и с сильным акцентом на ИТ безопасность, потому они и пишут в своём обзоре что миграция в облако не так уж небезопасна. Год назад я пытался у продавцов DataIKU выяснить стоимость их продукта, но даже 5 писем и 3-х созвонов с ними не хватило и ответа я так и не получил, хотя и сам продукт интересный и его бесплатную версию интересно посмотреть хотя бы для понимания как такие продукты устроены и можно ли сделать более дешёвую, дружелюбную альтернативу.
Ссылки:
[1] https://www.dataiku.com
[2] https://content.dataiku.com/modern-data-architecture/modern-data-architecture
#datascience #moderndatastack #data #dataproducts
Dataiku
Home
Build, deploy, and manage data, analytics, and AI projects, realizing your Everyday AI vision with The Universal AI Platform™
👍1
Для тех кто ищет больших данных и побольше, Academic Torrents [1] раздает 83ТБ открытых данных, в основном для научного применения - в data science и не только. Например, там есть свежий слепок Wikidata в 109ГБ и множество климатических датасетов, датасетов по распознаванию изображений и многого другого.
Ресурс полезный как для поиска интересного так и для публикации собственных больших данных.
Ссылки:
[1] https://academictorrents.com
#opendata #datascience #openacces
Ресурс полезный как для поиска интересного так и для публикации собственных больших данных.
Ссылки:
[1] https://academictorrents.com
#opendata #datascience #openacces
Academic Torrents
A distributed system for sharing enormous datasets - for researchers, by researchers. The result is a scalable, secure, and fault-tolerant repository for data, with blazing fast download speeds.
👍4🔥4
Полезная подборка чтения про данные на ближайшие дни, про разное:
- 10 Hot 🔥 Data & Analytics Trends to Watch in 2022 [1] в блоге Count, о том какие тренды идут в аналитической инженерии.
- Open Archaeo [2] проект открытая археология включая открытые данные, открытый код, стандарты, руководства и протоколы работы
- The Battle for Data Engineer’s Favorite Programming Language Is Not Over Yet [3] дискуссионная статья о будущем языка программирования Rust как языка для инженеров данных
- Data diffs: Algorithms for explaining what changed in a dataset [4] статья об алгоритмах отслеживания изменений в наборах данных
- Building Python Microservices with Apache Kafka: All Gain, No Pain [5] глубоко технологическая заметка о том как делать API с помощью Python и Kafka.
- Easy data processing at scale with Optimus [6] ещё одна очень технологическая заметка о движке Optimus для Python, заменяющий Pandas и включающие многие доп возможности, например, всё то же определение семантических типов данных. В упрощённом варианте, конечно, но есть такое.
- Inside Pornhub [7] нетехническое и познавательное чтение о внутреннем устройстве PornHub'а. Побольше бы таких о крупных/интересных компаниях
Ссылки:
[1] https://blog.count.co/how-data-analytics-will-change-in-2022/
[2] https://open-archaeo.info
[3] https://betterprogramming.pub/the-battle-for-data-engineers-favorite-programming-language-is-not-over-yet-bb3cd07b14a0
[4] https://blog.marcua.net/2022/02/20/data-diffs-algorithms-for-explaining-what-changed-in-a-dataset.html
[5] https://medium.com/towards-data-science/building-python-microservices-with-apache-kafka-all-gain-no-pain-1435836a3054
[6] https://medium.com/@argenisleon/easy-data-processing-at-scale-with-optimus-f467f867d756
[7] https://www.theverge.com/c/22925906/pornhub-mindgeek-content-moderation
#data #datascience #readings #opendata
- 10 Hot 🔥 Data & Analytics Trends to Watch in 2022 [1] в блоге Count, о том какие тренды идут в аналитической инженерии.
- Open Archaeo [2] проект открытая археология включая открытые данные, открытый код, стандарты, руководства и протоколы работы
- The Battle for Data Engineer’s Favorite Programming Language Is Not Over Yet [3] дискуссионная статья о будущем языка программирования Rust как языка для инженеров данных
- Data diffs: Algorithms for explaining what changed in a dataset [4] статья об алгоритмах отслеживания изменений в наборах данных
- Building Python Microservices with Apache Kafka: All Gain, No Pain [5] глубоко технологическая заметка о том как делать API с помощью Python и Kafka.
- Easy data processing at scale with Optimus [6] ещё одна очень технологическая заметка о движке Optimus для Python, заменяющий Pandas и включающие многие доп возможности, например, всё то же определение семантических типов данных. В упрощённом варианте, конечно, но есть такое.
- Inside Pornhub [7] нетехническое и познавательное чтение о внутреннем устройстве PornHub'а. Побольше бы таких о крупных/интересных компаниях
Ссылки:
[1] https://blog.count.co/how-data-analytics-will-change-in-2022/
[2] https://open-archaeo.info
[3] https://betterprogramming.pub/the-battle-for-data-engineers-favorite-programming-language-is-not-over-yet-bb3cd07b14a0
[4] https://blog.marcua.net/2022/02/20/data-diffs-algorithms-for-explaining-what-changed-in-a-dataset.html
[5] https://medium.com/towards-data-science/building-python-microservices-with-apache-kafka-all-gain-no-pain-1435836a3054
[6] https://medium.com/@argenisleon/easy-data-processing-at-scale-with-optimus-f467f867d756
[7] https://www.theverge.com/c/22925906/pornhub-mindgeek-content-moderation
#data #datascience #readings #opendata
👍3