ChatGPT теперь даёт возможность поиска и интерактива без авторизации [1] вот что конкуренция творит, а всего-то китайцы запустили Deepseek😜
Ссылки:
[1] https://chatgpt.com/?hints=search
#llm #ai #chatgpt
Ссылки:
[1] https://chatgpt.com/?hints=search
#llm #ai #chatgpt
Полезные ссылки про данные, технологии и не только:
- Perforator [1] профайлер приложений от Яндекса и с использованием eBPF [2]. Полезно для отладки многих сложных и простых нативных приложений и отдельно расписано как профилировать и оптимизировать серверные приложения на Python. Выглядит как очень добротный open source продукт
- GPT Researcher [3] автономный инструмент для исследований с аккуратной простановкой цитат, использует внешние и локальные источники. Интегрирован с OpenAI
- The Illustrated DeepSeek-R1 [4] подробно о DeepSeek в картинках, позволяет легче ухватить суть продукта
- DataLumos [5] проект Университета Мичигана по архивации государственных и социальных данных, построен на базе OpenICPSR [6], данных не очень много, но они адаптированы под исследовательские задачи
- Data Formulator: Create Rich Visualizations with AI [7] полноценный движок для визуализации данных с помощью ИИ. Выпущен исследователями из Microsoft вместе с научной работой, под лицензией MIT. Выглядит как proof-of-concept, не факт что его можно применять в практических задачах сразу и из коробки, но для экспериментов самое оно. И для идей и вдохновения
- Chat2DB [8] открытый код (community edition) и сервис по управлению базами данных с помощью ИИ. Всё самое вкусное вынесли в коммерческие версии, но посмотреть стоит в любом случае.
Ссылки:
[1] https://perforator.tech
[2] https://ebpf.io
[3] https://github.com/assafelovic/gpt-researcher
[4] https://newsletter.languagemodels.co/p/the-illustrated-deepseek-r1
[5] https://www.datalumos.org
[6] https://www.openicpsr.org/openicpsr/
[7] https://github.com/microsoft/data-formulator
[8] https://chat2db.ai
#opensource #datatools #opendata #ai
- Perforator [1] профайлер приложений от Яндекса и с использованием eBPF [2]. Полезно для отладки многих сложных и простых нативных приложений и отдельно расписано как профилировать и оптимизировать серверные приложения на Python. Выглядит как очень добротный open source продукт
- GPT Researcher [3] автономный инструмент для исследований с аккуратной простановкой цитат, использует внешние и локальные источники. Интегрирован с OpenAI
- The Illustrated DeepSeek-R1 [4] подробно о DeepSeek в картинках, позволяет легче ухватить суть продукта
- DataLumos [5] проект Университета Мичигана по архивации государственных и социальных данных, построен на базе OpenICPSR [6], данных не очень много, но они адаптированы под исследовательские задачи
- Data Formulator: Create Rich Visualizations with AI [7] полноценный движок для визуализации данных с помощью ИИ. Выпущен исследователями из Microsoft вместе с научной работой, под лицензией MIT. Выглядит как proof-of-concept, не факт что его можно применять в практических задачах сразу и из коробки, но для экспериментов самое оно. И для идей и вдохновения
- Chat2DB [8] открытый код (community edition) и сервис по управлению базами данных с помощью ИИ. Всё самое вкусное вынесли в коммерческие версии, но посмотреть стоит в любом случае.
Ссылки:
[1] https://perforator.tech
[2] https://ebpf.io
[3] https://github.com/assafelovic/gpt-researcher
[4] https://newsletter.languagemodels.co/p/the-illustrated-deepseek-r1
[5] https://www.datalumos.org
[6] https://www.openicpsr.org/openicpsr/
[7] https://github.com/microsoft/data-formulator
[8] https://chat2db.ai
#opensource #datatools #opendata #ai
ebpf.io
eBPF - Introduction, Tutorials & Community Resources
eBPF is a revolutionary technology that can run sandboxed programs in the Linux kernel without changing kernel source code or loading a kernel module.
Dataset investigation (расследование датасетов)
Если Вы ещё не слышали этот термин, то с высокой вероятностью услышите в этом году. Это расследования на данных о данных применительно к тому на чём обучались ИИ модели и к каким предубеждениям это привело. Я этот термин увидел в списке предсказаний будущего [1] от Mozilla Foundation и готов согласиться что это будет горячая тема в самые ближайшие годы.
Скоро можно будет писать что мол я небалбес кто-то скармливающий LLM провокационные вопросы, а полноценный dataset investigator (расследователь датасетов).😂
Не благодаритеf😎
Ссылки:
[1] https://foundation.mozilla.org/en/what-we-fund/programs/datasets-will-become-an-object-of-investigative-inquiry-for-journalists/
#ai #humour
Если Вы ещё не слышали этот термин, то с высокой вероятностью услышите в этом году. Это расследования на данных о данных применительно к тому на чём обучались ИИ модели и к каким предубеждениям это привело. Я этот термин увидел в списке предсказаний будущего [1] от Mozilla Foundation и готов согласиться что это будет горячая тема в самые ближайшие годы.
Скоро можно будет писать что мол я не
Не благодаритеf
Ссылки:
[1] https://foundation.mozilla.org/en/what-we-fund/programs/datasets-will-become-an-object-of-investigative-inquiry-for-journalists/
#ai #humour
Please open Telegram to view this post
VIEW IN TELEGRAM
Mozilla Foundation
Datasets will Become an Object of Investigative Inquiry for Journalists
Mozilla Fellowships and Awards span multiple cohorts, different disciplines, and far-ranging geographies. But they function as a collective — part of a larger movement to shift the internet and AI in a better direction.
Для тех кто думает о том как AI и конкретно LLM меняют журналистику выступление [1] Katie Koschland из Financial Times в Великобритании о том как они реорганизовали работу редакции и создали внутренний инструмент подготовки статей.
Там про их внутренний инструмент Scoop который они используют для того чтобы подготавливать черновики текстов, но так чтобы они были максимально похожи на ранее написанные тексты FT.
Оптимистичное в её презентации то что без человека не обойтись, потому что этика и нюансы, но, мы то понимаем что конечно, со временем, обойтись получится если не совсем, то резко сокращая стоимость создания и поддержания редакции.
Ссылки:
[1] https://www.youtube.com/watch?v=6UkEFuLSoh4
#datajournalism #aijournalism #data #ai
Там про их внутренний инструмент Scoop который они используют для того чтобы подготавливать черновики текстов, но так чтобы они были максимально похожи на ранее написанные тексты FT.
Оптимистичное в её презентации то что без человека не обойтись, потому что этика и нюансы, но, мы то понимаем что конечно, со временем, обойтись получится если не совсем, то резко сокращая стоимость создания и поддержания редакции.
Ссылки:
[1] https://www.youtube.com/watch?v=6UkEFuLSoh4
#datajournalism #aijournalism #data #ai
Для тех кто интересуется тема приватность и AI с точки зрения управления, юридических нюансов в первую очередь, курс AI Governance 2.0 про Регулирование и комплаенс ИИ-систем стартует завтра: в составе 9 преподавателей, 3 менторов, 1 куратора и 16 слушателей.
Я там тоже преподаю и рекомендую курс для всех кто интересуется темой.
#privacy #ai #education #studies
Я там тоже преподаю и рекомендую курс для всех кто интересуется темой.
#privacy #ai #education #studies
rppaedu.pro
AI Governance
Образовательный продукт AI Governance поможет специалисту стать экспертом в области и научиться превращать технологии из риска в актив
Полезные ссылки про данные технологии и не только:
- Graph Databases after 15 Years – Where Are They Headed? [1] автор рассказывает об эволюции графовых баз данных и главный вывод что они стали очень нишевыми и в упадке, кроме очень узких применений.
- Keep Canvases Moving with DuckDB on the Server [2] count.io, сервис онлайн BI внедрили DuckDB для выполнения серверных запросов. Результаты в немедленном сокращении стоимости их выполнения.
- Polars Cloud; the distributed Cloud Architecture to run Polars anywhere [3] команда Polars запустила облачный сервис со своим продуктом, пока в режиме раннего доступа. Обещают масштабирование датафреймов и тд. Главное чтобы их открытый продукт при этом не пострадал или не оказался под какой-нибудь не совсем открытой лицензией.
- What Is a Flat File? [4] обзор текстовых форматов распространения файлов, поверхностный, но полезный для начинающих.
- Mistral OCR [5] переводчик PDF файлов в файлы Markdown от команды создателей Mistral AI. Говорят сами про себя что они лучшие в этом деле, но проверить пока не проверял.
- Aider is AI pair programming in your terminal [6] инструмент для подключения ИИ к написанию кода, умеет подключаться ко множеству моделей включая локальные. В том числе примеры по работе с данными [7]
Ссылки:
[1] https://www.youtube.com/watch?v=X_RFo616M_U
[2] https://count.co/blog/announcing-duckdb-on-the-server
[3] https://pola.rs/posts/polars-cloud-what-we-are-building/
[4] https://evidence.dev/blog/what-is-a-flat-file
[5] https://mistral.ai/news/mistral-ocr
[6] https://aider.chat/
[7] https://aider.chat/examples/census.html
#opensource #ai #data #datatools #rdbms
- Graph Databases after 15 Years – Where Are They Headed? [1] автор рассказывает об эволюции графовых баз данных и главный вывод что они стали очень нишевыми и в упадке, кроме очень узких применений.
- Keep Canvases Moving with DuckDB on the Server [2] count.io, сервис онлайн BI внедрили DuckDB для выполнения серверных запросов. Результаты в немедленном сокращении стоимости их выполнения.
- Polars Cloud; the distributed Cloud Architecture to run Polars anywhere [3] команда Polars запустила облачный сервис со своим продуктом, пока в режиме раннего доступа. Обещают масштабирование датафреймов и тд. Главное чтобы их открытый продукт при этом не пострадал или не оказался под какой-нибудь не совсем открытой лицензией.
- What Is a Flat File? [4] обзор текстовых форматов распространения файлов, поверхностный, но полезный для начинающих.
- Mistral OCR [5] переводчик PDF файлов в файлы Markdown от команды создателей Mistral AI. Говорят сами про себя что они лучшие в этом деле, но проверить пока не проверял.
- Aider is AI pair programming in your terminal [6] инструмент для подключения ИИ к написанию кода, умеет подключаться ко множеству моделей включая локальные. В том числе примеры по работе с данными [7]
Ссылки:
[1] https://www.youtube.com/watch?v=X_RFo616M_U
[2] https://count.co/blog/announcing-duckdb-on-the-server
[3] https://pola.rs/posts/polars-cloud-what-we-are-building/
[4] https://evidence.dev/blog/what-is-a-flat-file
[5] https://mistral.ai/news/mistral-ocr
[6] https://aider.chat/
[7] https://aider.chat/examples/census.html
#opensource #ai #data #datatools #rdbms
YouTube
Graph Databases after 15 Years – Where Are They Headed?
Speaker: Gábor Szárnyas (LDBC)
Event: Data Analytics developer room at FOSDEM 2025
Talk page: https://fosdem.org/2025/schedule/track/analytics/
Slides: https://szarnyasg.org/talks/fosdem-2025-graph-databases-szarnyasg.pdf
Event: Data Analytics developer room at FOSDEM 2025
Talk page: https://fosdem.org/2025/schedule/track/analytics/
Slides: https://szarnyasg.org/talks/fosdem-2025-graph-databases-szarnyasg.pdf
Полезные ссылки про данные, технологии и не только:
- czkawka [1] утилита удаления дублирующихся файлов, музыки, видео и иных файлов. Полезна всем кто работает с большими личными архивами. Слово польское, произносится как чавка, переводится как икота. Называть программы телесными и душевными состояниями звучит как начало хорошего тренда, кто подхватит?
- glance [2] персональная читалка RSS и других новостей, open source и self hosted. Давно не пользовался подобным, но актуально для многих.
- coreutils [3] утилиты GNU переписанные на Rust. Просто уже массовое какое-то явление, перепиши это на Rust. Я лично не против, может быть даже они работают лучше.
- audaris.ai [4] в этот раз не открытый код, а стартап по превращению статей в подкасты. не первый раз вижу их на сайтах некоторых СМИ и сама идея мне нравится. Поддерживают всего 10 языков, так что тут есть пространство для их конкурентов. Подкидываю идею, анализировать книги с помощью AI, идентифицировать персонажи и диалоги и делать их озвучивание наиболее близкими к персонажам голосами, разными.
- Research Handbook on Open Government [5] - научное руководство по открытости гос-ва, полезная книжка, но открыта лишь частично, остальное за деньги. Про научные подходы к исследованию этой темы, важно для тех кто исследует тематику госуправления.
- Lacuna Fund [6] один из немногих фондов выдающий гранты на создание датасетов для ИИ, но... только для стран Юга. Грантовая программа за 2024 год закончена, но на сайте много датасетов, в основном африканских стран. Может быть туда можно подаваться из стран Центральной Азии и Армении? Может быть
- Fair Forward [7] германская государственная программа поддержки открытости (данных, кода, моделей для ИИ) для развивающихся стран. Они же финансируют, в том числе, Lacuna Fund
Ссылки:
[1] https://github.com/qarmin/czkawka
[2] https://github.com/glanceapp/glance
[3] https://github.com/uutils/coreutils
[4] https://www.adauris.ai/
[5] https://www.elgaronline.com/edcollbook/book/9781035301652/9781035301652.xml
[6] https://lacunafund.org
[7] https://www.bmz-digital.global/en/overview-of-initiatives/fair-forward/
#opendata #opensource #startups #ai #books #readings
- czkawka [1] утилита удаления дублирующихся файлов, музыки, видео и иных файлов. Полезна всем кто работает с большими личными архивами. Слово польское, произносится как чавка, переводится как икота. Называть программы телесными и душевными состояниями звучит как начало хорошего тренда, кто подхватит?
- glance [2] персональная читалка RSS и других новостей, open source и self hosted. Давно не пользовался подобным, но актуально для многих.
- coreutils [3] утилиты GNU переписанные на Rust. Просто уже массовое какое-то явление, перепиши это на Rust. Я лично не против, может быть даже они работают лучше.
- audaris.ai [4] в этот раз не открытый код, а стартап по превращению статей в подкасты. не первый раз вижу их на сайтах некоторых СМИ и сама идея мне нравится. Поддерживают всего 10 языков, так что тут есть пространство для их конкурентов. Подкидываю идею, анализировать книги с помощью AI, идентифицировать персонажи и диалоги и делать их озвучивание наиболее близкими к персонажам голосами, разными.
- Research Handbook on Open Government [5] - научное руководство по открытости гос-ва, полезная книжка, но открыта лишь частично, остальное за деньги. Про научные подходы к исследованию этой темы, важно для тех кто исследует тематику госуправления.
- Lacuna Fund [6] один из немногих фондов выдающий гранты на создание датасетов для ИИ, но... только для стран Юга. Грантовая программа за 2024 год закончена, но на сайте много датасетов, в основном африканских стран. Может быть туда можно подаваться из стран Центральной Азии и Армении? Может быть
- Fair Forward [7] германская государственная программа поддержки открытости (данных, кода, моделей для ИИ) для развивающихся стран. Они же финансируют, в том числе, Lacuna Fund
Ссылки:
[1] https://github.com/qarmin/czkawka
[2] https://github.com/glanceapp/glance
[3] https://github.com/uutils/coreutils
[4] https://www.adauris.ai/
[5] https://www.elgaronline.com/edcollbook/book/9781035301652/9781035301652.xml
[6] https://lacunafund.org
[7] https://www.bmz-digital.global/en/overview-of-initiatives/fair-forward/
#opendata #opensource #startups #ai #books #readings
GitHub
GitHub - qarmin/czkawka: Multi functional app to find duplicates, empty folders, similar images etc.
Multi functional app to find duplicates, empty folders, similar images etc. - qarmin/czkawka
Forwarded from Dateno
🚀 Dateno Enters Industrial Operation – Redefining Global Dataset Search
We’re excited to announce that Dateno has officially transitioned to full-scale industrial operation! 🎉 Now, data professionals worldwide can seamlessly access over 20 million high-quality datasets with advanced filtering, API integration, and continuously updated sources.
🔍 What makes Dateno stand out?
✅ Extensive dataset collection – 20M+ datasets indexed, aiming for 30M.
✅ Advanced filtering – Search by dataset owner, geography, topic, and more.
✅ AI-powered search – Recognizes semantic relationships (DOI, geolocation).
✅ API-first approach – Seamless integration into analytics & ML pipelines.
✅ High-quality, ad-free data – Focused on clean, structured, and trustworthy datasets.
💡 What’s next?
🔹 Expanding the dataset index to cover even more industries & research fields.
🔹 Improving search quality & user experience.
🔹 Enhancing AI-driven search for more relevant results.
🔹 Adding new API capabilities for seamless integration.
🔹 Launching tools to help professionals derive deeper insights.
Dateno is more than a search engine – it’s an ecosystem built to make data discovery effortless. 🌍
Join us and experience the next level of fast, precise, and integrated dataset search!
👉 Learn more: dateno.io
📩 Contact us: dateno@dateno.io
#Dateno #DataSearch #MachineLearning #BigData #AI
We’re excited to announce that Dateno has officially transitioned to full-scale industrial operation! 🎉 Now, data professionals worldwide can seamlessly access over 20 million high-quality datasets with advanced filtering, API integration, and continuously updated sources.
🔍 What makes Dateno stand out?
✅ Extensive dataset collection – 20M+ datasets indexed, aiming for 30M.
✅ Advanced filtering – Search by dataset owner, geography, topic, and more.
✅ AI-powered search – Recognizes semantic relationships (DOI, geolocation).
✅ API-first approach – Seamless integration into analytics & ML pipelines.
✅ High-quality, ad-free data – Focused on clean, structured, and trustworthy datasets.
💡 What’s next?
🔹 Expanding the dataset index to cover even more industries & research fields.
🔹 Improving search quality & user experience.
🔹 Enhancing AI-driven search for more relevant results.
🔹 Adding new API capabilities for seamless integration.
🔹 Launching tools to help professionals derive deeper insights.
Dateno is more than a search engine – it’s an ecosystem built to make data discovery effortless. 🌍
Join us and experience the next level of fast, precise, and integrated dataset search!
👉 Learn more: dateno.io
📩 Contact us: dateno@dateno.io
#Dateno #DataSearch #MachineLearning #BigData #AI
Для тех кто ещё не столкнулся, но скоро столкнётся с "атаками" AI скрейпботов на сайты, Anubis [1] [2] открытый код который помогает отбиваться от некоторых поисковых систем препятствуя любому индексированию сайта.
Почему это важно? Потому что несколько AI ботов уже нюкнули множество проектов с открытым кодом [3] и те отбиваются от них Анубисом и пытаются ещё и добиться компенсации за DDoS атаки.
Ссылки:
[1] https://github.com/TecharoHQ/anubis
[2] https://anubis.techaro.lol/
[3] https://thelibre.news/foss-infrastructure-is-under-attack-by-ai-companies/
#opensource #ai #scraping
Почему это важно? Потому что несколько AI ботов уже нюкнули множество проектов с открытым кодом [3] и те отбиваются от них Анубисом и пытаются ещё и добиться компенсации за DDoS атаки.
Ссылки:
[1] https://github.com/TecharoHQ/anubis
[2] https://anubis.techaro.lol/
[3] https://thelibre.news/foss-infrastructure-is-under-attack-by-ai-companies/
#opensource #ai #scraping