Культура документов Amazon
По моему отличный текст [1] от Джастина Гаррисона о том как устроена работа с документами в Amazon и том как они связаны с совещаниями. Если кратко то документы лежат в основе совещаний и часть совещания от 10 до 30 минут тратится на чтение документа. Если документа нет, то совещание не проводится.
Мне сама идея и подход нравятся, полезен и сам текст и описываемая в нём практика.
Ссылки:
[1] https://justingarrison.com/blog/2021-03-15-the-document-culture-of-amazon/
#culture #howto #ideas #management #documents
По моему отличный текст [1] от Джастина Гаррисона о том как устроена работа с документами в Amazon и том как они связаны с совещаниями. Если кратко то документы лежат в основе совещаний и часть совещания от 10 до 30 минут тратится на чтение документа. Если документа нет, то совещание не проводится.
Мне сама идея и подход нравятся, полезен и сам текст и описываемая в нём практика.
Ссылки:
[1] https://justingarrison.com/blog/2021-03-15-the-document-culture-of-amazon/
#culture #howto #ideas #management #documents
Justin Garrison
The Document Culture of Amazon
A look at Amazon's culture of writing and reading
👍13🗿4⚡1❤1🔥1
Знаменитые Yellow Combinator опубликовали свой RFS (Запрос на стартапы) [1] где всё посвящено ИИ. Нет, не то чтобы это необоснованно, но очень чётко расставляет акценты. Ничего кроме проектов на ИИ и связанных с ИИ там нет.
Один из запросов звучит как Full Stack AI. Это когда у Вас есть профессия не в ИТ и вы хотите войти в свою отрасль не изменяя текущие процессы, а создав изначально AI компанию. Например, вместо внедрения ИИ в юридическую фирму, создание юридической фирмы в которой ИИ - это основа всего.
Другая интересная тема More Design Founders, это когда ИИ продукт строится от дизайна. Что-то в этом, конечно, есть, но куда же мы так докатимся?:)
Не дождёмся ли мы времени когда идеи начнут что-то стоить? Потому что если раньше для воплощения идеи нужна была проработка, команда и ещё много чего, то теперь многие простые идеи могут быть реализованы очень быстро. Обратная сторона этого - это бесконечное число бесконечно похожих продуктов которые начнут всех раздражать.
Ссылки:
[1] https://www.ycombinator.com/rfs
#venture #startups #ideas
Один из запросов звучит как Full Stack AI. Это когда у Вас есть профессия не в ИТ и вы хотите войти в свою отрасль не изменяя текущие процессы, а создав изначально AI компанию. Например, вместо внедрения ИИ в юридическую фирму, создание юридической фирмы в которой ИИ - это основа всего.
Другая интересная тема More Design Founders, это когда ИИ продукт строится от дизайна. Что-то в этом, конечно, есть, но куда же мы так докатимся?:)
Не дождёмся ли мы времени когда идеи начнут что-то стоить? Потому что если раньше для воплощения идеи нужна была проработка, команда и ещё много чего, то теперь многие простые идеи могут быть реализованы очень быстро. Обратная сторона этого - это бесконечное число бесконечно похожих продуктов которые начнут всех раздражать.
Ссылки:
[1] https://www.ycombinator.com/rfs
#venture #startups #ideas
Y Combinator
Requests for Startups | Y Combinator
Y Combinator is looking for startups working on these ideas. If you're working on something we're interested in, we'd love to hear from you.
❤7👍2❤🔥1
Я буду изредка разбавлять рассуждения про технологии разным публицистическим оффтопиком и вот недавно я писал про всяческие предсказания будущего регулирования, но таких идей чтобы прям взял и положил в основание рассказа пока не увидел. Так что поделюсь одной идеей далёкого регулирования которая не даёт мне покоя, но пока я её недостаточно хорошо продумал чтобы описать, но достаточно чтобы обсудить.
Это налоговая лотерея! Как это выглядит.
Представим себе что вместо уплаты штрафов за парковку, несвоевременное предоставление отчетности, штрафов за превышение скорости и тд. налоговая служба устраивала бы лотерею где ты мог за платить меньшую сумму, например, 10 тысяч рублей вместо 50 тысяч рублей, но имел бы вероятность заплатить 100 тысяч рублей или даже 200 тысяч рублей при некоторой вероятности.
Представим себе что налоговая служба собирает около 5 миллиардов рублей в год которые выплачивают 100 тысяч человек по примерно 50 тысяч рублей каждый. Как правильно составить вероятности и пропорции платежей чтобы налоговая служба могла бы собирать до 10 миллиардов рублей в год используя такой механизм лотереи?
У идеи сразу несколько плюсов:
1. Государство собирает больше денег
2. Высокая, больше 50% вероятность заплатить штраф куда меньший
3. Высокая мотивация избегать повторных штрафов если пришлось платить больший штраф
4. Возможность автоматического выявления граждан с "паранормальной удачей".
5. Удовлетворение потребности определённых категорий граждан в азартных играх.
Применение к России очень условно, можно реализовать в любой стране. Понятно что не в ближайшем будущем, но к 2050 году как раз
#humour #ideas #writings
Это налоговая лотерея! Как это выглядит.
Представим себе что вместо уплаты штрафов за парковку, несвоевременное предоставление отчетности, штрафов за превышение скорости и тд. налоговая служба устраивала бы лотерею где ты мог за платить меньшую сумму, например, 10 тысяч рублей вместо 50 тысяч рублей, но имел бы вероятность заплатить 100 тысяч рублей или даже 200 тысяч рублей при некоторой вероятности.
Представим себе что налоговая служба собирает около 5 миллиардов рублей в год которые выплачивают 100 тысяч человек по примерно 50 тысяч рублей каждый. Как правильно составить вероятности и пропорции платежей чтобы налоговая служба могла бы собирать до 10 миллиардов рублей в год используя такой механизм лотереи?
У идеи сразу несколько плюсов:
1. Государство собирает больше денег
2. Высокая, больше 50% вероятность заплатить штраф куда меньший
3. Высокая мотивация избегать повторных штрафов если пришлось платить больший штраф
4. Возможность автоматического выявления граждан с "паранормальной удачей".
5. Удовлетворение потребности определённых категорий граждан в азартных играх.
Применение к России очень условно, можно реализовать в любой стране. Понятно что не в ближайшем будущем, но к 2050 году как раз
#humour #ideas #writings
😁13✍3👍3🌚1💊1
Продолжая мысли вслух по поводу потенциального или альтернативного будущего я регулярно размышляю о том есть ли потенциал для фантастических антиутопических рассказов.
Одна тема которая мои мысли не покидает - это то что человечество стремительно приближается к тому что жизнь отдельного человека можно записывать как видео/аудио/3D модель (?) с рождения и до смерти без перерыва и это всё более реалистично хранить вечно.
Если сделать простые подсчёты то запись видео 1080p ~5Mbs в течение 80 лет 24/7 составит в итоге 1.58 петабайта. Много? Пока да, но цена терабайта снижается год от года и это уже реалистично. Более того, если записывать только часы бодрствования то это будет около 1.05 петабайта, а если ещё применять продвинутые кодеки то можно уменьшить объём ещё на 30-50%, а если сохранять не в 1080p, а 720p или 480p то всё становится ещё более реалистичным. Очень реалистичным.
А вот записать всю свою жизнь на аудио можно уже сейчас. При битрейте в 128 kbps - это будет около 40.4 терабайт за те же 80 лет.
Главная загвоздка что практическое применение всё ещё маргинализировано некоторыми гиками которые пытались и пытаются делать видеозапись в таком режиме. Для обыденной бытовой жизни это всё ещё кажется очень странным и сильно нарушающим приватность других лиц если даже сам человек готов на такой эксперимент.
Но есть две области применения которые если ещё не наступили, но это близкое будущее.
1. Особо защищённые периметры
Атомные электростанции, военные объекты,центры содержания инопланетян и тому подобное. Вплоть до того что весь персонал и посетители носят устройства видео и аудиозаписи и запись идёт непрерывно и хранится вечно. Это довольно естественное и логичное применение и можно смело предполагать что кое-где это уже есть или появится в обозримом будущем. Там главные ограничения, я подозреваю, в сертификации устройств по требованиям безопасности и поэтому самые последние устройства хранения данных могут внедряться с задержкой. Но принцип чёток - пишем всё и храним вечно.
2. Контролируемые маргинальные группы
А вот это то чего пока ещё нет, но весьма ожидаемо может распространяться на группы преступников и потенциальных преступников подлежащих профилактике, чем выше шанс рецидива, тем с большей вероятностью и с очень понятными "плюшками" снижения срока содержания. Эксперимент в РФ с мигрантами которые должны ставить специальное отслеживающее ПО в смартфоны - это из той же серии. Только в очень и очень лайт варианте по сравнению с тем что может быть в будущем.
Оба сценария кажутся мне весьма очевидными, а вот как посмотреть на сценарий всё же массового внедрения, когда пишется условно всё и о каждом и камеры или аудиозапись есть если не по каждому то по очень многим?
А вот тут то нам в помощь приходит криптография! Если потоковая запись шифруется и сохраняется в некие централизованные хранилища доступ к которым гражданин может предоставить по решению суда или дав согласие при расследовании. Не за всю жизнь, а например, отвечая на вопрос "что вы делали с 22 до 23 часов вечера 31 декабря 2049 года?". А ещё точнее не отвечая на вопрос, а предоставляя доступ к полной записи своей жизни за этот период.
Звучит реалистично? Хочется пожить в таком мире?;)
#thoughts #ideas #future
Одна тема которая мои мысли не покидает - это то что человечество стремительно приближается к тому что жизнь отдельного человека можно записывать как видео/аудио/3D модель (?) с рождения и до смерти без перерыва и это всё более реалистично хранить вечно.
Если сделать простые подсчёты то запись видео 1080p ~5Mbs в течение 80 лет 24/7 составит в итоге 1.58 петабайта. Много? Пока да, но цена терабайта снижается год от года и это уже реалистично. Более того, если записывать только часы бодрствования то это будет около 1.05 петабайта, а если ещё применять продвинутые кодеки то можно уменьшить объём ещё на 30-50%, а если сохранять не в 1080p, а 720p или 480p то всё становится ещё более реалистичным. Очень реалистичным.
А вот записать всю свою жизнь на аудио можно уже сейчас. При битрейте в 128 kbps - это будет около 40.4 терабайт за те же 80 лет.
Главная загвоздка что практическое применение всё ещё маргинализировано некоторыми гиками которые пытались и пытаются делать видеозапись в таком режиме. Для обыденной бытовой жизни это всё ещё кажется очень странным и сильно нарушающим приватность других лиц если даже сам человек готов на такой эксперимент.
Но есть две области применения которые если ещё не наступили, но это близкое будущее.
1. Особо защищённые периметры
Атомные электростанции, военные объекты,
2. Контролируемые маргинальные группы
А вот это то чего пока ещё нет, но весьма ожидаемо может распространяться на группы преступников и потенциальных преступников подлежащих профилактике, чем выше шанс рецидива, тем с большей вероятностью и с очень понятными "плюшками" снижения срока содержания. Эксперимент в РФ с мигрантами которые должны ставить специальное отслеживающее ПО в смартфоны - это из той же серии. Только в очень и очень лайт варианте по сравнению с тем что может быть в будущем.
Оба сценария кажутся мне весьма очевидными, а вот как посмотреть на сценарий всё же массового внедрения, когда пишется условно всё и о каждом и камеры или аудиозапись есть если не по каждому то по очень многим?
А вот тут то нам в помощь приходит криптография! Если потоковая запись шифруется и сохраняется в некие централизованные хранилища доступ к которым гражданин может предоставить по решению суда или дав согласие при расследовании. Не за всю жизнь, а например, отвечая на вопрос "что вы делали с 22 до 23 часов вечера 31 декабря 2049 года?". А ещё точнее не отвечая на вопрос, а предоставляя доступ к полной записи своей жизни за этот период.
Звучит реалистично? Хочется пожить в таком мире?;)
#thoughts #ideas #future
⚡11🤨10❤5🔥2💊2
Forwarded from Национальный цифровой архив
Важный вопрос, как для развития Ruarxive.org, так и для сообщества по цифровой архивации в том как мы могли сообщество развивать и поддерживать? Как можно было бы сделать текущую работы по архивации более полезной, удобной и востребованной? Для чего обязательно проведём опрос тут в телеграм канале, но прежде это хотелось бы обсудить.
У инициатив по архивации, увы, немного ресурсов и удаётся сохранить далеко не всё что хотелось бы
Вот неполный список идей которые "витают в воздухе":
1. Обновить сайт ruarxive.org и выложить туда в более удобном виде все накопленные архивы.
2. Сделать форум для обсуждений который бы дополнял чат @ruarxivechat и дел бы возможность не терять треды обсуждения.
3. Больше интегрироваться с Archive.org и ArchiveTeam и ориентироваться на них в архивных задачах. Например, делать обязательную копию всего в Интернет архив
4. Организовать курсы/семинары по обучению самостоятельной архивации (материалы есть, они даже использовались для курсов в одном из университетов).
5. Регулярно организовывать митапы или ежегодную конференцию по теме архивации цифрового контента
6. Актуализировать гайды по архивации цифрового контента разного типа и подготовить новые
7. Организовать конкурс на создание инструментов архивации типовых сайтов/соц сетей/иных цифровых источников данных, может быть добавить конкурс на создание гайдов и курсов по архивации от сообщества
Возможно какие-то ещё идеи? Предлагаю обсудить их в чате @ruarxivechat и все их выставим на голосование в ближайшее время
#ideas #community
У инициатив по архивации, увы, немного ресурсов и удаётся сохранить далеко не всё что хотелось бы
Вот неполный список идей которые "витают в воздухе":
1. Обновить сайт ruarxive.org и выложить туда в более удобном виде все накопленные архивы.
2. Сделать форум для обсуждений который бы дополнял чат @ruarxivechat и дел бы возможность не терять треды обсуждения.
3. Больше интегрироваться с Archive.org и ArchiveTeam и ориентироваться на них в архивных задачах. Например, делать обязательную копию всего в Интернет архив
4. Организовать курсы/семинары по обучению самостоятельной архивации (материалы есть, они даже использовались для курсов в одном из университетов).
5. Регулярно организовывать митапы или ежегодную конференцию по теме архивации цифрового контента
6. Актуализировать гайды по архивации цифрового контента разного типа и подготовить новые
7. Организовать конкурс на создание инструментов архивации типовых сайтов/соц сетей/иных цифровых источников данных, может быть добавить конкурс на создание гайдов и курсов по архивации от сообщества
Возможно какие-то ещё идеи? Предлагаю обсудить их в чате @ruarxivechat и все их выставим на голосование в ближайшее время
#ideas #community
⚡3❤1
В качестве нерегулярного оффтопа, периодически думаю над сценариями рассказов про ИИ приближенных к наиболее вероятным сценариям развития технологий, но в научно-фантастическом контексте.
Вот краткие синопсисы некоторых идей:
1.Анти-ИИ терроризм. Группа пострадавших от ИИ людей планируют атаку на электростанции питающие крупнейшие датацентры. Для планирования они тоже используют ИИ, в виде открытой модели со снятыми с неё ограничениями. После успешной, но фатальной атаки они все погибают, а многие глобальные ИИ сервисы отключаются. В финальных кадрах показан офис некой восточноазиатской компании в которой несколько человек обсуждают можно ли заложить в открытую ИИ модель определенные ответы на вопросы и подталкивание к конкретным шагам, а также о том как и как можно подкинуть инструкцию по снятию ограничений потенциальным террористам не выдавая себя.
2. Автономные роботизированные поселения спасают человечество. Человечество не смогло удачно доставить людей на Марс и переключилось в создание автномных роботизированных поселений на Марсе где с помощью централизованного ИИ должны быть созданы условия для прилета людей в поселение где уже будет еда, вода и жизненная среда. Для проверки идеи на Земле создают сотни таких автоматизированных поселений в местах, как правило, плоходоступных и с суровым климатом. Когда наступает апокалиптичное событие (падение астероида, глобальная пандемия или зомби-апокалипсис) то эти поселения оказываются единственным убежищем позволяющем малым группам человечества выжить.
3. Неубиваемый ИИ вирус. Основанный на ИИ вирус захватывает компьютеры и электронные устройства, использует децентрализованное фрагментированное хранение для распространения и накопления украденных данных/реквизитов/паролей и zero-day уязвимостей которые он также находит автономно. Заканчивается все постепенными блокировками любых коммуникаций между странами и отдельными территориями и методичная работа по вычищению. Расходы коллосальные и мир в глубоком шоке, рассказ от лица человека живущего изолированного в глуши и приютившего один из оставшихся экземпляров вируса в умном холодильнике
#thoughts #ideas
Вот краткие синопсисы некоторых идей:
1.Анти-ИИ терроризм. Группа пострадавших от ИИ людей планируют атаку на электростанции питающие крупнейшие датацентры. Для планирования они тоже используют ИИ, в виде открытой модели со снятыми с неё ограничениями. После успешной, но фатальной атаки они все погибают, а многие глобальные ИИ сервисы отключаются. В финальных кадрах показан офис некой восточноазиатской компании в которой несколько человек обсуждают можно ли заложить в открытую ИИ модель определенные ответы на вопросы и подталкивание к конкретным шагам, а также о том как и как можно подкинуть инструкцию по снятию ограничений потенциальным террористам не выдавая себя.
2. Автономные роботизированные поселения спасают человечество. Человечество не смогло удачно доставить людей на Марс и переключилось в создание автномных роботизированных поселений на Марсе где с помощью централизованного ИИ должны быть созданы условия для прилета людей в поселение где уже будет еда, вода и жизненная среда. Для проверки идеи на Земле создают сотни таких автоматизированных поселений в местах, как правило, плоходоступных и с суровым климатом. Когда наступает апокалиптичное событие (падение астероида, глобальная пандемия или зомби-апокалипсис) то эти поселения оказываются единственным убежищем позволяющем малым группам человечества выжить.
3. Неубиваемый ИИ вирус. Основанный на ИИ вирус захватывает компьютеры и электронные устройства, использует децентрализованное фрагментированное хранение для распространения и накопления украденных данных/реквизитов/паролей и zero-day уязвимостей которые он также находит автономно. Заканчивается все постепенными блокировками любых коммуникаций между странами и отдельными территориями и методичная работа по вычищению. Расходы коллосальные и мир в глубоком шоке, рассказ от лица человека живущего изолированного в глуши и приютившего один из оставшихся экземпляров вируса в умном холодильнике
#thoughts #ideas
👍8❤5🔥3
2025 год закончился, пора переходить к предсказаниям на 2026 и вот мой набор необязательно самых реалистичных, но вполне возможных предсказаний.
1. Резкий рост безработицы в ИТ и больше увольнений в цифровых компаниях.
Включая сокращения 15-25% в крупных компаниях. Затронет сильно неопытных специалистов и тех кто "спокойно сидит, примус починяет". Стоимость опытных специалистов, наоборот, вырастет. Это будет большая перетряска отрасли в целом, болезненная для тех кто в нее только вступил. Соответственно и резкие взлёты и банкротства тоже будут иметь место гораздо больше чем раньше.
2. Первые эксперименты радикальной ИИзации городов.
До конца года начнется или будет объявлено что начнется переход от цифровизации городов к ИИзации с ключевой идеей создания "мозга города" который бы в реальном времени собирал данные, отслеживал инциденты, управлял бы транспортными потоками и так далее. Все цифровые процессы были бы завязаны на этот ИИ, а люди выступали бы наблюдателями там где нельзя автоматизировать датчиками и "руками" там где роботизированные платформы и инструменты не работают. Управление транспортом будет включать централизованный перехват управления автомобилем для въезжающих в город.
3. Включение ударов по ИИ ЦОДам в изменения ядерных доктрин государств.
Может не всех государств, может публично об этом не заявят, но я думаю что заявят просто не голосами первых лиц. Крупнейшие ЦОДы применимые для ИИ и не только будут обозначены как приоритетные цели.
4. Первые законодательные запреты на гуманоидных роботов
Да, будут страны и территории где гуманоидных роботов будут запрещать явно и законодательно. Минимум - сертификация, максимум полный запрет. Про уничтожение роботов с трансляцией в реальном времени не пишу - это и так очевидно. Будут ломать всеми возможными способами при их появлении в публичных пространствах.
5. Резкое ужесточение всех экзаменов и применение тотального прокторинга
Обман на экзаменах достигнет такого масштаба что приведет к созданию экзаменационных центров не имеющих связи с интернетом, с глушилками связи, суровыми последствиями нарушений правил и огромными штрафами за нарушения (хорошо хоть не уголовные дела). Будет взлет стартапов обеспечивающих такие экзаменационные центры цифровой начинкой - камеры, ИИ для мониторинга и тд.
Всех с Новым годом! И делитесь Вашими предсказаниями, вероятными, но не самыми очевидными!😎
#thoughts #ideas #happynewyear
1. Резкий рост безработицы в ИТ и больше увольнений в цифровых компаниях.
Включая сокращения 15-25% в крупных компаниях. Затронет сильно неопытных специалистов и тех кто "спокойно сидит, примус починяет". Стоимость опытных специалистов, наоборот, вырастет. Это будет большая перетряска отрасли в целом, болезненная для тех кто в нее только вступил. Соответственно и резкие взлёты и банкротства тоже будут иметь место гораздо больше чем раньше.
2. Первые эксперименты радикальной ИИзации городов.
До конца года начнется или будет объявлено что начнется переход от цифровизации городов к ИИзации с ключевой идеей создания "мозга города" который бы в реальном времени собирал данные, отслеживал инциденты, управлял бы транспортными потоками и так далее. Все цифровые процессы были бы завязаны на этот ИИ, а люди выступали бы наблюдателями там где нельзя автоматизировать датчиками и "руками" там где роботизированные платформы и инструменты не работают. Управление транспортом будет включать централизованный перехват управления автомобилем для въезжающих в город.
3. Включение ударов по ИИ ЦОДам в изменения ядерных доктрин государств.
Может не всех государств, может публично об этом не заявят, но я думаю что заявят просто не голосами первых лиц. Крупнейшие ЦОДы применимые для ИИ и не только будут обозначены как приоритетные цели.
4. Первые законодательные запреты на гуманоидных роботов
Да, будут страны и территории где гуманоидных роботов будут запрещать явно и законодательно. Минимум - сертификация, максимум полный запрет. Про уничтожение роботов с трансляцией в реальном времени не пишу - это и так очевидно. Будут ломать всеми возможными способами при их появлении в публичных пространствах.
5. Резкое ужесточение всех экзаменов и применение тотального прокторинга
Обман на экзаменах достигнет такого масштаба что приведет к созданию экзаменационных центров не имеющих связи с интернетом, с глушилками связи, суровыми последствиями нарушений правил и огромными штрафами за нарушения (хорошо хоть не уголовные дела). Будет взлет стартапов обеспечивающих такие экзаменационные центры цифровой начинкой - камеры, ИИ для мониторинга и тд.
Всех с Новым годом! И делитесь Вашими предсказаниями, вероятными, но не самыми очевидными!
#thoughts #ideas #happynewyear
Please open Telegram to view this post
VIEW IN TELEGRAM
😱9😁6🐳6❤5⚡5🤔4✍3🙏3👍2
Я неоднократно писал про такой продукт с открытым кодом OpenRefine, он малоизвестен в дата инженерной и корпоративно аналитической среде, но хорошо известен многим журналистам расследователям, аналитикам работающим над публикацией данных, всем кто работает в среде с интеграциями в Википедией и Викидатой и многим цифровым библиотекарям, архивистам и тд.
OpenRefine изначально вырос из проекта Google Refine который, в свою очередь, разрабатывался внутри проекта FreeBase который после поглощения Google превратился в Google Knowledge Graph.
OpenRefine позволяет вручную и полувручную, с использованием языка GREL (General Refine Expression Language) или кода на Jython через веб интерфейс чистить табличные наборы данных и сохранять их в CSV и я ряде других форматов. Никакого SQL, сложного кода, зато бесконечный цикл Undo/Redo.
Можно сказать что OpenRefine - это инструмент подготовки данных выросший из экосистемы управления знаниями. Явление он довольно редкое, и сам продукт довольно интересный, но не без ограничений.
Потому что внутри него не СУБД, а граф объектов на Java что резко ограничивало и ограничивает объемы редактируемых датасетов до 100 тысяч записей максимум. Но всё это с удобным UI и возможностью работать чистить данные без глубокого технического погружения в протоколы, SQL запросы и разработку кода.
Какое-то время назад я думал о том не создать ли более эффективную альтернативу OpenRefine. Даже экспериментировал с созданием обвязки с помощью MongoDB mongorefine что было очень прикольным опыт и тренировкой для мозгов, но совершенно точно непригодно для реальной работы потому что MongoDB даёт большую гибкость и очень низкую скорость обработки данных. Это был эксперимент, отложенный для дальнейших размышлений.
Сейчас посмотрев на OpenRefine и его развитие свежим взглядом я могу сказать следующее:
1. Да, с помощью LLM можно очень быстро сделать его аналог, с изначально более-правильной архитектурой на базе Polars + DuckLake или Iceberg, с разделением бэкэнда и фронтэнда/фронтэндов и превратить его в инструмент обогащения данных с помощью LLM и не только.
2. При этом у него очень понятная аудитория, инструмент мог бы быть коммерческим или некоммерческим, важнее что он точно будет востребован
В общем это стало выполнимой задачей, даже для очень небольшой команды в очень обозримые сроки. Но вот я пока довольно активно занят задачами в рамках Dateno что лично для меня даже более интересная задача и несравнимо больший вызов.
Поэтому широко делюсь идеей про создание инструмента очистки и обогащение данных с интерфейсом а ля OpenRefine, но с возможностью очищать и обогащать датасеты в миллионы записей и гигабайтного размера.
#opendata #opensource #ideas #dataquality #dataenrichment
OpenRefine изначально вырос из проекта Google Refine который, в свою очередь, разрабатывался внутри проекта FreeBase который после поглощения Google превратился в Google Knowledge Graph.
OpenRefine позволяет вручную и полувручную, с использованием языка GREL (General Refine Expression Language) или кода на Jython через веб интерфейс чистить табличные наборы данных и сохранять их в CSV и я ряде других форматов. Никакого SQL, сложного кода, зато бесконечный цикл Undo/Redo.
Можно сказать что OpenRefine - это инструмент подготовки данных выросший из экосистемы управления знаниями. Явление он довольно редкое, и сам продукт довольно интересный, но не без ограничений.
Потому что внутри него не СУБД, а граф объектов на Java что резко ограничивало и ограничивает объемы редактируемых датасетов до 100 тысяч записей максимум. Но всё это с удобным UI и возможностью работать чистить данные без глубокого технического погружения в протоколы, SQL запросы и разработку кода.
Какое-то время назад я думал о том не создать ли более эффективную альтернативу OpenRefine. Даже экспериментировал с созданием обвязки с помощью MongoDB mongorefine что было очень прикольным опыт и тренировкой для мозгов, но совершенно точно непригодно для реальной работы потому что MongoDB даёт большую гибкость и очень низкую скорость обработки данных. Это был эксперимент, отложенный для дальнейших размышлений.
Сейчас посмотрев на OpenRefine и его развитие свежим взглядом я могу сказать следующее:
1. Да, с помощью LLM можно очень быстро сделать его аналог, с изначально более-правильной архитектурой на базе Polars + DuckLake или Iceberg, с разделением бэкэнда и фронтэнда/фронтэндов и превратить его в инструмент обогащения данных с помощью LLM и не только.
2. При этом у него очень понятная аудитория, инструмент мог бы быть коммерческим или некоммерческим, важнее что он точно будет востребован
В общем это стало выполнимой задачей, даже для очень небольшой команды в очень обозримые сроки. Но вот я пока довольно активно занят задачами в рамках Dateno что лично для меня даже более интересная задача и несравнимо больший вызов.
Поэтому широко делюсь идеей про создание инструмента очистки и обогащение данных с интерфейсом а ля OpenRefine, но с возможностью очищать и обогащать датасеты в миллионы записей и гигабайтного размера.
#opendata #opensource #ideas #dataquality #dataenrichment
openrefine.org
General Refine Expression Language | OpenRefine
Basics
👍15❤3✍1🙏1🤝1
Разные мысли вслух, включая безумные😎 :
1. Сервисы автогенерации документации сейчас массово используются для документирования репозиториев (zread.ai и аналоги), но пока не применяются массово для других цифровых коллекций объектов/артефактов. Этот подход переносим на другие комплексные объекты (законы, группы законов и НПА, кадастровые коды территорий, подсети, IP адреса, уголовные или арбитражные дела, муниципалитеты и так далее). Не выглядит безумным
2. Персональные данные умерших кто защищает персональные данные тех кто умер и у кого может уже не быть родственников чьи права могут быть затронуты? Государство может установить правила обработки этих данных с указанием периода защиты по аналогии с авторским правом и отчислениями в специальный государственный фонд, Выглядит безумным 😜, но не нереалистичным и болезненным для бизнеса
3. Rewriter сервис переписывания кода с помощью ИИ применимый для замены продуктов с неприятными лицензиями на приятные. Юридически - поди докажи что права нарушены. Пример, делаем проприетарный продукт в котором хотелось бы использовать инструменты под GPL/AGPL/SSPL, но не хочется открывать код. Быстро наберет популярность на волне хэйта. Не выглядит безумным, но очень специфичным
4. Автоматические порталы данных для стран где нет порталов данных. Это пара десятков стран для которых могут работать автономные ИИ агенты собирающие данные с официальных сайтов, упаковывающие их в наборы данных и публикующие в автоматическом или полуавтоматическом режиме. Актуально для всех очень малых стран где ничего такого нет. Безумным не выглядит, но монетизация тоже маловероятна. Зато перезапуск региональных и городских порталов данных реалистичен.
#opendata #ai #thoughts #ideas
1. Сервисы автогенерации документации сейчас массово используются для документирования репозиториев (zread.ai и аналоги), но пока не применяются массово для других цифровых коллекций объектов/артефактов. Этот подход переносим на другие комплексные объекты (законы, группы законов и НПА, кадастровые коды территорий, подсети, IP адреса, уголовные или арбитражные дела, муниципалитеты и так далее). Не выглядит безумным
2. Персональные данные умерших кто защищает персональные данные тех кто умер и у кого может уже не быть родственников чьи права могут быть затронуты? Государство может установить правила обработки этих данных с указанием периода защиты по аналогии с авторским правом и отчислениями в специальный государственный фонд, Выглядит безумным 😜, но не нереалистичным и болезненным для бизнеса
3. Rewriter сервис переписывания кода с помощью ИИ применимый для замены продуктов с неприятными лицензиями на приятные. Юридически - поди докажи что права нарушены. Пример, делаем проприетарный продукт в котором хотелось бы использовать инструменты под GPL/AGPL/SSPL, но не хочется открывать код. Быстро наберет популярность на волне хэйта. Не выглядит безумным, но очень специфичным
4. Автоматические порталы данных для стран где нет порталов данных. Это пара десятков стран для которых могут работать автономные ИИ агенты собирающие данные с официальных сайтов, упаковывающие их в наборы данных и публикующие в автоматическом или полуавтоматическом режиме. Актуально для всех очень малых стран где ничего такого нет. Безумным не выглядит, но монетизация тоже маловероятна. Зато перезапуск региональных и городских порталов данных реалистичен.
#opendata #ai #thoughts #ideas
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡6❤2🔥1👏1😁1
Полезные ссылки про данные, технологии и не только:
- Open Responses открытая спецификация на API для LLM на базе OpenAI Responses API. Вообще API OpenAI и так уже было стандартом де-факто, а тут уже и формализированный и описанный стандарт. Не вижу какой-то конкретной организации за его разработкой, похоже на частную инициативу
- Using AI as a Design Engineer о работе дизайн инженера с использованием ИИ, многое похоже на разработку ПО в целом, но есть свои особенности вроде интеграции с Figma MCP
- Can A.I. Generate New Ideas? может ли ИИ генерировать новые идеи? Статья в NYT, под пэйволом. Краткое изложение можно прочитать тут
- How UK museums are embracing citizens’ assemblies to help frame their futures интересное явление когда британские музеи начали создавать общественные советы которые должны помогать им определять их будущее
#uk #museums #ai #llms #design #ideas #readings
- Open Responses открытая спецификация на API для LLM на базе OpenAI Responses API. Вообще API OpenAI и так уже было стандартом де-факто, а тут уже и формализированный и описанный стандарт. Не вижу какой-то конкретной организации за его разработкой, похоже на частную инициативу
- Using AI as a Design Engineer о работе дизайн инженера с использованием ИИ, многое похоже на разработку ПО в целом, но есть свои особенности вроде интеграции с Figma MCP
- Can A.I. Generate New Ideas? может ли ИИ генерировать новые идеи? Статья в NYT, под пэйволом. Краткое изложение можно прочитать тут
- How UK museums are embracing citizens’ assemblies to help frame their futures интересное явление когда британские музеи начали создавать общественные советы которые должны помогать им определять их будущее
#uk #museums #ai #llms #design #ideas #readings
www.openresponses.org
Open Responses
Open Responses documentation overview.
✍5⚡2