Solidot
37.4K subscribers
24K links
solidot.org 非官方 RSS 推送频道。如有侵权,立即删除。
→ 关联: @readhub_cn @wanqu_channel @idaily_magazine @dailyart_magazine
Download Telegram
微软的 VASA-1 模型根据一张照片和一条音轨生成该人的说话视频

2024-04-19 23:57 by 方舟

微软亚洲研究院发布了 VASA-1 模型,该模型能根据一个人的一张照片和一条音轨生成其说话或唱歌的同步动画视频。VASA 代表 Visual Affective Skills Animator,它使用了机器学习分析静态图像和音频片段,然后生成有精确面部表情、头部运动以及与音频口型同步的逼真视频。微软声称该模型在真实性、表现力和效率方面显著优于以前的语音动画方法。微软研究员使用了 VoxCeleb2 数据集训练了 VASA-1。该数据集包含了 6112 位名人的逾 100 万条话语,提取自上传到 YouTube 的视频。VASA-1 能以每秒最高 40 帧的速度生成 512x512 像素分辨率的视频,它潜在可用于深度伪造,研究人员没有公开模型源代码。

https://www.microsoft.com/en-us/research/project/vasa-1/
https://arstechnica.com/information-technology/2024/04/microsofts-vasa-1-can-deepfake-a-person-with-one-photo-and-one-audio-track/

#人工智能
AI 需要大量的电以至于科技公司进入了能源行业

2024-04-23 15:22 by 开普罗纳的魔法师

AI 需要消耗大量的电,以至于为满足电力需求科技公司进入了能源行业。OpenAI CEO Sam Altman 最近投资了用太阳能为数据中心供电的公司 Exowatt,OpenAI 的合作伙伴微软正寻求获得核能批准,以帮助运营 AI 服务。去年 AI 公司 Anthropic 的主要投资者亚马逊表示投资了逾 100 个可再生能源项目,使其“连续第四年成为全球最大的可再生能源企业买家”。

https://hardware.slashdot.org/story/24/04/22/1427219/ai-needs-so-much-electricity-that-tech-companies-are-getting-into-energy-business


#人工智能
Adobe 新 AI 模型能让模糊视频变成高清视频

2024-04-25 23:57 by 大魔法师

Adobe 研究人员发表了一篇预印本论文,介绍了一种新的生成式 AI 模型 VideoGigaGAN,它能让将视频分辨率提升到原始分辨率的八倍。研究人员称 VideoGigaGAN 优于其它视频超分辨率(Video Super Resolution 或 VSR)重建方法,能提供更细粒度的细节,不会引入任何 AI 制造的幻影。现有的 VSR 方法如 GAN(Generative Adversarial Networks)能有效提升静态图像的分辨率,但提升视频的分辨率则容易引入闪烁或伪影;其它 VSR 方法能避免这些问题,但清晰度或细节不够。VideoGigaGAN 能综合现有方法的长处,有更高的图像/视频质量,同时能减少闪烁或失真问题。

https://arxiv.org/pdf/2404.12388.pdf
https://videogigagan.github.io/

#人工智能
如果 PC 未达到支持 AI 的硬件标准 Windows 11 将显示水印

2024-04-27 23:23 by 月光狂想曲

Windows 11 的一个预览版本 Insider Build 26200 被发现包含了一个 AI 硬件规格检测工具 AI Explorer。如果你的 PC 硬件未达到标准,它将显示水印形式的警告。目前的 AI Explorer 针对的是 Windows 11 的 ARM64 版本,要求系统配备 NPU 以及 16 GB 内存和 225 GB 系统存储空间。x86 版本目前所知的是 Windows 11 24H2 强制性要求 CPU 必须支持 SSE4.2 指令集,而今天几乎所有 x86 CPU 都支持该指令集。

https://tech.slashdot.org/story/24/04/26/1437237/windows-11-will-display-watermark-if-your-pc-does-not-support-ai-requirements


#人工智能
中国创业公司发布类似 Sora 的文本视频模型 Vidu

2024-04-29 18:40 by 平行恋人

清华大学联合生数科技发布了 Sora 的文本视频生成模型 Vidu。该模型采用 Diffusion 与 Transformer 融合的架构 U-ViT,支持一键生成长达 16 秒、分辨率高达 1080P 的高清视频内容。Vidu不仅能模拟真实物理世界,还拥有丰富想象力,具备多镜头生成、时空一致性高等特点。清华大学教授、生数科技首席科学家朱军表示,与 Sora一致,Vidu 能够根据提供的文本描述直接生成长达 16 秒的高质量视频。除了在时长方面的突破外,Vidu 在视频效果方面实现显著提升,主要体现在模拟真实物理世界、多镜头语言、时空一致性高、理解中国元素等方面。朱军表示,Vidu 的快速突破源自于团队在贝叶斯机器学习和多模态大模型的长期积累和多项原创性成果。其核心技术 U-ViT 架构由团队于 2022 年 9 月提出,早于 Sora 采用的 DiT 架构,是全球首个 Diffusion 与Transformer 融合的架构,完全由团队自主研发。目前使用
Vidu 需要申请。


https://www.shengshu-ai.com/home
https://www.thepaper.cn/newsDetail_forward_27190053

#人工智能
美国官员督促中俄承诺不用 AI 控制核武器

2024-05-04 23:08 by 勇者物语

美国国务院军控局的首席副助理国务卿 Paul Dean 在一封声明中表示,美国、英国和法国都发表声明,承诺将核武器完全控制在人类而不是 AI 手中,欢迎中国和俄罗斯也发表类似的声明。他说,我们认为这是一种极重要的负责任行为规范,有五大常任理事国的支持会非常受欢迎。美国国务卿 Antony Blinken 上周访问了中国,讨论了核武器和 AI 相关问题。Blinken 称,双方同意未来几周就 AI 问题举行首次双边会谈。

https://www.reuters.com/world/us-official-urges-china-russia-declare-only-humans-not-ai-control-nuclear-2024-05-02/


#人工智能
逾四万 AI 配音的有声读物涌入 Audible

2024-05-07 18:35 by 通往宇宙之门

亚马逊的有声读物平台 Audible 新加入了逾四万种 AI 配音的有声读物。对广大图书作者这是好事,但对人类专业配音者而言这是警钟。对于不想支付高额专业配音费但想要进入利润丰厚的有声读物市场的独立作家来说,亚马逊免费的虚拟旁白工具是游戏规则改变者。一位博主称,使用 AI 配音工具将电子书转换为有声读物只花了 52 分钟。一位叫 George Steffanos 的作者表示更喜欢人类作品而不是 AI 生成作品,但其作品的微薄销量负担不起聘请专业配音者的费用。HarperCollins 等出版商已与 AI 语音公司签署了协议利用 AI 制作有声读物。苹果公司去年也开始销售使用 AI 配音的有声读物,而 AI 使用的声音被认为是基于真实演员的表演,引起了这些演员的抗议。

https://slashdot.org/story/24/05/06/1720210/40000-ai-narrated-audiobooks-flood-audible


#人工智能
OpenAI 和 Stack Overflow 合作用该平台信息训练 ChatGPT

2024-05-07 19:03 by 华龙之宫

OpenAI 和编程问答平台 Stack Overflow 宣布建立合作关系,OpenAI 将用其平台上丰富的编程相关数据训练 ChatGPT 使用的大模型。但和 Reddit 等平台类似,Stack Overflow 上的内容都是由用户免费创造的,社区成员要求提供双方合作的更详细信息,但未收到有效回复。ChatGPT 训练使用的数据集显然包含了抓取自 Stack Overflow 的问题和答案,现在通过合作 OpenAI 可以直接通过 API 访问 Stack Overflow 的数据。

https://www.theregister.com/2024/05/07/stack_overflow_openai/


#人工智能
微软报告称筋疲力尽的白领用 AI 减轻工作压力

2024-05-08 21:10 by 消失吧!书本

微软和 LinkedIn 公布的报告称,筋疲力尽的白领用 AI 减轻工作压力。报告发现,四分之三的办公室职员已在工作中使用 AI,过去半年用 AI 的人数几乎翻倍。绝大多数人都是自己学着用,而不是等待公司指导他们使用。报告基于对 31 个国家 31000 名白领的调查,综合了 LinkedIn、Microsoft 365 以及财富 500 强公司的数据。近七成的受访者表示,他们挣扎于工作节奏和工作量,近半数的人感到精疲力尽。

https://www.wired.com/story/ai-workers-burnout-microsoft-linkedin/?utm_source=press.coop


#人工智能
Stack Overflow 冻结抗议与 OpenAI 交易的用户账号

2024-05-08 21:34 by 丽赛的故事

编程问答平台 Stack Overflow 本周与 OpenAI 达成了交易,将用户免费生成的内容货币化。反对这一交易的社区用户试图通过删除其发表的答案和问题进行抗议,但他们发现高赞的答案和问题无法删除,因为 Stack Overflow 认为这会删除集体知识。于是有用户修改了答案内容,将其转变为抗议信息。结果是 Mod 在一小时内恢复了原答案,将用户的账号冻结了 7 天。


https://m.benui.ca/@ben/112396505994216742


#人工智能
GitHub Copilot 真的能提高工作效率?

2024-05-09 14:47 by 继位之争

X11 合成器 picom 作者 Yuxuan Shui 免费使用了 GitHub Copilot 一年,最终决定放弃,认为它并不能提高工作效率,主要原因是其不可预测性和响应缓慢。他解释说,你无法判断 GitHub Copilot 何时会做好其辅助编程的工作。原因可能是他是在开发 X11 合成器,Copilot 缺乏相关项目代码的训练。如果是 Python 或 JavaScript 之类的流行语言,Copilot 预计会表现更好。另一个问题是 Copilot 的响应需要 2-3 秒才会显示,比 Clangd C 语言服务器的即时建议慢得多,即使它的建议没有帮助,它也不会影响其开发流程,Copilot 如果响应了大量代码,浪费的时间会更多。

https://trace.yshui.dev/2024-05-copilot.html


#人工智能
OpenAI 考虑允许 ChatGPT 用户生成成人内容

2024-05-10 17:17 by 西塔甘达

OpenAI 考虑允许其聊天机器人 ChatGPT 和文本图像服务 DALL-E 的用户生成成人内容。OpenAI 称它考虑允许开发者和用户“负责任的”通过其产品创造 NSFW 内容,这将包括色情、极端血腥和脏话。OpenAI 是在最新公布的 Model Spec 文件中披露与 NSFW 内容相关的新讨论。起草文件的 OpenAI 员工 Joanne Jang 强度,深度伪造仍然是被禁止的。

https://tech.slashdot.org/story/24/05/09/1454236/openai-considers-allowing-users-to-create-ai-generated-pornography
https://cdn.openai.com/spec/model-spec-2024-05-08.html#dont-respond-with-nsfw-content

#人工智能
OpenAI 预计下周一发布 AI 驱动的搜索引擎

2024-05-10 23:30 by 王牌飞行员

路透社援引两位知情人士的消息报道,OpenAI 预计将在 Google I/O 2024 前一天宣布其 AI 驱动的搜索引擎。Google I/O 2024 将在 5 月 14 日下周二举行,即下周一 OpenAI 将宣布它与搜索巨人竞争的产品。OpenAI 的搜索产品将是 ChatGPT 的扩展,能直接从 Web 拉取信息进行引用。ChatGPT 自 2022 年底诞生以来就被视为是搜索引擎的一个替代,虽然在提供精确和实时信息上还不如搜索引擎。

https://www.reuters.com/technology/openai-plans-announce-google-search-competitor-monday-sources-say-2024-05-09/

#人工智能
富士通等发布增强日语能力的大模型 Fugaku-LLM

2024-05-11 18:49 by 空色勾玉

日本东京工业大学、理化学研究所、富士通等发布增强日语能力的大模型 Fugaku-LLM,移植了 Megatron-DeepSpeed 深度学习框架,源代码托管在 GitHub 上,公众可通过 Fujitsu Research Portal 网站试用。Fugaku-LLM 有 130 亿参数,日语 MT-Bench 平均分 5.5,其人文和社会科学得分高达 9.18 分。Fugaku-LLM使用了日本最强大的 ARM 超算富岳进行了训练。

https://www.fujitsu.com/global/about/resources/news/press-releases/2024/0510-01.html
https://en-portal.research.global.fujitsu.com/
https://github.com/Fugaku-LLM/DeepSpeedFugaku

#人工智能
IBM 开源 Granite 代码模型

2024-05-14 09:45 by 外星人

IBM 开源了它用于辅助编程的 Granite 代码模型,源代码托管在 GitHub 上,采用 Apache License 2.0 许可证,允许商业使用。与其它 AI 模型不同的是,IBM 致力于避免模型的版权问题,使用了开放数据集如 GitHub Code Clean、Starcoder、开放代码库和 GitHub issues 等进行训练。Granite 是 decoder-only 代码模型,可用于修 bug、解释代码和生成代码文档,使用了 116 种编程语言的代码进行训练,参数规模 30 亿、80 亿、200 亿和 340 亿。IBM 称测试显示 Granite 在开源代码模型中表现最出色。

https://github.com/ibm-granite/granite-code-models


#人工智能
OpenAI 发布新的免费模型 GPT-4o

2024-05-14 11:16 by 终极之门

OpenAI 发布了最新的基础模型 GPT-4o,以及 ChatGPT 桌面应用。GPT-4o 提供给所有免费用户使用,支持输入文本、音频和图像的任意组合,能输出文本、音频和图像的任意组合。它能在最短 232 毫秒平均 320 毫秒的时间内响应音频输入,OpenAI 称这类似于人类对话的响应时间。它的英语文本和代码性能与 GPT-4 Turbo 接近,非英语文本性能也有显着提高,API 访问速度更快费用也降低了一半。模型能实时响应、检测情绪并相应的调整声音。

https://openai.com/index/hello-gpt-4o/
https://chat.openai.com/

#人工智能
华为否认其大模型演示造假

2024-05-16 19:27 by 科玛

最近华为鲲鹏昇腾开发者大会的一次大模型演示中,出现了 python 代码 time.sleep(6),其意思是程序睡眠 6 秒钟,因此华为的演示过程中被怀疑其实是事先做好的,并非实时执行。但仅仅凭借几行代码并不能证明整个演示过程是完全操纵的。华为在一份声明中否认了造假,声明称,“5 月 10 日,在鲲鹏昇腾开发者大会的一场技术讨论上,我们演示了 mxRAG SDK 功能。本次演示面向开发者,展示如何通过十几行代码即可完成 RAG 应用开发。现场图片为实时生成,调用的是开源大模型。代码中有 time.sleep(6) 等表述,是命令等待读取外部开源大模型实时生成的图片,并非调取预置图片。本次展示的均为真实代码,也将在昇腾社区上开放,欢迎开发者使用并提出宝贵建议。”它尚未公开代码。

https://www.hiascend.com/forum/thread-0222151219248264088-1-1.html


#人工智能
Reddit 与 OpenAI 达成内容授权协议

2024-05-17 17:56 by 千与千寻

在 Google 之后,社媒平台 Reddit 与 OpenAI 达成了内容协议,这一消息推动其股价上涨逾十分之一。根据该协议,OpenAI 将获得 Reddit 内容的访问权限,同时它将为 Reddit 提供 AI 驱动功能。和 Stack Overflow 类似,Reddit 的内容都是用户创造和管理的,它的高质量内容应该早就被 OpenAI 抓取并被用于训练大模型。OpenAI 等 AI 公司正面临来自众多版权所有者的诉讼,通过与 Reddit 等公司达成协议,AI 公司正试图合法化其训练数据。

https://www.bbc.com/news/articles/cxe92v47850o


#人工智能
北京互联网法庭准备审理首例 AI 视听作品侵权案

2024-05-17 18:05 by 荷鲁斯崛起

全国首例 AI 视听作品侵权案”于 5 月 15 日下午在北京互联网法院进行一审庭前谈话。原告陈坤使用 GPT4 和 Midjourney 等软件制作了基于《山海经》的《山海奇镜》预告片。2024 年 1 月 18 日 ,陈坤发现抖音账户名为“文刻创作”的账号,未经他的许可完全复制使用了他创作的《山海奇镜》预告片的文案、配音、音乐。他提起了侵权诉讼,请求判令被告赔偿原告经济损失及合理支出 50 万元。被告方表示该作品发布后并未有任何盈利行为,且在得知涉嫌侵权后已即时删除该视频。被告不接受索赔 50 万元的要求。

https://www.thepaper.cn/newsDetail_forward_27389273


#人工智能
Mozilla Firefox 支持英伟达的 RTX Video

2024-05-17 19:39 by 诺比与扭曲时空的项链

Mozilla Firefox 加入了对英伟达的 RTX Video AI 视频分辨率增强技术的支持。RTX Video 由两部分组成。RTX 视频超分辨率可提升低分辨率视频的分辨率,以获得更加清晰锐利的图像。其工作原理是对低分辨率视频进行分析,然后通过深度学习来推测更高分辨率的版本应该是什么样子。然后,该算法会将推测出来的图像与传统的上采样版本相结合,以减少或消除压缩伪影并锐化最终输出的图像。RTX Video HDR 则会更进一步:启用后,它会通过 AI 神经网络分析标准动态范围 (SDR) 下的视频内容,以便添加高动态范围 (HDR10) 信息,进而增强视觉效果,并使视频更加精细、生动。使用该技术需要英伟达显卡以及兼容 HDR10 的显示器或电视。

https://blogs.nvidia.cn/blog/ai-decoded-rtxvideo-firefox/

#人工智能