AI及信息技术应用2024年9月1日简报

Sep 02, 2024

上周，AI产业及应用研究领域取得了多项关键进展。阿里云推出了Qwen2-VL视觉语言模型，性能超越了GPT-4o和Claude 3.5-Sonnet。Magic公司与谷歌、NVIDIA合作，构建下一代AI超级计算机，并发布LTM-2-mini模型。谷歌开发的GameNGen系统实现了无需传统引擎的实时游戏生成。智谱AI与清华大学发布CogVideoX-5B文本转视频模型，NVIDIA推出Eagle多模态模型。亚马逊与Anthropic合作推出改进版Alexa。

此外，法国对Telegram CEO提起指控，近半数获FDA批准的AI医疗设备未经真实患者数据训练，引发安全性担忧。

1，AI产业及应用研究

阿里云发布Qwen2-VL视觉语言模型，性能超越GPT-4o和Claude 3.5-Sonnet
[摘要]：阿里云推出了Qwen2-VL视觉语言模型，该模型在视觉理解基准上取得最佳表现，并支持图像中的多语言文本识别。Qwen2-VL能够理解超过20分钟的视频，适用于基于视频的问答、对话、内容创建等场景。该系列的72B模型在性能上超越了GPT-4o和Claude 3.5-Sonnet。开源的Qwen2-VL-2B和Qwen2-VL-7B属于Apache 2.0协议，而最大的Qwen2-VL-72B则可以通过官方API访问。

Magic推出LTM-2-mini模型，显著优化注意力机制并与Google和NVIDIA合作构建下一代AI超级计算机
[摘要]：Magic宣布成功训练了LTM-2-mini模型，这款100M令牌上下文模型在优化效率方面表现出色，其注意力机制的成本仅为Llama 3.1的约千分之一（100M令牌上下文窗口需要405B）。此外，Magic正在与Google和NVIDIA合作，在Google Cloud上构建他们的下一代AI超级计算机，以进一步推动AI技术的发展。

智谱GLM-4-Flash 免费开放

[摘要]：在大型模型技术不断进步的背景下，GLM-4-Flash 宣布免费向公众开放。用户只需在 bigmodel.cn 注册开放平台，即可免费调用 GLM-4-Flash 构建自己的专属模型和应用。GLM-4-Flash 的开放标志着 AI 技术普惠性的一大进步，旨在降低开发者的门槛，促进更多创新应用的出现。该模型具备强大的生成能力，支持多种应用场景，如内容创作、数据分析和智能客服等，为用户提供高效的 AI 解决方案。

谷歌研究人员开发GameNGen系统，无需传统引擎即可实时生成《毁灭战士》游戏玩法
[摘要]：谷歌研究人员创新性地开发了GameNGen系统，这是一种能够在不依赖传统游戏引擎的情况下实时生成经典射击游戏《毁灭战士》游戏玩法的神经网络。GameNGen利用扩散模型预测每帧，实现在单个芯片上以每秒20帧的速度生成可玩的游戏内容，标志着游戏生成技术的重大进展。

智谱AI与清华大学联合发布CogVideoX-5B文本转视频模型
[摘要]：智谱AI与清华大学联合推出了CogVideoX-5B文本转视频模型，该模型能够生成6秒长、720×480分辨率、8帧/秒的视频。与此同时，CogVideoX-2B模型的开源许可协议已更新为Apache 2.0许可协议。

NVIDIA 与全球合作伙伴推出 NIM Agent Blueprints，助力企业构建自有 AI

[摘要]：NVIDIA 宣布推出 NIM™ Agent Blueprints，提供一系列预训练的可定制 AI 工作流，帮助企业快速构建和部署生成型 AI 应用。这些蓝图包括客户服务数字人、药物发现虚拟筛选和 PDF 数据提取等核心应用场景。企业可以利用这些蓝图结合 NVIDIA NeMo™ 和 NIM 微服务，以及合作伙伴的技术，创建数据驱动的 AI 应用。全球顶级咨询公司如 Accenture、Deloitte 和 SoftServe 等，将帮助企业快速实施这些解决方案。NIM Agent Blueprints 可免费体验并下载，并可通过 NVIDIA AI Enterprise 平台进行生产部署。

Nvidia 发布Eagle：突破性多模态大型语言模型
[摘要]：Nvidia 推出了Eagle，这是一系列融合了视觉编码器的多模态大型语言模型 (MLLM)。Eagle 支持高达 1K 以上的输入分辨率，并在多模态 LLM 基准测试中表现出色，特别是在分辨率敏感的任务，如光学字符识别和文档理解中取得了优异的成绩。

Zyphra 发布 Z amba2-1.2B：创新混合模型实现领先性能
[摘要]：Zyphra 推出了 Z amba2-1.2B，这是一种结合了状态空间 (Mamba) 和 transformer 块的混合模型。该模型在 2B 参数以下的规模中达到了最先进的性能，并且与许多大型模型具有竞争力。相比类似的基于 transformer 的模型，Z amba2-1.2B 具有较低的推理延迟、快速生成能力和较小的内存占用。

KTransformers 推出前沿优化框架，支持百万级上下文窗口

[摘要]：KTransformers 是一个全新推出的 Python 框架，旨在通过对大型语言模型 (LLM) 推理进行前沿优化，简化实验流程。该框架的重要性在于它能够在 InternLM2.5-7B-Chat-1M 模型下支持多达 100 万个上下文窗口，展示了其在处理大规模对话历史和复杂推理任务中的强大潜力。这一能力为 LLM 应用的扩展性和效率提升提供了新的可能性。

亚马逊与Anthropic合作，推出由Claude驱动的改进版Alexa

[摘要]：据路透社报道，亚马逊改进后的Alexa虚拟助手将由Anthropic的Claude聊天机器人提供支持，其性能优于亚马逊的内部AI模型。为此，亚马逊已向Anthropic投资约40亿美元。新的智能版Alexa预计每月收费5至10美元，而经典版将免费提供。这一合作标志着亚马逊在AI助手领域的重大升级，旨在提升用户体验。2，产品市场创新

Aider：AI 结对编程工具，支持 LLM 和本地 git 存储库
[摘要]：Aider 是一款 AI 结对编程工具，允许用户在终端中直接编辑代码，并与本地 git 存储库无缝协作。它兼容多种大型语言模型 (LLM)，包括 GPT-4o 和 Claude 3.5 Sonnet。

DeepSeek-AI 推出 Fire-Flyer AI-HPC：经济高效的深度学习软硬件协同设计
[摘要]：DeepSeek-AI 的研究团队发布了 Fire-Flyer AI-HPC 架构，这是一个结合硬件和软件设计的综合框架，重点关注性能优化、成本效益和节能。Fire-Flyer 2 采用了 10,000 个 PCIe A100 GPU，提供了与 NVIDIA DGX-A100 相当的性能，但在成本上降低了 50%，能耗减少了 40%。这些节省归功于精心的工程设计和优化的系统组件。

Jina AI 推出“晚期分块”：利用长上下文嵌入模型的强大功能来嵌入短块
[摘要]：Jina AI 推出了“晚期分块”方法，旨在充分利用长上下文嵌入模型（长度达 8192）的丰富上下文信息。这种技术通过改进嵌入块方法，有望弥补长上下文模型与实际应用需求之间的差距，解决传统 RAG 流程中存在的长距离上下文依赖关系破坏问题。研究人员展示了扩展上下文长度的潜力，提供了更有效的短块嵌入解决方案。

GuideLLM 发布：优化大型语言模型部署的全面解决方案
[摘要]：GuideLLM 是一款全面的工具，旨在帮助用户评估大型语言模型（LLM）在不同硬件配置上的性能、资源需求和成本影响。它通过模拟真实的推理工作负载，确保模型部署的高效性和可扩展性。主要功能包括性能评估、资源优化、成本估算和可扩展性测试，使用户能够在高性能与成本控制之间取得平衡，尤其适用于在生产环境中部署 LLM 的组织。

2，产品市场创新

Grammarly 推出 AI 文本检测工具 Grammarly Authorship

[摘要]：Grammarly 本周推出了一项名为 Grammarly Authorship 的新功能，旨在帮助教育工作者识别学生使用 AI 撰写的作业。该工具通过实时跟踪写作过程，将文本分类为手动输入、复制粘贴或由 AI 生成，并与 Google Docs、Microsoft Word 和 Apple Pages 等写作平台集成。Grammarly 希望通过此功能促进关于 AI 在教育中应用的对话，同时避免现有 AI 检测工具误报的问题。教育工作者是该功能的主要目标用户。

谷歌推出 Gemini AI 新功能：个性化自定义“Gem”

[摘要]：谷歌为其 Gemini AI 推出了新功能，允许用户创建自定义“Gem”——个性化的 AI 专家，专注于特定任务。这一功能旨在增强 Gemini AI 的适用性和专业性，为用户提供更为精准和定制化的 AI 解决方案，他还集成使用最新的 Imagen 3 模型增强图像生成功能

谷歌在 Android 上推出人工智能Gmail聊天机器人
[摘要]：谷歌正在向 Android 用户推出 Gemini AI 聊天机器人“Gmail Q&A”，帮助用户更高效地与收件箱互动。该功能首次在 Google I/O 上展示，能够搜索电子邮件、总结内容并查找特定详细信息，适用于 Google One AI Premium 和部分 Google Workspace 计划，并将于本周四开始推出，覆盖所有用户可能需要长达 15 天。

Google Meet 推出自动 AI 笔记功能
[摘要]：Google Meet 推出了“帮我记笔记”功能，使用人工智能自动总结会议内容而非仅记录。此功能能够捕捉关键点并生成 Google Doc 摘要，文档会自动附加到日历事件中，还支持错过的会议摘要和录音链接。全面推出将于 2024 年 9 月 10 日完成。

3，合规和监管

法国对 Telegram 首席执行官提起刑事指控，Telegram 面临重大危机

[摘要]：《金融时报》警告称，法国对 Telegram 首席执行官 Pavel Durov 提起的刑事指控可能对这家社交网络和消息应用程序公司造成灾难性影响。Telegram 目前处于亏损状态，已通过债务融资筹集了约 24 亿美元，并且债券将于 2026 年到期。由于平台与儿童性虐待内容有关，Telegram 近期不太可能进行 IPO。同时，欧盟委员会正在调查其报告的用户数量，该数量略低于欧盟对公司实施严格内容审核规则的门槛。

Scale AI 裁员潮来袭：1300 名员工被解雇

[摘要]：Scale AI 宣布裁员约 1,300 名员工，突显了科技行业的持续挑战。虽然公司领导层尚未正式公开裁员计划，许多员工仍不清楚自身的工作状态。受影响的员工已通过人力资源供应商 HireArt 收到通知，但这一措施未能消除全职员工的工作不确定性。

Procreate CEO 坚决反对生成式 AI，引发广泛讨论
[摘要]：Procreate 的 CEO 近日在 X 平台上发布了一段视频，明确表达了对生成式 AI 的强烈反感，视频标题写道：“我们永远不会去那里。创造力是创造出来的，而不是生成的。” 这段视频在不到一周的时间内获得了近 1000 万次浏览，引发了设计界的广泛讨论。许多设计师对 Procreate 的立场表示支持，担心 AI 会扼杀创造力并威胁他们的职业。

近半数获 FDA 批准的 AI 医疗设备未经真实患者数据训练
[摘要]：一项由北卡罗来纳大学、杜克大学等机构联合进行的研究发现，约有43%的AI医疗设备在获得FDA批准时并未经过真实患者数据的训练，缺乏临床验证。这项研究由 Sammy Chouffani El Fassi 和 Gail E. Henderson 领导，分析了521种AI医疗设备的临床验证数据，结果显示许多设备依赖于计算机生成的图像进行测试，而非真实患者数据。研究人员呼吁加强对AI医疗设备的临床验证，以确保其安全性和有效性。

AI及信息技术应用简报

Discussion about this post