AI及信息技术应用2024年2月25日简报

Feb 25, 2024

上周在AI产业及应用研究领域，近期的进展显示了技术的快速发展和应用的多样化。OpenAI的Sora模型在视频生成方面取得了显著进步，其能力在时长、稳定性和一致性上超越了现有模型，这为内容创作者提供了新的可能性。Stability AI的Stable Diffusion 3在文本到图像的转换上也展现了新突破，这可能会影响艺术创作和设计领域。谷歌的Gemma模型和Nvidia与Cohere的合作则分别在模型效率和多语言理解上取得了进展，这些进步对于AI技术的普及和应用至关重要。

在产品创新方面，Nvidia的Chat with RTX和Adobe Acrobat的AI助手等工具的出现，展示了AI在个性化体验和文档处理中的应用。Salesforce Tableau的Pulse技术和Google的Gemini Workspace则分别在商业智能和企业运营中引入了AI，这些工具的推出预示着AI在提高工作效率和决策支持方面的潜力。

监管合规方面，谷歌对AI图片机器人的调整和加州新法案的推出，反映了社会对AI技术潜在偏见和安全问题的关注。这些措施有助于确保AI技术的负责任发展，同时也为AI技术的监管提供了新的框架。

1，AI产业及应用研究

OpenAI 发布了视频生成模型 Sora

摘要: OpenAI最近发布了一款强大的视频生成模型Sora。这个模型能生成长达1分钟的视频，并且在时长、稳定性、一致性以及运动幅度上优于现有的其他视频生成模型。Sora可以基于图像和文本作为输入，生成视频。此外，它可以向前或向后扩展视频，生成无缝的无限循环视频。Sora还可以根据文本进行图像和视频的编辑。另外，它还可以在两个输入视频之间逐渐进行插值，在完全不同的主题和场景之间创建无缝过渡。Sora还能生成图像，分辨率高达 2048x2048。

Stability AI 推出 Stable Diffusion 3：文本到图像AI模型新突破

摘要:Stability AI 发布了最新版本的文本到图像AI模型 Stable Diffusion 3，采用扩散变压器架构，突出了文本渲染、多主题生成和高画质等三大亮点。CEO Mostaque展示了其清晰且无拼写错误的文字图片，以及漫画和草图的纹理改进。

谷歌发布开源AI模型Gemma，挑战行业新高度

摘要: 谷歌推出两款开源人工智能模型，其中新型Gemma模型虽小型化，却实现了高效率和低成本，可在较小的设备上运行。据谷歌表示，更大的Gemma 7-B模型在语言、推理和数学技能上超过了Meta的Llama-2模型，同时在数学和编码任务上胜过Mistral的7B模型。

Nvidia与Cohere推出对话工具Chat with RTX与Aya”

摘要: Nvidia发布了名为“Chat with RTX”的聊天机器人早期版本，使用户可以在个人PC上运行AI聊天机器人。Cohere推出的开源AI模型“Aya”可以理解100多种语言，推动AI技术向全球范围内更多人步步逼近。

OpenAI预览先进文本到视频AI模型Sora，超越谷歌Lumiere

摘要: OpenAI不甘落后，新预览的Sora成为迄今最前沿的文本到视频AI模型，较之谷歌不久前发布的Lumiere具有更高级别的技术性。Sora以简单提示生成令人惊叹的高清视频，并可通过模拟动态镜头角度和因果关系来构建3D空间,增强其作为“世界模拟器”的可能性。Sora的推出标志着AI视频模型在不到一年的时间里取得的显著进步。

腾讯发布 YOLO-World：实时、零样本目标检测模型

摘要:腾讯 AI 实验室发布了 YOLO-World，这是一个实时、零样本目标检测模型。YOLO-World 可以通过文本提示来识别图像中感兴趣的对象，而无需训练或微调模型。这使得 YOLO-World 非常适合自动驾驶汽车、监控、机器人等应用场景。YOLO-World 是一个基于 YOLOv5 模型的零样本目标检测模型。只需要向模型提供一个文本提示，描述您想要识别的对象。例如，您可以输入“行人”、“汽车”或“猫”等提示。YOLO-World 然后会分析图像并检测出与提示相匹配的对象。

伯克利人工智能研究实验室发布大世界模型：跨模态自回归模型新突破

摘要:由Pieter Abbeel教授领导的伯克利人工智能研究实验室发布了大世界模型（LWM），这是一系列通用大上下文多模态自回归模型。采用RingAttention技术解决长视频学习挑战，提升模型处理大型上下文的能力。在性能上击败Gemini Pro，与GPT-4持平，可生成高质量视频并回答长视频问题。

YOLOv9：实时对象检测新突破，超越传统模型性能

摘要:YOLOv9是一种实时对象检测模型，利用PGI和GELAN技术解决了深度学习方法中数据丢失的问题，展现了在MS COCO数据集上显著的改进，提高了参数利用率，以更少的计算资源实现了更好的精度，证明了其在现实世界物体检测任务中的有效性。

Meta 基于 LLM 的测试生成器

摘要:Meta 发布了一款基于大型语言模型 (LLM) 的测试生成工具，旨在自动生成软件测试。该工具引发了 Hacker News 社区的热烈讨论，其中一些用户质疑其新颖性，并将其与现有的快照测试技术进行比较。其他用户则讨论了 LLM 在解决软件开发中不良抽象问题方面的有效性，认为它们是一种权宜之计，而非永久解决方案。总体而言，该讨论反映了人们对 Meta 的 LLM 基于测试生成器的潜力和局限性的不同看法。

谷歌与 Reddit 达成人工智能训练数据协议

摘要:谷歌已与 Reddit 建立合作伙伴关系，据报道每年价值 6000 万美元，以获取 Reddit 的实时数据进行人工智能训练。此次合作还将利用谷歌的人工智能技术增强 Reddit 的搜索能力。该协议包括 Reddit 为 Google 提供对其大量内容的高效访问，以及 Google 将 Reddit 数据整合到其产品中。此举是 Reddit 通过数据许可创收战略的一部分，也是其即将上市的准备工作。

ChatGPT 插件即将退场，对话功能保留至 4 月 9 日

摘要:OpenAI 宣布将于 3 月 19 日停止 ChatGPT 插件新对话的创建，但现有对话功能将保留至 4 月 9 日。此举旨在聚焦 GPT 技术，目前 GPT 商店已拥有海量涵盖写作、效率、编程等领域的 GPT 工具。未来，OpenAI 将专注于 GPT 的进一步发展，为用户带来更多可能

Apple 支持人员使用“Apple Ask”工具进行 AI 升级

摘要:Apple 正在通过名为 Apple Ask 的内部人工智能工具将客户支持提升到一个新的水平，让顾问可以轻松地从 Apple 的知识库中获取答案。这一创新工具将彻底改变顾问处理复杂客户查询的方式，并承诺提供事实、可追踪且有用的答复。

AI 计算公司 Lambda 获 $3.2 亿美元融资，加速 AI 云业务布局

摘要：2024 年 2 月 23 日 - 人工智能计算公司 Lambda 宣布获得新一轮 $3.2 亿美元融资，由亿万富翁 Thomas Tull 的 US Innovative Technology 领投。本轮融资将用于加速 Lambda 的 AI 云业务发展，满足科技公司对 AI 技术的日益增长需求。

Spotify推出AI DJ，让音乐与你更亲密连接

摘要：Spotify一直致力于个性化体验，如Discover Weekly和Wrapped等受欢迎的播放列表。如今，他们利用AI的力量推出全新的个性化体验——DJ。这个个性化AI向导了解你的音乐品味，为你精选音乐并提供实时评论，以独特的真实声音呈现。通过Spotify的个性化技术和OpenAI技术的结合，DJ不断优化推荐，让听歌体验更加个性化。这一功能已在美国和加拿大的Spotify Premium用户中推出，让你随时随地享受私人DJ的陪伴。

Moonshot AI 是聊天机器人 Kimi Chat 背后的中国生成人工智能公司，以 2.5B 美元的估值筹集了10 亿美元的新资金

摘要：北京的人工智能初创企业“Kimi”（中文名为“月之暗面”）在一轮新的融资中获得了超过10亿美元的投资，领投方包括电商巨头阿里巴巴集团和风险投资公司洪山。据36氪和LatePost发布的报告，该公司最新一轮融资估值约为25亿美元。该公司自2023年6月成立以来一直备受关注，去年10月推出了基于自家研发的“月球大语言模型”的智能聊天机器人“Kimi Chat”。此次融资是自ChatGPT发布以来中国AI初创企业融资规模最大的一笔，显示了中国对生成式人工智能初创企业的持续兴趣。

微软和英特尔合作达成 150 亿美元的芯片交易

摘要：微软和英特尔联手打造价值超过 150 亿美元的定制芯片！Satya Nadella 的愿景暗示了在英特尔 18A 工艺的支持下，一场改变游戏规则的行业转变。以微软为旗舰客户，英特尔的目标是在日益激烈的竞争中夺回其芯片制造王座。

初创公司Magic宣称AI推理取得显著突破

摘要: Magic，一家专注于构建AI编程“同事”的初创公司，宣布在AI上下文处理能力和推理技术方面取得了重大进步。其新模型的处理能力高达350万词，是Google最新Gemini 1.5的五倍。上周，Magic宣布完成1.17亿美元融资，此新技术的突破可能使得即将推出的大型AI产品备受期待.

OpenFold Biotech发布两款前沿人工智能工具以推动蛋白质研究

摘要: 非营利性人工智能研究组织OpenFold Biotech发布了两款突破性的人工智能工具：SoloSeq和OpenFold-Multimer。这两款完全开源的工具分别用于提升蛋白质结构预测的计算速度和质量。SoloSeq提高了10倍以上的计算速度，特别适用于大型项目和天然及人工蛋白质研究。OpenFold-Multimer作为首个开源系统，提升了蛋白质复合物建模的准确性。这些工具的进步预料将推动蛋白质研究的重大进展，为疾病治疗和生命科学创新提供有力支持。

Sora即将集成到微软Copilot中

摘要: 微软已公布计划将OpenAI的Sora（一个能将文本转换为视频的AI模型）整合到他们的AI聊天机器人Copilot中，这将为开发人员创建一个强有力的新工具，尤其可以在工作中深度利用这两种AI模型的强大功能。虽然微软并未透露具体的整合时间表，但他们已确认正致力于实现这一目标，尽管可能需要一段时间。

Dili为投资尽职调查引进人工智能, 筹集资金360万美元

摘要: 由Stephanie Song，Brian Fernandez 和 Anand Chaturvedi共同创立的初创公司Dili成功筹集了360万美元的资金。Dili积极利用人工智能技术将投资尽职调查和投资组合管理自动化，从而提升私募股权和风险投资公司的效率。尽管人工智能的准确性和偏见即将受到广泛关注，但Dili坚信其可以成为投资者的端到端解决方案。目前，Dili的平台已经在400多位基金和银行分析师之间进行了试点测试。公司的创新网络模型将有助于简化投资者的工作流程，包括解析公司数据以及进行竞争分析等步骤。

亚马逊AGI团队开发出创新的文本转语音模型 BASE TTS

摘要: 亚马逊的通用人工智能 (AGI) 团队近日发布了迄今为止他们开发的最大的文本转语音模型，名为 BASE TTS。这一模型具有9.8亿个参数，并利用了10万小时的录音数据进行训练。其独特优点在于，能够仅基于“几秒钟的参考音频”来模仿人类说话者的特征，大幅度提升了语音生成的自然度和真实感。

OpenAI朝着挑战谷歌的网络搜索王冠勇往直前

摘要: OpenAI正在开发一款全新的网络搜索产品，以对抗现有市场领导者谷歌。这是一项富有冒险性的尝试，得到了微软Bing的支持。此举不仅增加了科技巨头之间的竞争，也可能导致搜索引擎市场结构的变化。不过，OpenAI是否能够成功冲击并重塑我们在数字世界的导航方式，仍需要时间来证实。

Goose: Google推出的Gemini驱动的AI编码助手

摘要: 谷歌正在私下推出一款名为Goose的新编程助手，由先进的人工智能模型Gemini驱动。这一工具旨在加速产品的开发进程并简化工程任务，预计将彻底改变科技巨头的编码流程。通过将Gemini的AI能力集成到其内部，谷歌在引领一种前所未有的，以人工智能为基础的编程方式。

Andrej Karpathy 再度离开OpenAI，计划深入自主项目

摘要: AI领域著名科学家Andrej Karpathy第二次离开OpenAI，计划投身个人项目深入研究。Karpathy在OpenAI的贡献和影响力深远，他的离职成为业界关注焦点。

OpenAI发布ChatGPT的新记忆功能，根据偏好提供个性化答案

摘要: OpenAI宣布ChatGPT的新记忆功能，使其在先前的对话基础上建立上下文和记忆，根据用户的偏好提供个性化答案。用户可以指示ChatGPT记住特定的指令，例如以条目符号格式化答案或根据行业需求调整答案。尽管会使用用户的记忆数据来训练模型，但用户可以选择在设置中关闭该功能。目前，该记忆功能正与部分用户进行测试，并且适用于自定义的GPT模型。

Kong推出新的开源AI网关，简化构建多LLM应用的流程

摘要: API公司Kong发布了其开源AI网关，这是其现有API网关的扩展，允许开发者和运营团队通过单一API整合他们的应用与一个或多个大型语言模型（LLMs）。此外，Kong还推出了多项专门针对AI的新功能，包括提示工程、凭证管理等。新API网关使开发者在构建AI应用时更具效率，无需更改代码即可使用一个或多个LLM提供商。

人工智能驱动的心律失常分析平台Vektor Medical完成1600万美元A轮融资

摘要：Vektor Medical，一款采取非侵入性手段并由人工智能驱动的心律失常分析平台，成功获得由Solas BioVentures和TVM Capital Life Science共同领投的1600万美元A轮融资。

2，产品创新

Nvidia推出新款聊天机器人——Chat with RTX，让个性化AI聊天机器人在个人电脑上运行

摘要: Nvidia的突破性应用程序——“Chat with RTX”，采用自定义AI，用户可以用以创建自己的聊天机器人，运行环境在具有RTX技术的个人Windows电脑上。有别于OpenAI的ChatGPT的云计算方式，Chat with RTX全面实现离线运行，为用户带来独特的个性化AI体验。

Summary Cat：让 YouTube 内容更易于访问

摘要： Summary Cat 是一款旨在让 YouTube 内容更易于访问的工具。它通过自动生成简明的视频摘要，以段落和要点格式呈现，帮助观众快速了解视频内容的核心信息。

Foto.ai：用人工智能助力电商平台提升产品展示

摘要： iFoto.ai 是一家利用人工智能技术为电商平台提供摄影工作室服务的公司。我们致力于通过虚拟时装模特、自动背景变化和图像增强等功能，帮助电商平台提升产品展示效果，助力商家提高销量。

谷歌暂停人工智能工具 Gemini 的图像生成

摘要:谷歌暂时停止了Gemini生成人物图像的能力，理由是需要提高该工具在历史描述中的准确性。该公司采取的积极举措旨在解决最近对生成历史上不准确图像的批评，强调其对负责任的人工智能使用的承诺。在社交媒体平台 X 上发布的公告中，谷歌概述了其完善 Gemini 功能的计划，以确保更准确、更尊重地再现历史人物和场景。

Salesforce Tableau 发布 Pulse 技术，用 AI 赋能商业智能

摘要：2024 年 2 月 22 日Salesforce 宣布其 Tableau Pulse 技术正式上市，该技术利用多项 AI 技术，包括生成式 AI，帮助企业从数据中获得更多商业智能洞察力。Tableau Pulse 超越了传统 BI 仪表板的局限性，使用自然语言查询和数据可视化，提供特定于每个组织的洞察力。

Zenfetch：您的个人人工智能搜索引擎和助手

摘要：Zenfetch 是一款创新工具，可将您的网页内容转变为强大的个人搜索引擎和助手。借助 Zenfetch，您可以轻松保存、搜索和与您的文章、视频和 PDF 进行互动，以全新的方式体验您的数字内容。

Adobe Acrobat 新增生成式AI功能，开启与文档的对话新篇章

摘要: "Adobe Acrobat引入了一款名为“AI助手”的新工具，实现了对文档的生成式AI处理，使得文档信息的提取和理解更加便捷。此项功能不仅能为用户总结文件信息，检出潜在问题，并对PDF内容相关问题给出答案，还能根据内容推荐更多相关信息，让用户能与文档“聊天”，更高效地获取所需信息。未来还将添加文档草稿创建、AI图像生成等功能，目前只对付费用户开放。"

Google 推出 Gemini Workspace

摘要:谷歌刚刚推出了新的 Gemini Workspace，这是一款功能强大的人工智能驱动套件，将与微软的 Copilot 和 Microsoft 365 正面交锋。 Gemini Workspace 具有电子邮件起草帮助、数据分析和文档创建等功能，将彻底改变生成式人工智能时代的企业运营方式。

马斯克发布Grok 1.5，推出新的人工智能功能

摘要: 马斯克宣布推出Grok 1.5，这是其人工智能聊天机器人的最新版本，用户将在未来几周内通过X（前称Twitter）来获得这个版本。Grok 1.5增加了一个'Grok Analysis'按钮来汇总帖子和回复，而且提供了新的帮助用户创建帖子的功能。这个版本的改进也包括了提高推理、编码和多任务处理的能力，使得Grok的应用更为广泛。同时，最近X和Midjourney的合作也使得用户现在能在X上生成和分享人工智能生成的图片，这是一个重要的进步。

Rizzle：从博客、播客内容创建视频

摘要: Rizzle AI 是一个无需编辑的视频创作平台，它与 GettyImages 合作，为创作者提供了访问全球最大的无版税库存媒体库的能力。这个库存包含超过5亿张图片和视频，这些资源都是专为 Rizzle 平台的用户准备的，并且拥有版权保护。

Slack在2023年推出一系列强大的AI功能

摘要: 在2023年， Slack 宣布升级并发布一系列新的AI功能，这些功能旨在提高职场通讯和生产力。新功能包括自动产生频道和会话的摘要，基于历史对话搜索答案的功能，允许用户向企业用户提问的功能，更新的工作流构建器以及新增的任务列表工具。这些新功能旨在帮助用户更有效地在线协作，提高生产力。

Keyframer AI: Apple 推出的基于GPT-4的动画创作工具

摘要: Apple的创新工具Keyframer AI由OpenAI的先进模型GPT-4驱动，可以生成CSS代码，并根据文本提示对2D图像进行动画处理。这种革新的技术为创意行业带来了游戏规则的改变，使得动画的创作过程变得更为简单，无需编码技能，被专业的动画设计师视为他们工具箱的宝贵补充。

3，监管合规

谷歌将在收到批评后修复其 AI 图片机器人

摘要:谷歌将对其实验性 AI 图片生成器 Imagen 进行调整，以解决一些批评者所说的该工具产生的图像存在性别和种族偏见问题。艺术家Salvador Dali在推特上发帖批评 Imagen 之后发布的，Imagen 倾向于将女性描绘成年轻、性感和顺从，而将男性描绘成年长、强壮和权威。谷歌表示，它正在努力解决这些问题，并将很快发布 Imagen 的更新版本。

仁勋推出主权人工智能，引领全球AI发展新趋势

摘要：英伟达首席执行官黄仁勋推出主权人工智能概念，强调各国利用本地数据开发AI系统的重要性。全球范围内已有多国开始建立自己的主权AI系统。这一趋势对英伟达战略具有重大影响，同时推动了定制化AI开发，解决了数据主权问题，需要大量投资建设本地化AI基础设施。

加州推出新法案，加强对人工智能政策的监管

摘要: 加州立法机构发布新法案，规定开发具有公共安全风险的人工智能系统的公司将对其引发的安全问题负法律责任。参与该法案提议的资方包括人工智能安全行动基金中心。法案要求AI模型开发商在安全性方面进行自我审查，并规定了严格的模型权重保护和紧急关闭机制。违反法律的公司将面临高达模型开发成本30%的罚款，严重时可能被命令暂停或永久关闭模型。尽管该法案局限于加利福尼亚州，但标志着人工智能法律责任制度的重大进步。

谷歌使用人工智能创建创新的全球甲烷排放地图

摘要: 谷歌联合环境保护基金推出一个倡议, 利用卫星数据和人工智能技术绘制全球甲烷排放地图，以便查明甲烷排放的源头并控制其对全球变暖的影响。该地图将免费在Google Earth Engine等平台上提供，以增加数据的透明度和可访问性。此举标志着全球气候责任的重要一步，并符合全球减少甲烷排放的努力。此外，该项目还将发射甲烷卫星，每天将绕地球运行15圈，为支持谷歌的绘图工作提供关键数据。

Adobe创建新的人工智能研究组织CAVA专注于视频创作

摘要: 近日，Adobe宣布创建了一个新的名为CAVA（音频、视频和动画共同创作）的人工智能研究组织，规模达50人。这个新的研究组织将专注于未来的人工智能视频创作，致力于发明新的人工智能模型和流程。虽未明示，但有观点认为，OpenAI的Sora —— 一个将文本转换为视频的AI模型，可能已经为Adobe敲响了警钟，促使其在视频和多模态创作工作上进行规范并加速推进。

黄仁勋推出主权人工智能，引领全球AI发展新趋势

微软发布Python风险识别工具包PyRIT，用于识别生成式AI系统风险"

摘要：微软公开推出了Python风险识别工具包（PyRIT），该工具集中特设的目标是识别和排查生成式人工智能系统中存在的风险，提高AI系统的安全性和稳定性。

AI及信息技术应用2024年2月11日简报

loverty

Feb 14

本期AI简报涉及AI产业及应用研究、产品创新、监管合规等领域的新兴信息和趋势。在AI产业及应用研究方面可以观察到AI技术在不断突破界限，而行业发展和应用也在快速推进，OpenAI连续实现收入里程碑，并推出了ChatGPT应用程序和Gemini高级订阅服务，带动行业进一步发展。华为、微软等企业也在发布新成果，探索AI的发展前沿。此外，AI算法在提高安全生产和医疗诊断等领域的应用广受关注。在产品创新方面，Frame智能眼镜、Apple Vision Pro、Direct-a-Video等产品结合了AI技术和增强现实，为用户带来全新的互动体验。与此同时，Grammarly的裁员事件也反映了AI行业内部的动态调整和战略转型。

Read full story

AI及信息技术应用简报

AI及信息技术应用2024年2月25日简报

AI及信息技术应用2024年2月11日简报