AI及信息技术应用2024年2月11日简报

Feb 14, 2024

本期AI简报涉及AI产业及应用研究、产品创新、监管合规等领域的新兴信息和趋势。

在AI产业及应用研究方面可以观察到AI技术在不断突破界限，而行业发展和应用也在快速推进，OpenAI连续实现收入里程碑，并推出了ChatGPT应用程序和Gemini高级订阅服务，带动行业进一步发展。华为、微软等企业也在发布新成果，探索AI的发展前沿。此外，AI算法在提高安全生产和医疗诊断等领域的应用广受关注。

在产品创新方面，Frame智能眼镜、Apple Vision Pro、Direct-a-Video等产品结合了AI技术和增强现实，为用户带来全新的互动体验。与此同时，Grammarly的裁员事件也反映了AI行业内部的动态调整和战略转型。

在监管合规方面，FCC禁止使用AI语音进行自动呼叫，而欧盟则对AI应用提出了治理和透明度要求。OpenAI首席执行官也寻求巨额资金投资AI芯片制造，以解决AI发展的瓶颈。

1，AI产业及应用研究

Meta发布Llama 2即时工程指南，助力大型语言模型开发

摘要：Meta发布“Prompt Engineering with Llama 2”，一个交互式Jupyter Notebook，为大型语言模型（LLMs）用户提供提示工程技术和最佳实践，包括多种生成和程序辅助方法，旨在提升LLMs的应用效果。

OpenAI 实现 20 亿美元收入里程碑

摘要：据英国《金融时报》报道，在微软的支持下，OpenAI 在 12 月份实现了 20 亿美元的收入里程碑。这一成就源于企业客户对在工作场所使用 OpenAI 生成式 AI 工具的浓厚兴趣。由于 ChatGPT 产品的成功，该公司 12 月份的年化收入超过 16 亿美元，预计到 2025 年其收入将增加一倍以上。估值超过 800 亿美元的 OpenAI 正在积极与投资者接触，包括来自阿联酋将为一项旨在提高全球芯片产能和增强人工智能能力的技术计划筹集资金

谷歌推出Gemini Advanced订阅服务，提供最强大的语言模型

摘要：谷歌将AI聊天机器人Bard更名为Gemini，并推出付费订阅服务Gemini Advanced，用户可访问Google最强大的语言模型Gemini Ultra 1.0。该服务定价21.99美元/月，提供2TB Google Drive云存储空间，旨在与OpenAI的ChatGPT Plus竞争。谷歌还计划将Gemini Ultra 1.0集成到Gmail和文档中，并改进了界面设计。

Direct-a-Video：用文本指令生成视频，成为你的虚拟导演

摘要：Direct-a-Video 是一款创新的文本转视频工具，允许用户通过自然语言独立或共同控制摄像机移动和/或对象运动。用户可以指定一个或多个物体在视频中的具体运动路径，以及控制摄像机的移动方式，包括平移、倾斜和缩放。Direct-a-Video 还可以将这些指令与现有的视频片段相结合，创造出更加丰富和动态的视频。这款工具对于视频创作者、教育工作者和营销人员来说都是非常有用的。

中国首次创造人工智能儿童：Tong Tong

摘要：中国科学家创造了他们所谓的第一个人工智能“孩子”，名为Tong Tong。Tong Tong是由北京通用人工智能研究院（BIGAI）的团队制造的。Tong Tong朝向制造能够像人类一样思考和行动的人工智能（称为AGI）迈出了一大步。AGI与其他人工智能不同，因为它可以完成许多任务，而不仅仅是一项任务。它可以像人类一样学习、做出决定，甚至理解情绪。创造Tong Tong的人们希望它能够像人类一样独立做事。Tong Tong表现得就像一个三四岁的孩子。她可以在无人告知的情况下打扫房间、矫正扭曲的照片以及清理溢出的液体。这表明她可以自己思考和做出决定，这在人工智能中是一件大事。Tong Tong也与众不同，因为她不只是重复所学的内容；她可以自己想出新的事情去做。这是人工智能研究的一种新方法，从“对一点了解很多”转变为“对很多了解一点”，这是一种更智能的学习方式。

华为研究人员认为具身人工智能是通用人工智能的下一步

摘要：华为研究人员发表新论文，认为能够与现实世界持续交互并学习的人工智能代理代表了通用人工智能的下一步。他们指出，像ChatGPT这样的静态语言模型缺乏身体，无法主动感知或与现实世界互动。具身人工智能将能够看到和听到环境输入、采取身体行动并从经验中学习。这种交互性反映了人类和动物如何通过反复试验获得理解。研究人员认为，物理身体是寻求通用人工智能发展的必要步骤。他们详细说明了如何潜在地体现人工智能，但硬件限制目前仍然构成挑战。尽管如此，机器人技术的进步表明，为人工智能提供一个功能性的身体以实现动态学习并不遥远，这可能是实现真正智能代理所缺少的要素。

OpenAI 正在从聊天机器人转向人工智能代理？

摘要：OpenAI正在构建两种类型的人工智能代理，设备代理和网络代理，它们可以自动执行各种生产力任务，如生成费用报告、传输数据和预订旅行。设备代理可以在用户的设备上工作，而网络代理可以在线收集数据并自主预订服务。OpenAI的愿景是将人工智能发展为更个人化的助理，对个人用户和工作场所有深入的了解。人工智能代理有望将人工智能的可能性提升到一个新水平，OpenAI再次引领了这一潮流。

Vision Arena：视觉模型竞技场，盲测挑战你的视觉感知

摘要：Vision Arena是一个视觉模型竞技场，允许用户测试和比较不同的视觉语言模型（VLMs），例如GPT-4V、Gemini、Llava、Qwen-VL等。用户可以在这个工具上同时测试两个视觉模型，并对它们进行投票，以决定哪个更优秀。值得注意的是，Vision Arena采用盲测的方式，只有在选择你认为好的结果后才会告诉你模型是什么。这种设计让用户能够更客观地评估不同视觉模型的性能。Vision Arena为视觉模型的研究人员和爱好者提供了一个平台，让他们可以轻松地比较和评估不同的模型，并推动视觉语言模型技术的发展。

Azure OpenAI Service带来一系列新功能，Assistants API引领个性化交流体验

摘要：Azure OpenAI Service宣布了一系列新功能，包括公开预览的Assistants API、新的文本到语音（TTS）功能、即将推出的GPT-4 Turbo和GPT-3.5 Turbo模型更新、新的嵌入模型以及微调API的更新。其中，Assistants API尤为引人注目。与之前的聊天完成API相比，Assistants API能够记住之前的对话内容，创建持久化和无限长的线程，为开发者在应用程序中创建高质量的人工智能助手体验提供了更强大的工具。Azure OpenAI Service的这些更新和新增功能将赋能开发者构建更加智能和个性化的应用程序，提升用户体验。

Nvidia 进军定制 AI 芯片市场

摘要：英伟达正在进军定制人工智能芯片市场，瞄准亚马逊、谷歌和微软等云计算巨头。英伟达计划开发满足特定需求的定制芯片，旨在彻底改变人工智能处理的能源效率和成本效益。价值 300 亿美元的定制芯片市场预计到 2025 年将出现爆炸式增长，Nvidia 准备颠覆 Broadcom 和 Marvell 在数据中心芯片设计领域的主导地位。

Hugging Face推出免费AI助手，让您轻松构建自己的AI工具

摘要：Hugging Face发布了Assistants，一个免费的AI助手构建平台，类似于OpenAI GPT，但价格绝对为0美元。只需访问Hugging Face助手页面，单击“创建新助手”按钮，选择图片或徽标并为您的助手命名，即可开始构建您的助手。Hugging Face提供了多种模型选项，包括OpenChat、MixtralAI、Llama和Codellama，您可以根据需要选择适合的产品。最后，创建提示，向您的助手发出指示，即可开始使用您的AI助手。Hugging Face的Assistants是一个非常实用的工具，您可以轻松构建自己的AI助手，用于旅行指南、语言翻译、代码生成等各种任务。

苹果和加州大学圣巴巴拉分校联合发布开源AI系统MGIE，通过自然语言命令编辑图像

摘要：苹果和加州大学圣巴巴拉分校的研究人员刚刚发布了MGIE，这是一个开源的人工智能系统，用于通过自然语言命令编辑图像。MGIE利用多模式大语言模型(MLLM)来解释指令并指导编辑。该模型可以执行修改颜色或对象、优化亮度/对比度以及根据简单文本提示应用滤镜等任务。该模型经过端到端训练，因此编辑与指令保持一致，同时保留不相关的区域。MGIE的发布标志着图像编辑领域的新进展，它将使人们能够以前所未有的方式与图像进行交互。

Roblox推出大型内部语言模型，实现游戏平台实时聊天翻译

摘要：Roblox开发了一个大型内部语言模型（LLM），以在其游戏平台中实现实时聊天翻译。该系统可翻译英语、中文、韩语等16种语言，基本延迟为100毫秒。该翻译模型显着增强了Roblox上用户交互，Roblox拥有超过7000万的日活跃用户。Roblox的模型具有上下文感知能力，可识别特定于平台的俚语和缩写以进行准确翻译。翻译过程涉及一个基于统一Transformer的LLM，能够翻译任何语言对儿。Roblox采用“反向翻译”来丰富数据并提高稀有语言对（例如法语和泰语）的准确性。

LinkedIn推出新的人工智能工具，助力专业人士高效社交

摘要：LinkedIn正在推出新的人工智能工具，以增强专业人士的社交能力。这些工具旨在帮助用户更高效、更有效地建立网络。LinkedIn的新功能采用两个选项卡布局，其中“增长”选项卡用于管理和扩展您的网络，“追赶”选项卡用于查找重新连接网络的原因。LinkedIn利用人工智能，通过“您可能认识的人”功能提供关于与谁联系的个性化建议。“跟进”选项卡提供提示，例如您的联系人中的新工作、工作周年纪念日、招聘公告和生日。一项新的高级功能可以通过从两个用户的个人资料中提取信息来帮助起草新连接的初始消息，旨在使第一次非接触式操作变得令人畏惧。这些新工具将帮助LinkedIn用户建立和维护职业关系，从而在竞争激烈的就业市场中脱颖而出。

Lag-Llama：用于时间序列预测的开源基础模型，卓越的零样本泛化能力

摘要：Lag-Llama 是一个用于时间序列预测的开源基础模型，它采用滞后作为协变量，并展示了卓越的零样本泛化能力。预训练语料库由能源、交通、经济、自然、空气质量和云运营等六个不同领域的 27 个数据集组成，具有近 8K 的单变量时间序列和 352M token。Lag-Llama 在各种任务上取得了最先进的结果，包括短期和长期预测、多步预测和异常检测。它还可以在没有微调的情况下很好地泛化到新的领域和数据集。Lag-Llama 的发布为时间序列预测任务提供了一个强大的工具，它将有助于推动该领域的研究和发展。

WebLinx 对话式网页抓取数据集

摘要：Weblinx 是一个包含 10 万个基于 Web 的会话格式交互的数据集。它的发布是为了改进语言模型引导的基于网络的导航的研究。

Daedalus筹集2100万美元，打造人工智能驱动的精密制造设施

摘要：德国初创公司Daedalus在A轮融资中筹集了2100万美元，致力于打造人工智能驱动的精密制造设施。本轮融资由诺基亚资助的NGP Capital领投，并得到了现有投资者Khosla Ventures和Addition的支持。Daedalus计划利用这笔资金来扩大其团队，并开发其人工智能驱动的制造平台。该公司的人工智能平台可以帮助制造商优化其生产流程，提高质量和效率。Daedalus的目标是通过其人工智能平台来革新制造业，使制造商能够以更低成本、更高质量地生产产品。

人工智能审计平台DataSnipper获1亿美元融资，跻身独角兽俱乐部

摘要：人工智能驱动的审计自动化平台DataSnipper凭借由Index Ventures领投的1亿美元B轮融资进入独角兽俱乐部。DataSnipper利用人工智能技术帮助审计师提高审计效率和准确性，从而改变了审计行业。这笔融资将用于扩大DataSnipper的团队、开发新产品和服务，并进军新市场。DataSnipper的成功表明，人工智能在审计领域具有巨大的潜力，有望彻底改变审计行业。

Palantir人工智能平台需求旺盛，股价飙升30%

摘要：Palantir的人工智能平台需求旺盛，推动季度利润创纪录，股价飙升30%。该平台将大型语言模型纳入私有运营的网络，帮助企业提高效率、降低成本和做出更好的决策。Palantir的人工智能平台在军队中也有应用，可以辅助战场决策和情报。随着人工智能技术的发展，Palantir的人工智能平台有望获得更广泛的应用，从而推动公司的持续增长。

人工智能破译古罗马卷轴，揭示失落的智慧

摘要： 三名学生使用人工智能成功破译了公元79年维苏威火山喷发埋藏的罗马卷轴的一部分，赢得了70万美元。他们成功破译了2000多个以前未读过的希腊字母。这些发现是维苏威火山挑战赛的一部分，这是一项旨在破译赫库兰尼姆纸莎草文字的人工智能竞赛。这些发现可能有助于我们更好地了解古希腊文化和哲学。

2，产品创新

Frame 智能眼镜：将人工智能融入你的视野

摘要：初创公司 Brilliant Labs 推出 Frame 智能眼镜，旨在赋予用户“人工智能超能力”。Frame 眼镜能够直接在用户的视野中进行翻译、网络搜索和视觉分析。这款智能眼镜现已接受预订，价格为 349 美元，并将于 4 月份开始发货。相较于谷歌眼镜和 Meta 的雷朋眼镜等其他智能眼镜，Frame 凭借其更低的价格和丰富的功能，有望在市场上获得成功。

Apple Vision Pro 发布，市场反响热烈

摘要：苹果公司推出的 Apple Vision Pro 是一款人工智能驱动的图像处理工具，能够帮助用户轻松编辑和增强照片。Vision Pro 具备多种先进功能，例如对象识别、背景移除、风格迁移和自动增强。自发布以来，Vision Pro 受到了市场的热烈追捧，用户们纷纷赞赏其强大的功能和易用性。Vision Pro 的发布标志着苹果公司在人工智能领域的又一重大进展，有望进一步推动图像处理行业的发展。

OpenAI推出专用的ChatGPT应用程序，用于Apple Vision Pro

摘要： OpenAI为Apple Vision Pro推出了专用的ChatGPT应用程序，方便与最新的GPT-4 Turbo模型进行交互。用户可以在应用程序内查询、寻求建议、探索新主题以及创建图像和文本，展示了更直观的人机交互的进步。ChatGPT是VisionOS（为Apple Vision Pro提供支持的操作系统）的首批应用程序之一，加入了专为该平台创建的600多个其他应用程序。ChatGPT应用程序可以处理文本、语音、照片和视频，并提供灵活性和适应性，符合行业向多模式人工智能的转变。

3，监管合规

FCC禁止使用AI语音进行自动呼叫，保护消费者免受诈骗

摘要：美国联邦通信委员会（FCC）禁止使用逼真的人工智能语音进行自动呼叫，以应对新罕布什尔州初选期间的假消息事件。此举旨在保护消费者免受AI假冒产品威胁，将AI语音自动呼叫定为刑事犯罪，并立即生效。FCC主席强调，新规则旨在防止AI技术被用于欺诈和误导。

DragNUWA 被微软下架，引发人工智能版权争论

摘要：广受欢迎的文本生成人工智能模型 DragNUWA 已被微软下架，目前正接受微软企业、外部和法律事务部门 (#CELA) 的审查。据了解，DragNUWA 使用奇异值分解 (SVD) 作为其基础。这一事件加剧了围绕人工智能版权的争论。DragNUWA 能够生成逼真的文本，包括新闻文章、诗歌和故事。它在研究人员和创作者中很受欢迎，也被用于创建虚假信息和仇恨言论。微软尚未公布 DragNUWA 被下架的具体原因，但有猜测认为这与版权问题有关。DragNUWA 的创建者声称，该模型是根据开源数据训练的，因此不存在版权问题。然而，一些人认为，DragNUWA 生成的文本可能侵犯了受版权保护的作品。DragNUWA 被下架引发了关于人工智能版权的争论。一些人认为，人工智能模型应该受到版权法的保护，而另一些人则认为，人工智能模型生成的文本不应受到版权保护。这场争论可能会持续一段时间，并可能对人工智能的发展产生重大影响。

Gemini 的数据隐私
摘要：默认情况下，Google 会将与 Gemini 的对话保存长达 3 年。这些数据用于通过训练人工智能模型来改进 Gemini 应用程序。虽然用户可以通过帐户设置选择不保存某些数据，但出于安全原因，对话仍会保存 72 小时。人工注释者也会定期审查和标记对话，以增强应用程序，但尚不清楚这些注释者是谷歌员工还是外部承包商。

Grammarly 裁员
摘要：Grammarly 宣布因旨在推进人工智能驱动的工作场所的组织重组而在全球范围内裁员 230 名员工。尽管财务状况良好，但重组涉及重新定义角色和整合团队以实现更好的协作。受影响的员工将获得遣散费和健康福利。此举反映了行业变化和迈向人工智能时代的战略支点。在此之前，Grammarly 实现了显着增长，并于 2021 年为人工智能投资筹集了 2 亿美元的资金。其他科技公司最近也裁员了。

OpenAI 的ChatGPT被企业广泛使用，但也是可疑数据泄露的重要来源。
摘要：2023 年 6 月的一项研究发现，15% 的员工经常将公司数据粘贴到 ChatGPT 中，包括源代码(31%)、内部业务信息(43%) 和个人身份信息(12%)。数据暴露的最大来源之一是客户聊天记录。

美国联邦政府澄清AI不能用于拒绝医疗保险覆盖，保护患者权益

摘要：美国医疗保险与医疗补助服务中心（CMS）发布声明，强调医疗保险公司不能使用算法或人工智能（AI）来决定医疗护理或拒绝为医疗补助计划成员提供保险覆盖。此举旨在回应此前联合健康保险公司和人保健康因使用有缺陷的AI工具拒绝给老年患者提供护理而面临的诉讼。CMS强调，保险覆盖决策必须基于个别患者情况，并警告保险公司确保人工智能工具不会延续偏见或歧视。CMS还宣布将加强审计活动以监督遵守这些规定。这一决定标志着联邦政府对AI在医疗保险领域应用的积极监管，旨在保护患者权益并确保医疗决策的公平性。

Direct-a-Video：用文本指令生成视频，成为你的虚拟导演

OpenAI首席执行官山姆·奥特曼寻求巨额资金用于AI芯片制造项目

摘要：OpenAI首席执行官山姆·奥特曼希望为一个旨在提高全球芯片制造能力的新项目筹集多达5至7万亿美元的资金。该项目旨在解决OpenAI的芯片限制，并为该公司构建通用人工智能（AGI）的雄心壮志铺平道路。奥特曼已经会见了阿联酋最高安全官员谢赫·塔赫农·本·扎耶德·阿勒纳哈扬和美国商务部长吉娜·雷蒙多等政府官员，以及投资者和行业合作伙伴，讨论建立由现有芯片制造商运营的芯片代工厂。该项目可能会持续数年，尽管即使价格高达7万亿美元，也不能保证其成功。

Meta将为第三方人工智能工具创建的图像添加标签，回应监督委员会批评

摘要：Meta宣布将开始为使用OpenAI、Midjourney和Google等第三方人工智能工具创建的图像添加标签。此举回应了Meta自己的监督委员会在一项关于拜登总统修改视频的决定中批评了该公司“不连贯”的操纵媒体政策。Meta表示，这些新标签将帮助用户更多地了解图像的来源，并防止其被误认为真实照片。Meta还将更新其政策，以更清楚地说明哪些类型的操纵图像被允许发布。这些变化表明Meta正在认真对待监督委员会的批评，并致力于创建一个更加透明和负责任的平台。

其他相关阅读

AI及信息技术应用2024年2月4日简报

loverty

Feb 4

Read full story

AI及信息技术应用2024年1月28日简报