AI及信息技术应用2024年3月2日简报

loverty

Mar 03, 2024

人工智能产业及应用研究：2024年3月3日摘要

2024年第9周，在应用方面，微软推出了财务领域的AI助手，阿里巴巴开发了生成逼真肖像视频的AI系统，谷歌则在探索AI生成新闻内容和视频游戏等方面取得进展。此外，人工智能在工作场所信息检索、音乐创作、开发者知识库等领域也得到了广泛应用。

在产品创新方面，LTX Studio等AI电影制作工具的出现，标志着人工智能开始进入创意产业领域。同时，北京大学Yuangroup团队复现OpenAI的Sora模型，也为人工智能技术的研究和应用提供了新的思路。

在监管方面，FCC宣布AI语音机器人电话非法，体现了各国政府对人工智能技术安全性和合规性的关注。此外，OpenAI接连遭遇版权诉讼和埃隆·马斯克的起诉，也为人工智能技术的伦理和法律问题敲响了警钟。

随着人工智能技术的不断进步，其应用范围也将越来越广泛，对人类社会产生更加深远的影响。我们需要积极应对人工智能时代的到来，充分利用人工智能技术带来的利好，同时也要注意防范其潜在的风险。

1，AI产业及应用研究

Figure与OpenAI合作，共同开发下一代人工智能机器人

摘要：人形机器人公司Figure宣布与OpenAI达成合作协议，共同开发下一代人工智能模型。这次合作的目标是加速公司能够理解语言和具备推理能力的机器人的商业部署。OpenAI一直致力于将人工智能应用于机器人领域，且公司的一项技术目标就是打造家用机器人。故与Figure的这次合作更显得意义重大。此外，OpenAI在2023年已向另一家人形机器人初创公司1X进行了投资。

微软推出 Copilot for Finance 公开预览版，将AI引入财务领域

摘要：微软发布了专为财务团队设计的“Copilot for Finance”公开预览版，这是继 Copilot for Sales 和 Copilot for Service 后的其它产品。Copilot聊天机器人将完成耗时的、手动且重复性的财务任务，如收集、差异分析和数据核对。它能与财务系统（如 Dynamics 365 和 SAP）连接，实现工作流程自动化，并能在Outlook和Excel中提供操作和建议。微软的财务团队报告称，使用此工具能将通常需要2小时的任务缩短至20分钟。

阿里巴巴推出人工智能系统"EMO"，根据参考图像和音频剪辑生成逼真肖像视频

摘要：阿里巴巴的研究人员推出了一款名为"EMO"的人工智能系统，它可以根据提供的单个参考图像和音频剪辑生成包括说话、唱歌和移动在内的逼真肖像视频。在训练过程中，EMO接受了250多小时不同语言的镜头，包括演讲、电影和歌唱表演。这款模型创新地避开了传统的3D面部模型，直接通过扩散模型生成帧。此外，EMO还能混合参考镜头以实现较长视频的一致性，同时逼真地捕捉表情和口型的同步性。

谷歌付费鼓励新闻出版商测试其未发布的人工智能内容生成平台

摘要：谷歌正在向某些新闻出版商支付每年五位数的费用，以进行其尚未发布的人工智能内容生成平台的测试。作为合约的一部分，这些出版商需要使用这些工具每天发布三篇文章，这些文章是对其他来源报告的总结。这个计划旨在帮助小型出版商更高效地制作内容。

谷歌推出新的人工智能模型“Genie”，通过文本和图像提示创造视频游戏

摘要：谷歌的DeepMind团队已经发布了一个新的人工智能模型，名为“Genie”。这款模型的目标是彻底改变游戏设计的方式，它通过根据文本或图像提示来创建交互式的2D视频游戏。Genie使用大量的视频游戏镜头数据集来学习和生成游戏，采用一个包括视频分割器、潜在行为模型和用于预测游戏玩法的动态模型的三步过程。尽管“Genie”仍然面临视觉质量和访问限制等挑战，但这是人工智能进入游戏设计领域的一大步。

法国AI初创公司Mistral发布新模型，并与微软建立合作伙伴关系

摘要：法国人工智能初创公司Mistral近期发布了其备受期待的Mistral Large模型，并宣布了其新的聊天机器人以及其与微软的新的合作伙伴关系。Mistral Large模型拥有顶级的推理能力和多语言流畅性，其性能在关键的基准测试中仅次于领先的GPT-4。该模型具有32k的上下文窗口，且其API使用定价为每百万代币8美元，比GPT-4T更为优惠。Mistral还同步推出了ChatGPT的竞争产品——聊天机器人“Le Chat”的测试版。此外，微软宣布已与Mistral建立了新的合作伙伴关系，将其模型引入Azure用户，并提供相关基础设施和扩展资源。

Adobe推出AI音频原型Project Music GenAI Control，助力创作者制作个性化音乐

摘要：Adobe近期展示了一款名为Project Music GenAI Control的原型，这是一款能够帮助创作者使用文本提示制作自定义音乐曲目的AI音频生成和编辑工具。用户可以通过输入文本描述来生成指定风格的初始音频，编辑控件可以调整模式、节奏、强度和长度，以便定制音轨。此外，该模型还能根据参考旋律重塑音频并生成无缝的循环背景音乐。Adobe的目标是解决播客、广播公司和其他没有专业音频生产经验的用户的主要痛点。这项技术虽尚未公开发布，但其潜力巨大。AI音乐生成的时代已经来临，从Adobe的这款工具到Suno和Google MusicLM的突破性成果，我们看到了根据提示生成下一首热门歌曲的可能性。

Slack 关于 AI 的报告

摘要：Slack 劳动力实验室发现，人工智能的使用量比上一季度增加了 47%，超过四分之一的英国办公桌员工现在使用人工智能。使用人工智能的人报告说生产力有所提高，平均而言，英国工人将近一半的时间花在低价值、重复性的任务上，这些任务可以自动化，从而使他们能够腾出时间从事更有意义的工作，人工智能可以帮助解决这个问题。

Glean融资2亿美元，以人工智能重塑工作场所信息检索

摘要：Glean，一款基于人工智能的搜索应用，致力于提供高效的工作信息搜索服务。47%的数字化员工在完成工作时往往难以找到所需信息，Glean的出现则改变了这一现象。该应用能够连接上百种应用程序，如电子邮件、Slack、Notion、Salesforce等，帮助用户以最直观、方便的方式寻找最相关的信息。而且用户无需任何编程或数据处理技能，仅需输入简单的英文提示。采用了增强准确性和可靠性的人工智能框架——检索增强生成来提高搜索效果。最近，Glean刚完成了2亿美元的融资，公司估值已达22亿美元，客户包括Duolingo、Grammarly和Databricks等知名企业。

Ideogram 发布先进的图像生成应用程序 1.0 版

摘要：Ideogram 最近发布了其 1.0 版的应用程序，被誉为迄今为止最先进的文本到图像模型。这款新模型拥有出色的文本渲染功能、前所未有的真实感和提示依从性，以及一个称为 "Magic Prompt" 的新功能，能够帮助用户编写详细的图像提示。与其他图像生成器如 Midjourney 和 Dall-E 相比，Ideogram 1.0 似乎更擅长处理较长的文本，打破了传统的图像生成器难以胜任的局面。据介绍，为了使用这款应用程序，用户需要先在 Ideogram 1.0 上注册，然后在文本框中编写提示，开启"魔术提示"功能，然后从列表中选择风格，最后点击"生成"并等待几秒钟就能得到结果。

金融科技巨头 Klarna 的 OpenAI 驱动聊天机器人取得巨大成功

摘要：Klarna 近期在博客文章中宣布，其由 OpenAI 驱动的客户服务聊天机器人上个月成功处理了达 230 万个对话。Klarna 估算，该聊天助手将在 2024 年为公司带来高达 4000 万美元的额外利润。使用该机器人无疑大大提高了效率，解决问题的平均时间从 11 分钟缩短到 2 分钟。该机器人全天候（24/7）可用，并且能够使用超过 35 种语言进行对话。值得注意的是，2022 年，这家瑞典公司解雇了 700 名员工，并表示将不再招聘非工程岗位的新员工，这项决定部分源于人工智能的崛起。

使用ChatGPT自动创建费用报告：一步步指南

摘要：通过利用ChatGPT的视觉和文本提取功能，用户可以轻松生成费用报告。这个过程包括创建一个新的ChatGPT聊天，上传想要包含在费用报告中的收据照片，然后提示ChatGPT对每张收据进行分析并创建费用报告。ChatGPT会记录每张收据的日期，商家，金额，并对每个费用进行分类。用户可以验证ChatGPT提供的初步结果的准确性，然后将费用的CSV文件合并到费用报告中，或者将其导入到电子表格中。这种方法大大简化了费用报告的制作流程，节省了时间与精力。

Stack Overflow与Google Cloud展开合作，共建AI驱动的开发者知识库
摘要：Stack Overflow与Google Cloud携手合作，将其庞大的知识库，包括5800万的问题、解答和评论，集成到Google的AI工具中，旨在帮助开发者更快速地解决问题。该合作的实施，不仅增强了Google Cloud控制台和Gemini的功能，也预示了Web 3.0时代中通过AI和大数据提升用户效率的趋势，并寓言着新的商业模式和价值不断涌现。

Stack Overflow与Google Cloud展开合作，共建AI驱动的开发者知识库
摘要：Stack Overflow将其庞大的知识库，包括5800万的问题、解答和评论，集成到Google的AI工具中，旨在帮助开发者更快速地解决问题。该合作的实施，不仅增强了Google Cloud控制台和Gemini的功能，也预示了Web 3.0时代中通过AI和大数据提升用户效率的趋势，并寓言着新的商业模式和价值不断涌现。

Glean收集2亿美元D轮融资，为企业引入高效的AI搜索解决方案

摘要：由云数据管理公司Rubrik的联合创始人Arvind Jain创立的公司Glean，它是一款旨在帮助企业连接第一和第三方数据库提高工作效率的搜索应用。此次由Kleiner Perkins和Lightspeed Venture Partners共同领导的D轮融资中筹集了2亿美元。资金将用于扩大Glean团队，增强产品, 并积极筹备上市。尽管存在GenAI可能损害数据安全和隐私的顾虑，但Jain强调 Glean是安全和私有的，并尊重公司已有的数据权限设置。

Darwin AI 的 AI 助手助力拉丁美洲小型企业改善销售流程

摘要：Darwin AI发布了一款针对拉丁美洲小型企业的对话式 AI 助手，以帮助没有 IT 专业知识的企业简化 AI 的集成过程。通过识别潜在客户并将其直接上报给销售人员，Darwin AI 增强了销售流程。该系统与企业的 CRM 进行了集成，并利用 AI 过滤潜在客户，以优化转化率。自2023年推出以来，该系统已处理了数以千计的对话，并预计今年将超过一百万条对话。Darwin AI 已筹集了 250万美元资金，用于进一步开发其产品，并扩大其市场范围。

Google DeepMind的"Genie"：以文本提示和图像创建视频游戏的AI工具

摘要：Google的AI实验室DeepMind发布了一款名为"Genie"的工具，能够根据文本提示和图像生成视频游戏。它已经通过观看超过200,000小时的在线游戏视频学习了各种技能，可自动识别并控制游戏角色。使用了潜在动作模型，视频分词器和动态模型等工具，帮其理解和创建游戏。目前，虽然Genie的学习过程还在进行中，且仅供Google的内部人员使用，但它展现出将AI应用于游戏设计的巨大潜力。

FuseChat：聊天模型的知识融合

摘要：尽管从头开始训练大型语言模型（LLM）可以生成具有独特功能和优势的模型，但这种方法需要大量的成本，并可能导致技能的可能重复。一个替代策略是将现有的LLM组合成一个更强大的LLM，从而减少昂贵的预训练的必要性。然而，由于LLM的架构多样，直接的参数融合被证明是不可行的。最近，FuseLLM介绍了知识融合的概念，通过轻量级的持续训练，将多个结构不同的LLM的集合知识转移到目标LLM中。在这份报告中，我们扩展了FuseLLM框架的可扩展性和灵活性，实现了聊天LLM的融合，即FuseChat。

MyShell AI推出高效多语言文本到语音库MeloTTS

摘要：MyShell AI近期开发的MeloTTS为用户提供了一款优秀的文本到语音（TTS）库。该库支持英语、西班牙语、法语、中文、日语及韩语等多种语言，并且具有出色的发音质量和处理速度。针对中文，MeloTTS特别提供了中英混合发音的支持。在优化设计上，MeloTTS能在不借助GPU加速的情况下，仅通过CPU实现实时语音合成。MeloTTS旨在生成清晰、自然的语音输出，对所有支持的语言保持清晰度和自然度。方便的安装指南和Python API设计使MeloTTS易于在Linux环境中安装和使用。MeloTTS在实现高质量文本到语音转换的过程中，借鉴了如TTS、VITS、VITS2和Bert-VITS2等开源项目。MeloTTS遵循MIT许可证，适用于商业和非商业用途。

Meta发布针对移动设备优化的AI模型MobileLLM

摘要：Meta的研究人员最近发布了名为MobileLLM的系列小型模型，这些模型针对设备上的应用程序进行了优化，并为此类模型的准确性设定了全新的最佳标准。与一般观点相反，MobileLLM更加强调模型架构而非数据和参数数量。拥有125M参数的MobileLLM在准确率方面比以前最佳的小型模型提高了2.7%。这些模型在聊天和API调用方面显示出特别强大的性能，这对移动应用程序的功能至关重要。

Reddit 进军 AI 金矿，从数据许可中获得 2.03 亿美元

摘要：Reddit 在其IPO 招股说明书中透露，它已通过向人工智能供应商许可其数据赚取了 2.03 亿美元，预计到 2024 年将产生至少 6640 万美元的收入。虽然没有透露授权 Reddit 数据的具体人工智能公司，但OpenAI 和据推测，谷歌可能也在其中。 Reddit 决定将其庞大的帖子和评论存储库货币化，这标志着一项战略举措，特别是当 OpenAI 的 ChatGPT 和 Google 的 Gemini 等人工智能模型在网络上寻找数据进行训练时。随着对数据使用权的法律审查日益严格，内容平台的这种做法符合了为训练人工智能技术所使用的数据寻求补偿的更广泛趋势。

中国首部人工智能动漫即将在央视首播

摘要： 中国的动漫市场将迎来一次重要的发展里程碑，中国首部人工智能动漫宣布将在中国中央电视台播出。这一举动预示着人工智能技术越来越深入到传统的娱乐和文化产业中，为动漫制作带出了全新的可能性和视角。

2，产品创新

Brave 在 Android 平台推出人工智能助手 Leo

摘要：Brave 在 Android 平台推出了新型的人工智能助手 Leo。Leo 可以帮助用户提出问题、翻译网页、提供内容摘要，并能理解自然语言。它整合了多种大型语言模型，如 Mixtral、Claude 和 LLama，为用户提供更加精准和强大的功能。所有与 Leo 的交互都保证了用户的隐私安全。此外，Brave 已经计划在不久后将 Leo 引入 iOS 平台。

LTX Studio：AI驱动一键式电影制作工具

摘要：LTX Studio正在开创一种全新的影视制作方式，它能根据简单的文本提示和创意生成完整剧本，并将该剧本一键转化为视频。借助AI，LTX Studio能精确指导每个场景的拍摄角度，生成一致的角色，调整场景、背景和造型等。只需一键，就能创建包括特效、音乐和旁白在内的最终剪辑。LTX Studio正在探索AI与电影制作的结合，通过AI技术帮助单一的想法转化为连贯、完整的电影。

微软与 Mistral 扩大合作范围，提升 AI 能力

摘要：微软继续深化在人工智能方向的投资，与法国初创公司 Mistral 建立长期合作关系，这是微软继对 OpenAI 投资超过 100 亿美元之后，又一次重要的AI领域合作。此次合作将使 Mistral 的多款 AI 模型在微软的 Azure AI 平台上得到应用，包括新的 Mistral Large 模型，该模型旨在与 OpenAI 的 GPT-4 竞争，不打算开源，目标是在基准测试中实现出色的性能。

X/Twitter 助力用户实现新一代 AI 链接预览

摘要：X/Twitter 正在通过新一代 AI 链接预览技术，提升用户体验。现在，X用户在推文中的任何链接上悬停鼠标时，都会弹出一个内容卡，这个内容卡会提供链接的摘要预览，使用户能够对链接的内容有所了解。这是提升链接透明度，增强用户交互体验的重要技术创新。

北京大学Yuangroup团队推出Open-Sora计划，复现OpenAI的Sora模型

摘要：Yuangroup团队发起了一个名为Open-Sora的计划，该计划旨在复现OpenAI的Sora模型。该团队通过组合视频VQ-VAE、去噪扩散变换器和条件编码器等一系列技术组件，成功实现了Sora模型的功能。此外，Open-Sora项目在复现过程中，实现了可变长宽比、可变分辨率以及可变持续时间等额外的特性，丰富了复现模型的应用场景。Open-Sora计划为人工智能领域的视频生成研究提供了有力的工具和参考。

Chrome 推出 Gemini 支持的 AI 写作助手

摘要： 谷歌 Chrome 推出了一款由Gemini AI 模型提供支持的新型 AI 写作生成器。该工具最初是 Gmail 中的一项功能，现在将其功能扩展到整个网络，允许用户在任何文本字段中生成或重写文本。目前处于实验阶段，它为 Windows、Mac 和 Linux 用户提供英语版本。该人工智能工具旨在制作简短的内容，并根据网页上下文调整其建议。然而，包括文本和 URL 在内的用户数据将根据其隐私政策与 Google 共享，以改进此功能，其中涉及人工审核。

3，监管合规

Tumblr 所有者正在与 OpenAI 和 Midjourney 达成训练数据协议

摘要：据报道，Automattic，Tumblr和WordPress.com的所有者，正在准备将用户数据出售给人工智能公司Midjourney和OpenAI。该交易即将达成，但这引起了人们对数据中私人和敏感信息安全性的担忧。Automattic为此打算引入一个选择性退出功能，让用户有机会选择不共享他们的数据，体现了他们对用户选择权，归属权和自行控制内容的承诺。然而，此项发展引发了一系列问题，包括隐私权，用户同意权，以及训练AI技术时数据的道德使用等。

FCC正式宣布AI语音机器人电话非法

摘要：美国联邦通信委员会（FCC）正式宣布，以AI生成的语音进行的自动拨打电话或短信发送，在法律上已归类为非法。此项新条例将现有的《电话消费者保护法》（Telephone Consumer Protection Act）中关于机器人电话的既有规定进行了明确。尽管新法并非另设新规，但对AI克隆语音呼叫是否应属非法进行了明议，从而使使用AI生成的语音进行自动拨打电话或短信发送被明确为非法。

新的版权诉讼对OpenAI构成挑战：媒体公司寻求赔偿

摘要：OpenAI正在面临一系列新增的诉讼，其中包括了The Intercept、Raw Story和Alternet等媒体公司。这些诉讼紧随《纽约时报》就ChatGPT侵犯版权问题对OpenAI进行法律诉讼之后发起。涉诉媒体公司在纽约联邦法院的诉状中要求OpenAI为每次侵权行为支付2,500美元的赔偿，并要求OpenAI从其数据集中删除所有涉及到的受版权保护的内容。本案具有重要意义，如果出版商赢得诉讼，未来可能会要求AI公司为其使用的受版权保护的内容支付费用，或者完全从数据集中删除该等内容。而如果此类案件被驳回，则可能会对已经陷入困境的出版业产生进一步的打击。

埃隆·马斯克诉讼OpenAI：违反合约、承诺禁止和信托责任

摘要：埃隆·马斯克对OpenAI提出了一系列的指控，包括违反合同、承诺禁止、违反信托义务和不公平的商业行为。马斯克指责OpenAI背弃了其非营利使命，滥用他的资助，并从事不公平的商业行为。他还要求进行会计审计，以澄清他和其他人对OpenAI做出的贡献情况。此诉讼覆盖了自2015年以来的一系列对话，以及OpenAI的详细设置信息。

AI及信息技术应用简报

AI及信息技术应用2024年3月2日简报

人工智能产业及应用研究：2024年3月3日摘要