AI及信息技术应用2023年9月3日简报

loverty

Sep 03, 2023

本周AI应用上通用算法和具体场景的结合有不少具体而有成效的案例，其中包括餐饮业的AI语音订购、通用汽车利用AI聊天机器人处理呼叫、谷歌改进了Google Chat、Duet AI助手、百度的ERNIE Bot聊天机器人等，Google TPUv5的飙性能依然是最吸引人的看点，算力作为大杀器，其竞争优势，其他玩家很难对抗。

1，AI应用

OpenAI突然发布企业版ChatGPT：没有限制、更快、更强、更安全的GPT-4
[摘要]OpenAI表示，其未来对ChatGPT Enterprise的计划包括为小型团队提供ChatGPT Business版，允许公司将应用程序连接到ChatGPT Enterprise，并提供 “更强大” 和 “企业级” 的Advanced Data Analysis和网络浏览版本，以及为数据分析师、营销人员和客服设计的工具。

OpenAI 的下一个重点方向：从 ChatGPT 到 AI Agent，由工具走向「集体智慧」的进化之路
[摘要]AI Agent就是让AI在思考及行动这两大方向上尽可能模仿人类。在本次的生成式AI浪潮中，大家都见识到了大语言模型（LLMs）强大及通用的底层能力，基于其构建的AI Agent应运而生。而这类AI Agent不仅能用自然语言交流，还表现出了模拟人类大脑自然思维过程的巨大潜力。其中，最知名的实验性项目就是AutoGPT，它能让GPT-4拆解任务需求，分步执行任务，展现出了“像人一样思考”的潜力。

DoorDash 宣布采用人工智能语音订购
[摘要]DoorDash 内部研究表明，大约一半的顾客拨打餐馆的电话无人接听，这可能会导致外卖订单丢失和运营商收入损失。报告称，五分之一的顾客更喜欢通过电话订外卖。这项由人工智能驱动的服务支持多语言的语音订购，并为回头客快速重新订购。它提供个性化的膳食建议来补充订单并鼓励追加销售。它可以选择让现场客服根据需要提供协助。

在读者嘲笑这些故事后，甘尼特停止了人工智能撰写的体育赛事回顾

[摘要]由人工智能公司 Lede AI 撰写，该公司利用比赛得分为新闻编辑室生成自动体育赛事回顾。Lede AI 在《Dispatch》中的故事通常提供高中比赛的结果以及每节比赛后的得分，但在社交媒体上被批评为语气生硬，措辞怪异。这种嘲笑似乎产生了影响。据 Axios周一报道，甘尼特停止使用 Lede AI 撰写体育报道。

通用汽车正在使用谷歌的人工智能聊天机器人来处理简单的 OnStar 呼叫
[摘要]通用汽车使用AI聊天机器人处理OnStar呼叫，以解放员工，专注处理更复杂请求。通用汽车在谷歌Cloud Next会议上分享了合作详情，包括与谷歌合作的内置信息娱乐软件和OnStar。2022年，他们推出了OnStar互动虚拟助手，借助Google Cloud的对话AI技术回答常见查询和提供导航帮助。通用汽车计划在未来的汽车中继续利用人工智能技术。

Google Cloud 宣布推出第五代定制 TPU
[摘要]在 Cloud Next 年度用户大会上，谷歌云今天宣布推出第五代张量处理单元 (TPU)，用于人工智能训练和推理。谷歌于 2021 年发布了第四版定制处理器，但直到2022 年才向开发者提供。该公司指出，该版本芯片的开发重点是效率。与上一代相比，该版本承诺每美元的训练性能提高 2 倍，每美元的推理性能提高 2.5 倍。谷歌云计算和机器学习基础设施副总裁兼总经理 Mark Lohmeyer 在今天宣布之前的新闻发布会上表示：“这是迄今为止最具成本效益且易于访问的云 TPU。”

人工智能图像越来越难被发现。谷歌认为它有一个解决方案。
[摘要]周二，谷歌宣布推出一款名为 SynthID 的新工具，并表示该工具可能成为解决方案的一部分。该工具将数字“水印”直接嵌入到图像中，人眼无法看到该图像，但经过训练可以读取该水印的计算机可以拾取该水印。谷歌表示，其新的水印技术具有抗篡改能力，这使其成为监管虚假图像传播和减缓虚假信息传播的关键一步。

谷歌升级 Vertex AI 以跟上生成式 AI 热潮
[摘要]在年度 Cloud Next 会议上，Google 宣布更新Vertex AI，这是其基于云的平台，提供用于构建、训练和部署机器学习模型的工作流程。Vertex AI 现在具有用于文本、图像和代码生成的更新的 AI 模型，以及来自 Anthropic 和 Meta 等初创公司的新第三方模型，以及允许开发人员合并公司数据并代表用户采取行动的扩展。

Google 推出企业产品
[摘要]Google 推出了面向企业的 AI，每位用户每月 30 美元（与 Microsoft 的价格相同）此外，他们还为云企业产品引入了 20 个新的 AI 模型、 SynthID（对 AI 生成的图像加水印），以及对 Google Office 软件套件的一系列升级。他们还宣布与Meta Platforms 和 Anthropic合作，通过 Google 的企业平台扩展对各自聊天机器人的访问。Google 基于云的Vertex AI 平台的更新包括 PaLM 2 的升级、增强的代码生成以及新的搜索和对话模型。

谷歌正在为 Workspace 应用程序的所有付费用户提供 Duet AI 助手
[摘要]谷歌正在为Workspace应用程序的所有付费用户提供Duet AI助手。这项举措旨在帮助用户更有效地管理和组织他们的工作，并提供智能化的助手功能。该助手将有助于提高工作效率，并为用户提供更好的工作体验。这对于Workspace应用程序的用户来说是一个重要的增值服务。包括 Gmail、Drive、Slides、Docs 等；经过超过 100 万用户的广泛测试，Duet AI for Google Workspace 现已全面上市；其特点包括：一款笔记工具，可在 Google Meet 中生成摘要和操作项。Gmail 中的 AI 工具可以起草整封电子邮件。Google Sheets 中自动生成表格，能够在 Google 幻灯片中生成图像和演示文稿。

阿联酋在海湾地区推出阿拉伯语大语言模型，推动生成人工智能
[摘要]Jais 是一位以阿拉伯语接受培训的 13B 参数法学硕士。它是开源的，可以在 Hugging Face 上下载。阿联酋同一团队之前发布的 Falcon 模型一度在开源排行榜上名列前茅。阿联酋在海湾地区推出了一款针对阿拉伯语的大语言模型，旨在推动人工智能技术的发展。这一举措有助于更好地适应该地区的语言特点，并为人工智能在各个领域的应用提供更精准、高效的支持。阿拉伯语大语言模型将为语音识别、机器翻译、智能客服等领域的技术提供了新的可能性。

阿里巴巴发布可“阅读”图像的新型聊天机器人，中国在人工智能军备竞赛中取得飞跃
[摘要]阿里巴巴周五宣布发布两种新的人工智能模型，名为 Qwen-VL 和 Qwen-VL-Chat 的开源模型是视觉语言模型，这意味着它们“读取”图像而不是文本，这与竞争对手 ChatGPT 和 Google Bard不同。Qwen-VL-Chat 承诺提供复杂的功能，例如通过扫描街道标志来提供方向、根据照片求解数学方程以及根据多张图片编织故事。该公司表示，例如，它可以扫描医院中用普通话写的标志图像，然后将其翻译成英语，或者帮助新闻机构为照片撰写标题。

百度ERNIE机器人亮相，具备先进功能
[摘要]中国科技公司百度现已向公众全面开放其本土人工智能聊天机器人ERNIE Bot 。与 chatGPT 和其他 AI 模型类似，ERNIE Bot 可以完成您对生成式 AI 聊天机器人的所有期望。它还具有一些有趣的功能，例如完成数据分析和在图表和图形中创建数据的可视化，以及将文本转换为视频。希望通过向数百万用户开放 ERNIE Bot，百度能够基于真实的人类数据大幅改进它。其首次发布显然进展顺利，ERNIE Bot 昨天跃居中国应用商店第一名。

生成式人工智能初创公司 AI21 Labs 融资 1.55 亿美元，估值 1.4B 美元
[摘要]AI21 Labs 是一家以色列初创公司，开发文本生成人工智能工具，以 1.4B 美元的估值筹集了 1.55 亿美元的 C 轮融资；该公司的主要产品是 AI21 Studio，这是一个用于构建基于文本的自定义 B2B 应用程序的开发者平台

MotionAgent：阿里魔搭社区的文字生成剧本再生成视频的模型
[摘要]剧本生成：用户指定故事主题和背景，即可生成剧本剧照生成：输入一幕剧本，即可生成对应的剧照场景图片视频生成：剧照图片生成视频音乐生成：自定义风格的背景音乐需要36G显卡，普通人用不了

自然语言生成可视化和信息图表的自动化工具 LIDA
[摘要]LIDA 利用大型语言模型和图像生成模型，自动生成可视化和信息图表。LIDA 包括四个模块，将数据转换为自然语言摘要，探索可视化目标，生成可视化代码和创建风格化图形。该工具提供 Python API 和用户界面，用于交互式图表和数据故事生成。评论中讨论了 Excel 在大数据方面的局限性，与数据透视表的比较，使用 LLMs 进行商业模型的道德和法律问题，将图表转化为信息图表的建议，图表装饰的争议，以及关于抄袭和知识产权问题的讨论。

YC S23 百家AI项目预示硅谷投资转向：AIGC退潮，AI+落地
[摘要]据已披露数据，186个美国项目中105家与AI相关，占比达57%，相较上一届比例提升了7%。AIOps（LLMOps）工具取代ChatUI（用对话交互界面改造数据库、搜索等现有交互方式的项目）应用成为本届最受欢迎的创业方向，Copilot概念走红，服务开发者的各类代码工具和RPA工具持续火热。

学术文档的神经光学理解OCR识别
[摘要]可以轻松将学术 PDF 文档转换为 MultiMarkdown。尤其扫描版的 PDF 也能转换！基于 Transformer 模型训练而成。一键安装，一键运行，开箱即用！

百度文库将挑战WPS的地位
[摘要]8月30日晚间，百度突然宣布文心一言正式向公众全面开放，基于大模型，百度文库全面重构为“一站式智能文档平台”，百度文库的AI创作功能提供了训练过的AI模板，大大简化了文档和PPT的创作过程。百度文库的综合优势和AI能力将成为百度未来的增长来源，而WPS在AI方面的进展过于缓慢，可能面临危机。

X（推特）将允许 X 使用用户发布的信息训练 AI 模型
[摘要]马一龙旗下社交平台 X（推特）日前调整了隐私政策，允许 X 使用用户发布的信息来训练其人工智能（AI）模型。新的隐私政策将于 9 月 29 日生效。新政策规定，X 可能会使用所收集到的平台信息和公开可用的信息，来帮助训练 X 的机器学习或人工智能模型。对此，马斯克在 X 上回应称，X 只会使用公开的信息来训其练人工智能模型，不会使用任何私有的内容。

用BigDL-LLM 即刻加速百亿级参数LLM推理
[摘要]我们正迈入一个由大语言模型（Large Language Model, LLM）驱动的 AI 新时代，LLM在诸如客户服务、虚拟助理、内容创作、编程辅助等各类应用中正发挥着越来越重要的作用。然而，随着 LLM 规模不断扩大，运行大模型所需的资源消耗也越来越大，导致其运行也越来越慢，这给 AI 应用开发者带来了相当大的挑战。为此，英特尔最近推出了一个名为BigDL-LLM[1]的大模型开源库，可助力 AI 开发者和研究者在英特尔® 平台上加速优化大语言模型，提升大语言模型在英特尔® 平台上的使用体验。

Meta宣布发布Belebele，这是首个多语种阅读理解数据集
[摘要]该数据集包含122种语言版本的并行数据，有望对多语言自然语言处理（NLP）和人工智能研究产生深远影响。它有助于准确评估和比较不同语言模型性能，促进全球范围内的NLP技术普及，特别是在小众语言领域，最终可能推动更加公平和包容的技术发展。

MiniMax自研多模态大语言模型：功能丰富的API和专区解决方案，确保稳定性和安全合规性
[摘要]基于MiniMax端到端的自研多模态大语言模型，提供功能丰富的API能力和专区方案，通过纯自研引擎技术底座帮助保障稳定性及安全合规性，最大限度的降低使用者的开发复杂性，快速在目标场景中验证价值并进行生产部署。

MathGPT上手实测：支持公式图像输入
[摘要]正是基于这样的行业Know-how，MathGPT自诞生之日起就定义明确面向更广泛的数学爱好者和科研机构打造，并对症下药 ——因为想要打造数学垂直大模型，就绕不过三大挑战：第一，题目要解对。根据此前官方介绍，MathGPT是以解题和讲题算法为核心的大模型，具体拆分为三个问题：题目要解对。

年轻人的考公考研AI大模型，比GPT还好用？
[摘要]国内年轻人面临就业难、内卷等问题，导致考公考研再次升温。为解决年轻人考公考研过程中的困难，灵动WeSoul推出了一个比GPT还好用的年轻人考公考研AI大模型，能够更准确、逻辑更严谨地回答问题，并提供详细解析和追问功能。通过定制化调整和垂直领域数据的应用，灵动WeSoul的AI导师具备更高的效能，可教授写申论、论文，模拟面试等功能，旨在帮助年轻人轻松上岸。

达观发布新一代知识管理系统，率先将大模型用于智能知识管理
[摘要]达观新一代智能知识管理系统，以“曹植”大语言模型为基座，结合知识图谱、自然语言处理、多模态知识挖掘等人工智能核心技术，提供知识生产、知识组织、知识搜索、知识问答、知识图谱、知识社区6大能力，并能将企业积累的海量结构化和非结构化文档经过自然语言技术处理和提炼，搭建更加智能化、人性化的知识管理系统，广泛应用于企业文档管理、研发知识管理、制度管理、合同管理等场景，帮助企业用户更加快速、高效、便捷地实现知识识获取、共享、应用和创新。

2，产品市场创新

MediSearch AI 搜索引擎
[摘要]MediSearch AI 搜索引擎是一种基于人工智能技术的医学搜索引擎，能够提供准确、快速的医学信息检索和分析，输入医疗问题，系统将会给出答案和对应的权威参考文献。官方宣称 MediSearch 在以美国医疗执照考试为样本的提问时相比于其他 AI 对话模型获得更好的答案。并帮助医生和研究人员更好地了解和应用医学知识。该搜索引擎改进了传统搜索引擎的不足之处，通过自然语言处理、机器学习和数据挖掘等技术，能够从海量的医学文献和数据库中高效地提取有效信息，为医学领域的科研工作和临床决策提供强有力的支持。

人脸搜索引擎反向图像搜索
[摘要]PimEyes 是一个在线面部搜索引擎，它通过互联网查找包含给定面部的图片。PimEyes 使用人脸识别搜索技术来执行反向图像搜索。找到一张脸并检查该图像在网上出现的位置。我们的脸部查找器可帮助您找到脸部并保护您的隐私。人脸识别在线系统允许您通过图像进行搜索。PimEyes 是一款人人可用的人脸图片搜索和照片搜索引擎。它是审计版权侵权的好工具。

magic-avatar多模式头像生成和动画
[摘要]MagicAvatar，这是一个多模式框架，能够将各种输入模式（文本、视频和音频）转换为运动信号，随后生成/动画化身。

Youtube2Webpage：使用视频文本创建网页
[摘要]HackerNews 发布了一篇文章，介绍了一个名为 Youtube2Webpage 的 Perl 脚本，它可以通过从视频的闭幕字幕中生成文本，并与截图配对，从而创建一个网页。文章还包括用户讨论类似的工具和服务来转录和总结视频的评论，以及改进和替代方案的建议。一些用户提到了现有工具的局限性，并表达了对视频文本中更好的搜索功能的需求。

WhatsApp 的新 Mac 应用程序支持最多 8 人的群组视频通话
[摘要]Mac 版 WhatsApp 最多支持 8 人进行视频通话，最多支持 32 人进行纯音频聊天。即使您没有打开 WhatsApp 客户端，您也可以在群组通话开始后加入群组通话、查看通话（和聊天）历史记录并选择接收有关来电的通知。共享文件也应该很容易，因为您只需将它们拖放到对话中即可。Meta 表示，你的所有聊天和通话仍将进行端到端加密。

Poe 的新桌面应用程序可让您在一个地方使用所有人工智能聊天机器人
[摘要]Poe 现在允许您与同一个机器人进行多次对话，通过其探索页面搜索机器人，并以日语使用该平台。Poe也是一个拥有自己的API的机器人创建平台，现在它可以让开发者调整提示的“温度”。用户现在可以同时与 Claude 和 Llama 2 等多个机器人聊天——Poe 的目标是成为访问所有人工智能聊天机器人的一站式“网络浏览器”。此更新还添加了日语支持和企业服务。Poe 尚未透露其计划的企业级详细信息

新的 Google Chat 借鉴了 Slack、Teams、Discord 甚至 ChatGPT
[摘要]谷歌正在对 Google Chat 做出一些重大改变，这是对 Slack 和 Microsoft Teams 的回应。这款消息应用程序（又名以前称为 Hangouts 的产品）正在采用新设计，其中一些功能会让 Slack 和 Teams 用户感觉非常熟悉，以及许多 Google 新的 Duet AI 协作工具。大多数新功能将于今年晚些时候和明年年初推出，但它们加起来会形成一个更加有用和更具竞争力的聊天平台。

三星推出人工智能食品助手
[摘要]三星刚刚宣布在 100 多个国家/地区推出一款名为Samsung Food的人工智能食品应用程序。它利用收购的应用程序Whisk 的16 万个食谱数据库，提供菜肴、膳食计划和订购食材的建议。三星食品还控制电器并分享食谱，该公司表示明年其 Vision AI 将能够通过手机摄像头识别食物。

magic-edit高保真时间连贯视频编辑
[摘要]MagicEdit明确地解开了外观和运动的学习，以实现高保真和时间连贯的视频编辑。它支持各种编辑应用程序，包括视频风格化、本地编辑、视频MagicMix 和视频绘制。视频风格化使人们能够（1）将源视频转换为具有感兴趣风格（例如，现实、卡通）的新视频，或（2）创建具有不同主题（例如，狗→猫）的新场景，以及不同的背景（例如，客厅→海滩）。

3，监管合规

首批8个大模型将正式上线！百度、字节、商汤、中科院旗下紫东太初等在列
[摘要]《科创板日报》 8月31日讯，记者获悉，百度、字节、商汤、中科院旗下紫东太初、百川智能、智谱华章等8个企业/机构的大模型位列第一批名单，可正式上线面向公众提供服务。

美国政策制定者正在考虑的人工智能规则解释
[摘要]ChatGPT、Midjourney 和其他工具正在迫使拜登和国会认真对待人工智能。白宫五月份宣布了一系列人工智能政策。最近，他们在 7 月份促成了领先人工智能公司的多项自愿安全承诺。其中包括对人工智能产品进行内部和第三方测试的承诺，以确保它们免受网络攻击并防止不良行为者的滥用。

“分享每周阅读的有价值的资讯，重点关注人工智能技术应用案例、AI产品化、信息技术、推荐、搜索、社交媒体，电商交易、新技术（区块链、加密货币等...）的技术伦理和体验创新。”该简报使用阅粒搜藏（yueli.com）+chatGPT生成。“

AI及信息技术应用简报

Discussion about this post

Ready for more?