AI及信息技术应用2023年6月12日简报

Jun 12, 2023

上周，在WWDC上苹果输入法嵌入的AI算法也是让人惊艳了一下。智源研究院的大会真实精彩纷呈，各路大咖观点对撞，颇多启示。

在AI应用上，上周不少垂直领域模型开始崭露头角，医疗类、编程代码辅助、复杂操作自动化等应用都有不少产品出现，更多出现的还是各类型聊天，陪聊女友型、诈骗型以及各种功能跟聊天的结合，比如instagram融合功能与社交的ChatBot，会不会进入一个bot是应用的标配、是应用的伴侣的局面？

与此同时，AI应用的风险和监管呐喊、政府监管框架的逐渐确立等方面也开始逐渐清晰。

1，AI产研

智源「悟道3.0」大模型系列问世，这次不拼参数，开源开放成为主角
[摘要]此次智源发布了悟道・视界视觉大模型系列，由悟道 3.0 的视觉大模型团队打造，涵盖了国际领先的六大成果，包括在多模态序列中补全一切的多模态大模型 Emu、最强十亿级视觉基础模型 EVA、性能最强开源 CLIP 模型 EVA-CLIP、首创了上下文图像学习技术路径的通用视觉模型 Painter、一通百通、分割一切的视界通用分割模型、以及首个零样本视频编辑方法 vid2vid -zero。因此在悟道 33.0 大模型系列中，智源发布并全面开源悟道・天鹰语言大模型系列和悟道・视界视觉大模型系列，与多个高校和科研院所合作构建 FlagEval开源大模型评测体系与开放平台，加之 FlagOpen 飞智大模型技术开源体系，通过全方位的大模型技术、评测体系以及更广泛的开源生态，服务于大模型行业发展。

智源（BAAI）发布了名为"Aquila"的开源大语言模型
[摘要]Aquila语言大模型在技术上继承了GPT-3、LLaMA等的架构设计优点，替换了一批更高效的底层算子实现、重新设计实现了中英双语的tokenizer，升级了BMTrain并行训练方法，在Aquila的训练过程中实现了比Magtron+DeepSpeed zero-2将近８倍的训练效率。Aquila语言大模型是在中英文高质量语料基础上从０开始训练的，通过数据质量的控制、多种训练的优化方法，实现在更小的数据集、更短的训练时间，获得比其它开源模型更优的性能。也是首个支持中英双语知识、支持商用许可协议、符合国内数据合规需要的大规模开源语言模型。

RWKV:国人研发的可 scale的 RNN
[摘要]Transformer模型在几乎所有的自然语言处理(NLP)任务中都取得了革命性的进展，但在序列长度上，其内存和计算复杂性呈二次倍增。相比之下，递归神经网络(RNN)在内存和计算需求上呈线性扩展，但由于并行化和可扩展性方面的限制，很难与Transformer达到相同的性能水平。我们提出了一种新颖的模型架构，称为Receptance Weighted Key Value (RWKV)，将Transformer的高效可并行训练和RNN的高效推理相结合。我们的方法利用了线性注意机制，使得我们可以将模型形式化为Transformer或RNN，从而在训练过程中并行化计算，并在推理过程中保持恒定的计算和内存复杂性，实现了第一个可以扩展到数百亿参数的非Transformer架构。我们的实验证明，RWKV与相同规模的Transformer模型性能相当，这表明未来的工作可以利用这种架构创建更高效的模型。这项工作在平衡序列处理任务中的计算效率和模型性能之间的权衡方面迈出了重要的一步。

Meta工业级别大规模A代码助手CodeCompose
[摘要]CodeCompose，这是一个在Meta内部开发和部署的 AI辅助代码创作工具。CodeCompose基于lInCoderLLM，它将生成能力与双向性相结合。我们已经将 CodeCompose扩展到Meta的数万名开发人员中，在10多种编程语言和几个编码界面上提供服务。CodeCompose的大规模部署中获得的度量指标，显示其在Meta内部代码创作体验方面在15天的时间窗口内的影响，其中CodeCompose提供了450万个建议。定量度量显示，(i) CodeCompose在多种语言中的接受率为22%，(ii) CodeCompose用户输入的代码中有8%是通过接受CodeCompose的代码建议完成的。定性反馈显示，91.5%的反馈对CodeCompose持有极高的好评。除了协助代码创作外，CodeCompose还引入了其他积极的副作用，例如鼓励开发人员生成更多的代码文档、帮助他们发现新的API等。

Google发布文章，利用大序列模型来自动化代码审阅
[摘要]代码更改审查是软件开发中一个关键且耗时的部分。1解我们如何在现实环境中应用大型序列模型的最新进展，以自动解决日常开发工作流程中的代码审查评论

MeDa-BERT: A medical Danish pretrained transformer model
[摘要]丹麦一个医学词嵌入的医学领域BERT的语言模型(MeDaBERT)。在一个新的丹麦医学语料库上进行了预训练，该语料库包含来自丹麦的医学书籍和1.33亿个标记的互联网文本。这些模型在医学丹麦文分类任务上表现出比通用领域模型更好的性能。

UC Berkeley联合Microsoft Research发布Gorilla, 让LLM帮你写API
[摘要]Gorilla可以从数千个API中挑选出最适合用户任务的API，甚至超越了GPT-4。LLMs需要通过API与世界互动，而Gorilla则教会了LLMs如何使用API。

Midjourney劲敌来了！谷歌StyleDrop王牌「定制大师」引爆AI艺术圈
[摘要]StyleDrop是一种基于Muse构建的图像生成模型，它可以根据给定的参考图片复刻任何复杂的艺术风格。无论是梵高的星空、卡通风格还是其他抽象风格，StyleDrop都能解构并复制。它还可以精确控制细节，例如绘制原风格的logo。StyleDrop的魅力在于只需一张参考图像，即可生成与该风格类似的无数幅画作。StyleDrop的工作原理是基于两个关键部分：生成视觉Transformer的参数有效微调和带反馈的迭代训练。它使用Muse作为基础模型，其中包含用于基础图像生成和超分辨率的合成模块。通过微调模型参数和迭代训练，StyleDrop可以生成与文本提示和风格参考相匹配的图像。

视觉内容AI创作平台右脑完成天使轮融资，光速光合领投
[摘要]国内 AIGC 公司右脑科技完成数千万元天使轮融资，光速光合和奇绩创坛领投。资金将用于算法研发、产品开发和团队扩充。团队来自北京大学等顶尖机构，拥有丰富的 AIGC 研究经验。NUWA 是其领先的多模态预训练大模型。公司致力于打造视觉内容 AI 创作平台，满足专业创作者的需求。具备强大的图像和视频生成技术，持续迭代优化。光速光合是领投方，支持中国创业企业发展。

360智脑新版实测：多模态+联网！
[摘要]360公司发布了他们的GPT模型，并展示了该模型在多个方面的卓越能力。在多轮对话、文学创作、总结改写、角色扮演、语言翻译、逻辑推理、数理推算、编程、垂直专业能力和价值观等方面，360的GPT模型都表现出色。此外，他们还展示了AI生成图像工具360鸿图，该工具可以根据简单描述词生成详细的场景描述，并提供多种主题风格和艺术家风格的选择。

邱锡鹏团队提出SpeechGPT：具有内生跨模态能力的大语言模型
[摘要]SpeechGPT是一个多模态大型语言模型，能感知和生成多模态内容。它通过离散化处理语音，统一语音和文本之间的模态。具有跨模态对话能力和强大的指令遵循性能。主要特点：1. SpeechGPT是一个大型语言模型，具有感知和生成多模态内容的能力。2. 通过离散化处理语音，实现了语音和文本之间的模态统一。3. 具备跨模态对话能力和出色的指令遵循性能。国内首个医疗大语言模型问世!多模态打通诊疗全流程

[摘要]MedGPT是一款基于Transformer架构的大语言模型，经过预训练和微调训练，并结合了超过20亿的医学文本数据和800万条结构化临床诊疗数据。它具备多模态输入和输出的能力，并在医学应试能力评测中表现良好。MedGPT不仅可以回答医学问题，还可以进行有效的问诊，并给出准确的诊断和治疗方案。为了保证诊断的准确性，MedGPT使用了一致性校验机制，通过临床医学规则器和专家评议的真实世界医生一致性对标机制来确保准确性。

首个开源中文金融大模型来了！解释授信额度、计算收益率、决策参考样样通，来自度小满
[摘要]近日，度小满正式发布千亿级中文对话大模型轩辕，集中文、金融、开源特色于一身。基于BLOOM-176B研发的轩辕大模型，在金融场景中的任务评测中，效果相较于通用大模型大幅提升，表现出明显的金融领域优势。在诸如金融名词理解、金融市场评论、金融数据分析和金融新闻理解等任务的评测中，轩辕超越了其他四种开源大模型，赢得了150次回答中63.33%的胜率，充分凸显了其在金融领域的显著优势。

StyleDrop：任何风格的文本到图像生成
[摘要]Cyte是一款能搜索你整个数字历史记录的工具，包括桌面应用和浏览器使用。它是自主托管的，私密且智能化的，可以使用OpenAI API密钥或本地LLM来增强搜索结果。你可以排除不想被记录的应用或网站。Cyte是开源的，可以根据自身需求进行定制。它还可以监控你的使用情况，并且支持文本搜索。你可以将个人数据存储在本地文件夹中，且目前只支持英语。如果你不想记录某些内容，可以选择禁用记录或删除记录。

HuggingFace万字访谈：OpenAI不足为惧，每个公司都会有自己的GPT-4
[摘要]你可以快速去做一些事情，但是如果你真的想认真对待这件事，你需要了解模型是如何工作的，如何训练它们和优化它们，这将让你有机会成为真正伟大的创业公司，创造出真正伟大的产品。

13948道题目，涵盖微积分、线代等52个学科，上交清华给中文大模型做了个测试集
[摘要]在 OpenAI GPT 系列 / Google PaLM 系列 / DeepMind Chinchilla 系列 / Anthropic Claude 系列的研发过程中，MMLU / MATH / BBH 这三个数据集发挥了至关重要的作用，因为它们比较全面地覆盖了模型各个维度的能力。最值得注意的是 MMLU 这个数据集，它考虑了 57 个学科，从人文到社科到理工多个大类的综合知识能力。由上海交通大学，清华大学，爱丁堡大学共同建设，花了大概三个月的时间，构造了一个覆盖人文，社科，理工，其他专业四个大方向，52 个学科（微积分，线代 …），从中学到大学研究生以及职业考试，一共 13948 道题目的中文知识和推理型测试集，我们管它叫 C-Eval，来帮助中文社区研发大模型。

变革之道：大算力+大模型,上海强攻算力高地，打响大模型商用基建第一枪
[摘要]在商汤看来，AGI时代之下，数据、算法和算力三要素有了新的需求：计算量= 模型参数量 x 处理数据量。据杨帆介绍，截至今年5月，商汤“大模型+大算力”的方式，已经涵盖智能驾驶、生物制药、芯片设计、智慧商业、高校科研等前沿领域，并已在超过20个落地场景中实现大模型交付。因此，在这种大背景之下，商汤针对临港新片区智算产业链所要实现的变革，提出了一条道路——大模型+大算力

COHERE 宣布从 INOVIA、NVIDIA、ORACLE、SALESFORCE 获得 2.7 亿美元的 C 轮融资
[摘要]总部位于多伦多的人工智能初创公司 Cohere 与 ChatGPT 创建者 OpenAI 竞争，已经完成了 2.7 亿美元的 C 系列融资，以推动企业采用生成人工智能。Nvidia 的首席执行官黄仁勋声称 Cohere 已经“为生成人工智能做出了基础性贡献”，并补充说该公司的服务将帮助全球企业利用该技术的能力。

微软正在为美国政府机构带来 OpenAI 的 GPT-4 AI 模型
[摘要]Azure 政府客户现在可以使用 OpenAI 的两种大型语言模型：该初创公司最新和最强大的模型 GPT-4，以及一个更早的 GPT-3，通过微软的 Azure OpenAI 服务。这家总部位于华盛顿州雷德蒙德的公司计划周三发布一篇关于该计划的博文，彭博社看到了该博文，尽管它没有指明预期在发布时使用大型语言模型的具体美国机构。国防部、能源部和美国宇航局是 Azure 政府的联邦政府客户。

ToolBench,这是一个LLM工具操作功能的评估套件
[摘要]ToolBench的排行榜！这是一个社区，参与者可以创建语言模型和动作生成算法，以生成基于自然语言描述的目标的API函数调用！请参阅我们的论文以了解更多详情，并加入我们的Discord进行进一步讨论。评估套件现在已在GitHub上可用。

AI「复刻」现实女友爆火！国外小哥开源GirlfriendGPT，GitHub已获1.3k星
[摘要]最近在GitHub上出现了一个热门的开源项目，该项目教用户如何为自己的女友创建一个AI分身。这个项目由名为Enias Cailliau的开发者创建，他通过技术手段将他现实生活中的女友克隆成了一个AI。该项目在GitHub上发布不久就获得了1.3k+的星标。这个AI女友名为Sacha，她可以向Enias发送语音信息、文本消息，甚至发送自拍照片。不过，Sacha的自拍照片可能有点过于赛博风格，不太容易被重复观看。但Sacha的语音很甜美，充满活力，值得多次倾听。Cailliau将这个AI女友命名为GirlfriendGPT，名字简洁明了，一看就知道是做什么的

Google Vertex AI 使用全代管式机器学习工具更快地构建、部署和扩缩机器学习 (ML) 模型，以用于任何使用场景
[摘要]Google的生成AI平台现在免费为所有人开放。Google Cloud的Vertex AI平台，主要强调以下特点：1. 模型库提供各种API、基础模型和开源模型，方便用户快速启动机器学习项目。2. Vertex AI通过端到端MLOps工具帮助数据科学家和机器学习工程师高效、负责任地管理项目，专注于创新代码。3. 与BigQuery、Dataproc和Spark原生集成，提供数据和AI集成的功能，支持标准SQL查询创建和执行机器学习模型。4. 提供少代码和无代码工具，使不同背景的从业者能够利用机器学习工作负载，并通过Generative AI Studio进行模型调整和部署。5. Vertex AI是开放而灵活的AI基础架构，支持多种模型部署选项，提供全代管式服务和MLOps工具集成，降低推断费用并更有效地管理模型。

Falcon：1万亿训练数据，400亿参数!可商用的类ChatGPT开源模型
[摘要]近日，阿联酋阿布扎比技术创新研究所(Technology Innovation Institute，简称TlI)发布了，阿联酋首个类ChatGPT开源大语言模型--Falcon-40B。Falcon-40B拥有400亿参数，在1万亿tokens数据集上进行训练，可用于文本问答、总结摘要、自动生成代码、语言翻译等，支持特定业务场景微调。在斯坦福大学的HELM LLM基准测试中，Falcon-40B比GPT-3、Chinchilla Al、PaLM-62B等知名大语言模型的算力消耗低更低，性能却更出色。目前，Falcon-40B在huggingface的开源大语言模型排行榜中位列第一名，击败了LLaMa 65b、GPT4-X-Alpasta-30b、StableLM、RedPajama、LLaMa 30b等一系列著名开源项目成为一匹黑马。

面壁智能联合知乎开源 CPM-Bee 并发布智能对话助手“露卡”（Luca），联网论文查找摘要功能太炸裂了！
[摘要]面壁智能联合知乎在“2023中国国际大数据产业博览会”上发布了最新的大语言模型成果，这是双方继“知海图Al”大模型后的第二次联合公开发布。发布会上，面壁智能开源自研模型 CPM-Bee 10B，并推出对话类模型产品“露卡”(Luca)

NVIDIA推出游戏大模型代工服务ACE for Games
[摘要]NVIDIA今天宣布推出适用于游戏的NVIDIA Avatar Cloud Engine (ACE)，这是一项定制的AI模型工厂服务，通过基于AI的自然语言交互，为NPC 赋予智能，从而改变游戏的形态。中间件、工具和游戏开发者可以使用ACE for Games构建和部署定制的语音、对话和动画AI模型，将其应用于软件和游戏中。 ACE套件包含NeMO语言模型定制与部署服务，Riva自动语音识别与文字转语音服务，Audio2Face创建说话动画服务。

Tianqi Chen团队 RedPajama-3B模型demo,在移动端完美运行
[摘要]RedPajama-3B是一个非常紧凑的模型(大约需要2G)但非常惊人。现在在M1、iPhone和浏览器上运行。您还可以带上自己的模型权重，并在笔记本电脑、浏览器或电话中与他们聊天，所有这些都在本地进行。

谷歌（Google）今天宣布与妙佑医疗国际（Mayo Clinic）达成合作
[摘要]谷歌与妙佑医疗国际合作利用生成式人工智能改善医疗保健，提高临床工作流程效率，帮助医生和研究人员获取所需信息。谷歌的技术平台“Gen App Builder”能统一医疗数据，实现搜索、分析和识别最相关结果。谷歌云与妙佑医疗国际等机构合作，利用生成式AI产品生成实时、个体化的交流。生成式AI能以复杂方式审查数据，压缩消化信息，并创造新的图像。这将加速搜索、分析和整合数据，为医生和患者提供更准确的洞见

2，产品市场创新

Instagram有可能很快会推出自己的AI聊天机器人
[摘要]该聊天机器人的主要功能包括帮助用户解决问题以及提供商业支持。该聊天机器人的核心应用是对于Instagram店铺进行支持，目前尚未确认其正式发布时间。Instagram的这一作为对于其商业化战略是一个非常巨大的推进，同时也符合了近年来人工智能技术的发展趋势。

WordPress 发布 AI 文本助手
[摘要]WordPress 引入了Jetpack AI Assistant ，这是一个 AI 插件，可以直接在 WordPress 界面内生成和编辑文本。该工具被描述为“创意写作伙伴” ，它通过生成多样化的内容并提供调整语气和风格的选项来简化内容创建。它可以总结博客文章、纠正语法和拼写、翻译语言等等——虽然我们以前从未见过，但在最大的内容管理平台之一中拥有这些功能对于 WordPress 爱好者来说可能是一个巨大的进步。

适用于任何网站的人工智能聊天机器人
[摘要]CommandBar 推出了HelpHub ，一个 AI 聊天和搜索任何网站或网络应用程序。只需从 URL 复制并粘贴您的源内容或与 CMS 同步，聊天机器人将被训练为就该内容提出任何问题。

Coefficient：AI表格处理助手
[摘要]Coefficient推出AI Copilot，使用GPT技术升级电子表格，自动连接数据、生成报告和加速数据分析。用户可以使用文本命令从Salesforce、Tableau、Shopify、Stripe等系统中连接实时数据，使用15种强大的公式清理、格式化、查询、丰富和分析数据。AI数据探索功能可以自动创建漂亮的图表和透视表。

Process AI：流程自动化管理
[摘要]Process AI是全球领先的AI驱动流程管理平台。其深度ChatGPT和LLM模型可帮助您创建、管理和自动化任何重复性流程。使用Process AI，将繁琐的手动流程转化为强大的AI驱动工作流，只需点击几下即可。AI工作流生成器能够理解您的独特需求，仅需几个指令或上传现有文档，即可在几秒钟内生成个性化的工作流。使用AI最小化手动干预，减少错误，释放资源集中精力处理高价值工作。AI任务可以执行各种任务，包括数据转换、情感分析和语言翻译服务。数据安全得到保障，您的数据不会用于AI模型的训练。同时，AI或工作流中创建的任何数据都是独特的，不会被其他方式访问。

3 ，监管与合规

ChatGPT 因虚假信息被起诉
[摘要]主持人马克·沃尔特斯 (Mark Walters) 在其人工智能聊天机器人 ChatGPT 诬告他挪用公款后，对 OpenAI 提起了诽谤诉讼。沃尔特斯认为，OpenAI 应该对其人工智能工具的破坏性输出负责，该工具有生成捏造信息的历史。该诉讼强调了与使用 AI 语言模型相关的潜在风险和责任。

日本宣布版权不适用于AI训练
[摘要]该政策允许Al|使用任何数据，“无论是用于非盈利还是商业目的”“日本政府认为，尤其是与动漫和其他视觉媒体相关的版权问题，阻碍了该国在AI|技术方面的进步。”

科技部发布中国AI大模型地图，京粤浙沪处于第一梯队
[摘要]根据2023年5月28日发布的《中国人工智能大模型地图研究报告》，中国研发的大模型数量在全球排名第二，仅次于美国。北京、广东、浙江、上海位于国内大模型区域分布的第一梯队。科技部副部长吴朝晖在论坛上呼吁学术界与产业界加强研发合作，通过开源形成繁荣的大模型产业生态。他指出具身智能将是未来AI的发展方向，具备读图能力的GPT-4是迈向通用人工智能的重要进展。此外，他提出了面向智能增强时代的四点倡议：坚持开源协作、坚持场景驱动、坚持技术向善、坚持开放理念。赵志耘指出，中国的大模型人才总量不足，各地的人才数量都不充足。报告显示，北京、广东、上海在开源数量和影响力上均排名前三。高校和科研机构是开源主力。

深圳宣布1000亿AI基金群
[摘要]投资界-解码LP获悉，日前《深圳市加快推动人工智能高质量发展高水平应用行动方案》发布，深圳将发挥政府投资引导基金作用，统筹整合基金资源，形成规模1000亿元的人工智能基金群。深圳申请出战：1000亿AI基金群要来了整体来看，《行动方案》分别从强化智能算力集群供给、增强关键核心技术与产品创新能力、提升产业集聚水平等六大方向制定18条措施，提出举全市之力，打造国家新一代人工智能创新发展试验区和国家人工智智能创新应用先导区。

中国信通院：编制纸鸢开放人工智能模型许可证促大模型落地
[摘要]中国信息通信研究院与中国通信标准化协会联合主办的OSCAR开源合规沙龙上宣布，他们共同编制了"纸鸢"开放人工智能模型许可证，旨在为开源项目打造具有变革意义的大模型奠定基础。今年上半年，人工智能发展进入了产业阶段，开源的人工智能模型不断涌现，如Meta发布的LLaMA模型，更轻量、平民化，与ChatGPT相比效果接近。中国信息通信研究院云大所的郭雪表示，大型模型的通用性要求其必须开源。为促进大型模型技术真正在产业中应用，他们联合产业各方编制了"纸鸢"开放人工智能模型许可证，并将发布《纸鸢开放人工智能模型许可证(征求意见稿)》。

国家互联网信息办公室关于《近距离自组网信息服务管理规定（征求意见稿）》公开征求意见
[摘要]近距离自组网信息服务提供者在提供服务过程中，应当提供接收者关闭接收、选择接收、黑名单自动拒绝等接收功能，并默认设置为关闭接收状态。其中提出，近距离自组网信息服务使用者不得利用该服务发布、转发违法信息。在提供选择接收服务时，应当综合考虑传输速度、用户需求等情况合理设置接收时长，超过接收时长后自动切换至关闭接收状态

OpenAI 联合创始人 Sam Altman 北京智源大会的发表演讲
[摘要]OpenAI联合创始人Sam Altman在2023年北京智源大会的“AI安全与对齐”主题论坛上的演讲内容。Altman强调了人工通用智能（AGI）的发展对全球合作的重要性，并指出可能带来的问题，如医疗系统瓦解和生态系统破坏，需要引起警惕。他主张建立全球的AGI治理机制，并在全球范围内制定标准和规范，同时倡导科研人员共享安全问题的发现。他强调只有通过全球范围内的深度合作，才能充分发挥AGI的潜力并防止潜在风险。

欧洲希望平台给人工智能生成的内容贴上标签，以打击虚假信息
[摘要]欧盟价值观和透明度专员Vera Jourova昨天在与《守则》40多个签署方举行会议后发表的讲话时表示，那些签署反对虚假信息的人应该采用技术来识别人工智能内容，并明确地给用户贴上标签。“新的人工智能技术可以成为一股善良的力量，并为提高效率和创造性表达提供新的途径。但是，像往常一样，我们必须提到这件事的黑暗面，它们也带来了新的风险和对社会产生负面影响的可能性，”她警告说。“同样，当涉及到虚假信息的创建和传播时。

利用AI克隆了一位《60分钟》记者的声音，欺骗同事并获取她的护照号码
[摘要]有人利用人工智能技术克隆了一位《60分钟》记者的声音，以欺骗同事并获取她的护照号码。该人先克隆了Sharyn的声音，然后使用欺骗工具操纵来电显示，显示出Sharyn的名字。整个攻击过程只花了5分钟的时间来窃取信息。

“分享每周阅读的有价值的资讯，重点关注人工智能技术应用案例、AI产品化、信息技术、推荐、搜索、社交媒体，电商交易、新技术（区块链、加密货币等...）的技术伦理和体验创新。”该简报使用阅粒写作助手（yueli.com）生成。“

AI及信息技术应用简报

Discussion about this post

Ready for more?