查看原文
其他

用智谱AI的类「GPTs」,我做一个Agent只花了30秒

周鑫雨 智能涌现 2024-04-01

文|周鑫雨

编辑|邓咏仪

封面来源|智谱AI

春节前,智谱AI先给开发者过了个小年。

2024年1月16日,中国模型层独角兽智谱AI举办了首届AI技术开放日Dev Day。自2023年10月语言大模型ChatGLM3发布以来,智谱AI在3个月的时间里,将基座模型GLM的能力提升了60%。

随着模型能力的提升、AI应用生态的建立,模型层厂商建立OS(操作系统)也水到渠成。智谱AI CEO张鹏对36氪直言,做OS不叫野心,“而是模型能力达到一定水平后自然而然要做的事”。

围绕迭代模型、建立AI应用生态、构建AI OS,智谱AI的Dev Day的发布有三个重点:

  • 最新大模型基座GLM-4发布,中文环境下各项能力几乎超过GPT-4,英文环境下各项能力均达到GPT-4的90%;

  • 发布定制化模型生成工具GLMs,实现0代码分钟级创建基础AI应用。与此同时,GLMs模型应用商店上线;

  • 推出多模型能力自动调用工具All Tools。All Tools可以被视作AI OS的一个雏形,能根据用户的指令对GLMs进行自动选取、调用、执行。

对不少开发者而言,这些更新听上去并不陌生。2023年11月16日,OpenAI就在Dev Day推出了定制化模型生成工具GPTs和应用商店,也被视作构建AI OS的标志。

对智谱AI而言,OpenAI是最强的对手,也是技术能力的试金石。对标OpenAI,智谱AI建立了从通用模型基座到多模态模型的产品线。

△智谱AI对标OpenAI建立的产品线

摸着OpenAI过河,张鹏认为,GLM-4的能力已经接近GPT-4,够到了建AI应用生态、做AI OS的门槛。他也预言,下一次模型能力的跃升,将出现在具身智能的突破。

单次处理300页小说,模型能力达GPT-4九成

在模型能力上,OpenAI是智谱AI一直追赶的对手。

Dev Day上最新发布的GLM-4,目前在英文基础能力的表现上,已经能和GPT-4掰掰手腕,均达到了对手能力的九成;在中文能力的表现上,除了逻辑推理和中文推理两项能力不及GPT-4,其他维度已经超越了对方。

而在指令跟随能力这一维度上,GLM-4还有一定的提升空间。所谓的指令跟随能力,就是模型解读输入Prompt和指令的能力,是理解用户意图的重要维度。在英文Prompt的理解上,GLM-4能力相较于GPT-4稍弱,为后者的85%。

随着模型发展阶段从狂卷参数规模,到应用落地,如今,通过扩展上下文窗口来提升模型的“记忆力”,成为不少厂商发力的方向。

GLM-4也不例外,它将上下文窗口从32K扩展到了128K,这意味着单次可以处理约20万字的文本,相当于300页的小说。

当然,能处理的文本越长,模型也越容易“失忆”。据智谱AI介绍,GLM-4目前可以做到对记忆几乎100%的精准召回。

在作者上传一整本马伯庸的9万字小说《长安的荔枝》后,可以看到,GLM-4不仅准确得出李善德运送荔枝的天数,总结了他成功保存荔枝的方法,还定位了刺杀李善德的真凶。

△作者试用

在定价上,128K系列模型采取了“加量不加价”的策略。相较于32K的ChatGLM-Turbo,128K的GLM-3-Turbo定价没有上涨,仍为0.005元/千Tokens;128K的GLM-4,定价为0.1元/千Tokens,约为GPT-4价格的1/2。

在Dev Day上,智谱AI也披露了在多模态研究上的进展。

据智谱AI介绍,最新推出的文生图模型CogView3,能力已经超过了最强开源模型Stable Diffusion XL,接近OpenAI的DALLE·3。这是由于CogView采用了自研的非自回归技术“中继扩散模型”,提高了生成图像分辨率,并解决了Diffusion模型生成质量不稳定的问题。

CogAgent,是智谱AI最近的研究方向,即探究如何从多模态模型走向智能助手。张鹏告诉36氪,人类感知世界仍然离不开视觉、听觉,多模态与Agent的结合是必然的趋势。

推出0代码Agent定制工具GLMs,模型应用商店上线

对标OpenAI的GPTs,智谱AI在Dev Day上发布了GLMs。

在这款国产的定制版Agent生成器中,用户只需要用自然语言输入Agent功能,GLMs就会自动生成应用名称、配置名称、模型能力调用等配置文件信息。用户还可以上传外部知识库,让GLMs进行学习。

比如,当我们想让GLM自动生成一个食谱生成器,就可以输入“你是一个食谱生成器,用户输入食材,你可以生成三菜一汤。”

△作者试用

点击“发布”按钮后,名为“食途指南”的GLMs,就可以在智谱AI的对话机器人“智谱清言”上使用。

△作者试用

不过,GLMs的目标用户并非企业和资深开发者。据现场工作人员介绍,这是一款面向普通用户的Agent生成器,目前用户只能在“智谱清言”移动端和网页端上发布Agent,而不能够发布独立的App版本。

为了建立基于GLM的AI应用生态,在Dev Day上,智谱AI顺势发布了GLMs模型应用商店,并计划同期公布开发者分成计划。

目前,在名为“智能体中心”的应用商店中,已经聚集了上百个基于GLM研发的AI应用。

比如一款名为“‘利好茅台’分析师”的应用,主打提炼出对茅台品牌有利的信息。即便询问对茅台不利的问题,它也能圆回来。

△作者试用

智谱AI版GPTs,让大模型把原生App用起来

用一台手机或电脑,查到近三年春运数据并绘制折线图,需要几步?

1、打开中国政府网寻找数据;2、汇总到Excel表格中;3、调用图表生成工具。

最少要三步。

而模型时代,这个步骤被缩减成了输入一句自然语言指令:

△作者试用

“这将会是AI时代OS(操作系统)的特质。移动时代的iOS和安卓并不理解应用,但大模型OS可以理解建立其上的AI原生应用。”张鹏告诉36氪。

此前,OpenAI已经用GPTs,为AI时代的操作系统打了个版:开发者们利用GPT基座低门槛快速开发定制模型和应用GPTs,集成了这些GPTs的GPT,天然成为最懂这些应用的OS。

在Dev Day,智谱AI对大模型OS的运作模式已经进行了初步实践:推出All Tools,让作为OS的GLM-4根据用户意图,自动选择调用文生图、代码解释器、网页浏览等多种模型能力。

All Tools可调用的连续图文创作能力,来源于智谱AI的文生图模型CogView2。其优势是可以结合上下文语境,与用户连续交互。

比如,当我们遇上一个最终选了第一版方案的难缠甲方,通过CogView就能快速找到第一个方案:

△作者试用

All Tools可调用的网页浏览能力,特征是由模型自行规划检索任务、自行选择信息源、自行与信息源交互,并对用户显示检索次数。

比如,仅根据“CES 2024(2024国际消费电子展)展位面积最大的中国厂商”这一信息,网页浏览能力就能检索到TCL,并通过2次检索回答产品发布的相关问题。

△作者试用

除了连续图文创作能力网页浏览能力,All Tools目前还能调用代码解释器(支持复杂计算,以及文件处理、数据分析、图表绘制等复杂任务)、Function Call(根据⽤户提供的function描述,⾃动选择所需function并⽣成参数,以及根据function的返回值⽣成回复)。根据具体任务,All Tools还支持多工具自动调用

使用一个懂你、更懂应用的OS有多爽?

调用网页浏览和图表绘制能力完成春运数据折线图的生成,是其中一个案例。

36氪再尝试了让All Tools根据同个指令,调用文本创作和图片设计能力2种能力。

比如,想为电视剧《繁花》设计宣发语和海报,只需要在一句自然语言指令中同时包含这两个需求,All Tools就能自动调用ChatGLM的语言理解能力,以及CogView的图片生成能力。

△作者试用

张鹏告诉36氪,在未来,All Tools也将支持调用GLMs模型应用商店中上传的各种模型应用。

以下是与智谱AI CEO张鹏的对话(内容略经36氪整理):

36氪:之前OpenAI在Dev Day上发布了GPTs和应用商店,被视作要做AI时代的OS(操作系统)。如今智谱AI发了GLMs和应用商店,智谱AI也有做OS的野心吗?

张鹏:我觉得这不叫“野心”,而是模型能力达到一定水平后自然而然要做的事。

36氪:“一定水平”是什么?

张鹏:可以理解为模型能力超过人类能力的平均线。去年(2023年)3月发布的一篇解读GPT-4能力的报告,最后的结论是:GPT-4在大多数任务的平均表现已经超过了人类的平均水平。如果我们追上GPT-4,就意味着我们也能超越人类的平均水平。

36氪:AI时代的OS会和移动时代的OS(比如iOS和安卓)有本质的区别吗?

张鹏:当然会。

信息科学或者上一代的IT技术解决的是处理数据信息的问题。计算机把所有的数据数字化,用0和1表示,然后设计一套逻辑去计算。但上一代IT技术只是工具,并不知道它在处理的是什么,以及处理的意义是什么。iOS也好,安卓也好,都不理解自己处理应用的意义。

这一代人工智能想解决的问题就是让机器理解自己行为的意义。所以这一代的OS,其实不是操作系统,而是思考系统,你只要粗略地告诉它你要干嘛,它就能够帮你去思考,并且完成对应用的操作。

36氪:未来AI OS和安卓、iOS会是怎样的关系?

张鹏:若是要让AI OS替代传统OS,我觉得需要很长一段时间,也许最后它们也会共存。

你记不记得《流浪地球》中的这样一个情节?当量子计算机MOSS接上空间站的总控,它做的第一件事是:改写底层所有的操作系统。

为什么用的是改写,而不是全部覆盖?因为底层很多东西就只需要机械式的行动,不需要思考。安卓和iOS已经很强,起码现在很有效,能控制现有的应用。未来OS会发生的事,很难预估。

36氪:那我们来聊现实一些的事。国内外现在很多模型厂商都在做自己的应用商店,智谱AI怎么样应对竞争,把更多的应用聚集到自己的生态上?

张鹏:其实我们2021年的时候就想做OS,取名为“MOS”,相比“MOSS”就少了个“S”。当时我们连产品设计图都画出来了,但是这个事儿最后没有做,还是考虑到模型的能力不够。我觉得聚集更多应用的前提,就是提高模型能力。

36氪:模型能力迭代到GLM-4目前的能力,最关键的几个节点是什么?

张鹏:第一件事就是Scaling(扩大参数规模),提升参数量是提高模型能力的基础。

第二件事,是我们做了很多与人类对齐的工作,让模型遵循人类的价值观。

第三件事是开源。开源的意义并不在于让我们的技术先进了多少,而是因为单纯靠我们的力量很难追上OpenAI。我们需要通过开源把更多人引入生态,去发挥模型最大的价值。

△智谱AI设立大模型开源基金,在开源社群投入1千张GPU、1千万人民币、1千亿Token数

第四件事是多模态。因为语言是人类创造的,所以从语言切入是最容易的,语言模型可以成为第一步。但我们理解、认知世界的方式还需要其它的感官,所以开始加入多模态很重要。

最后一件事是Agent。多模态能让模型长出五官,但模型仍然活在缸里。Agent就让模型长出四肢,能够真正实现与现实或者数字环境交互,让模型具备自主规划和行动的能力。

所以现在看到的GLM-4其实是我们长期对这几件事探索的成果。

36氪:模型能力的下一次跃升在哪里?

张鹏:我觉得是具身智能。就像一个哲学命题所讨论的:肉体和灵魂能不能分开?我倾向于认为,智能无法和物理世界割裂,智能的诞生与身体的物理条件有关。

36氪:Dev Day上大家提到大模型没法大规模商用,以及C端通用应用发展缓慢的一个重要原因是成本太高,比如一个通用C端应用一天就可能消耗上亿的Token。站在模型厂商的角度,这个问题该怎么解决?

张鹏:这个问题无法脱离生态圈去解决。比如对于硬件厂商来说,就需要制造出效率更高的芯片;对我们这些模型厂商来说,需要持续去降低模型的推理成本;对于应用厂商而言,就要想办法让用户更多地去承担成本,提高付费意愿。

成本的问题躲不开,需要全产业链去挤水分。

36氪:今天智谱AI分享了很多客户案例。不过在国内做模型的商业化,有哪些难点?

张鹏:中国市场有自己的特点。比如说SaaS,在国外活得好好的,在国内就很艰难。MaaS(模型服务)本质上也是SaaS,但环境的事靠我们自己很难去改变,我们只能思考怎么去破局。

所以我们很早就把商业化方案想得比较清楚。比如和初期做知识工程的基因有关,我们觉得模型商业化做To B可能会更容易一点。

但中国B端的客户的需求其实非常多样化,非常不统一,如何去满足客户需求又不陷入工程的泥潭里?我觉得是要放大AI模型泛华能力强、通用性高的优势。

这里头有很多讲究。首先部署策略的方案要多元,比如我们有三种方案:API、云端私有化、本地私有化,基本上每个有意向的客户都能找到对应的部署方案。其次我们也会慢慢教育用户,说服他们慢慢从最重、最麻烦的定制方式,转向更标准化、平台化的产品购买方式。

从去年来看,我们MaaS整体的效果应该说还行。我们有2000多家客户,单纯从数量上看,分布得还比较健康,呈现金字塔结构(少量高付费能力、高忠诚度的客户位于塔尖)。

△智谱AI的部分客户

36氪:智谱AI会出海吗?

张鹏:我们内部也在讨论这个问题。我们从来没有限制过自己制作国内市场,只是我不知道该怎么定义出海这个事,是挣美元就算出海了,还是在国外开个公司就算出海?所以关于出海的定义和形式我们纠结了很久。

其实在学术的全球知名度上,我们也早就“出海”了,但是这不等同于商业出海,我觉得还是一步步来。目前最重要的两件事是,一,核心技术突破;二,在商业路径上探索出更长远、更具有规划性的MaaS落地的路径。

目前商业化的情况初步证明,我们在MaaS上是能走通的,但是要怎么引导这个路径往更健康或者更长期的方向?今天有人提到平台化,也有人提到操作系统,现在还没有定论。

👇🏻 扫码加入「智涌AI交流群」👇🏻

36氪旗下AI公众号

👇🏻 真诚推荐你关注 👇🏻

继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存