查看原文
其他

为什么各大 VC 最近都在投向量数据库

StartupBoy 投资实习所 2023-06-17

从目前 VC 的投资数据来看,大家对 AI 的关注点主要有三个:一个是基础大模型 LLM,第二个是具体某个场景的应用(包括小模型),第三个就属基础模型与应用层之间的中间层了(开发者工具和数据库等)。

随着开发者疯狂涌入开发各种 AI 应用,中间层已经成为各大 VC 争抢的投资标的,作为 AI 时代 Memory 的向量数据库,更是当下最大的一个热门。几周前,因为 Pinecone 正式官宣 7.5 亿美金估值的 B 轮融资,我简单介绍了一下向量数据库这个领域的一个大致情况。

在之前的文章我曾提到,虽然向量数据库的发展还处于非常早期阶段,但在过去一个月里资本正在疯狂涌入这个赛道,这个领域的创业梯队也逐渐浮现了出来。估值在一亿美金以内的有 Chroma 和 Qdrant,总融资金额在千万美金级别;估值在五亿美金之内区间的有 Weaviate,总融资金额在 5000 万美金级别;估值在五亿美金之上的有两家公司 Pinecone 和 Zilliz,总融资金额都超过了一亿美金

其中,Zilliz 是一家源自中国的公司,总部设立在美国硅谷。它是向量数据库领域全球最早的开拓者,在五年前就推出了全球首个开源向量数据库产品 Milvus。Milvus 现在是全球最流行的开源向量数据库产品,在全球拥有超过 1000 家的企业用户,是 OpenAI 和英伟达最近发布的向量数据库的官方合作伙伴,在一年前 B+ 轮融资时估值就已经接近 7 亿美金了。

为了更好地了解向量数据库的价值,我最近约 Zilliz 创始人星爵深入地聊了聊,这次对话解答了我的很多疑惑,其中最核心的一点是让我理解了向量数据库的真正价值和未来巨大的市场空间(TAM)。除此之外我们也聊了很多关于 Zilliz 创业过程中的各种话题,由于此次对话非常的随意,这里我简单做了一下归纳,希望能更全面地把对话内容体现出来:

类比 PC 时代,向量数据库就是 AI 时代的 Memory

关于向量数据库是什么,简答来说,它是 Memory for AI,用于存储、索引和搜索来自机器学习模型嵌入的海量非结构化数据集,我已经在之前的文章《a16z领投1亿估值7.5亿美金,最近AI中间层这个领域实在太火》做了简单介绍,这里就不再复述。

谈到向量数据库的角色,我们需要了解向量,它是神经网络里面最基本的一个东西,无论是神经网络还是深度学习,它最终都是通过 Embedding(嵌入) 或者向量去做数据的交换跟处理,它是信息交换的一个基本元素,这种新型的数据需要一个地方存储,于是就产生了向量数据库。

为了更好的理解,我们可以将类似 ChatGPT 这样的大模型比做电脑里的中央处理器 CPU,它具有非常强大的计算处理能力,而一台电脑除了 CPU 外,还有各种存储器,包括内存以及外存。本质上 CPU 也具有存储功能,就是我们所说的缓存,但几乎在所有的电脑中,除了有 CPU 外,都必须配备有其它存储。

这里的最本质的原因在于计算永远要比存储贵 100 倍,这是根据物理定律所决定的,因为计算单元的发热量、它的功耗以及密度都做不到存储那样,存储只是在需要调用的时候才会工作,但计算的任何一个动作都需要涉及到大量的工作。

我们看过去 10-20 年计算机的发展,虽然计算芯片的成本在不断下降,但与之相比,存储成本的下降幅度要大得多。举个很简单的例子,以前我们买一个 U 盘是按照 MB 的存储量来度量的,但是现在 U 盘几乎都是按照 G 甚至 T 来卖,存储的提升在以 1000 倍这样的速度进行,但是计算能力的提升就要慢很多,因此从成本的角度来看,存储的成本在急剧下降,而计算的成本则大大高出前者。

所以在计算机时代,计算跟存储是相辅相成的,存储永远比计算便宜(数量级上的便宜),我们所需要的就是在两者之间取得一个平衡,很多时候这个平衡实际上是用空间换时间,这里的空间是存储,而时间就是计算

回到 AI 时代,原理也一样,它也需要在计算和存储之间达到一个最优的平衡点,而且由于 AI 大模型的规模会在数量级上更大,对计算提出了更大的要求,导致成本规模也会大很多,因此通过与向量数据库这个存储相结合,才能实现 AI 的最优平衡。

向量数据库在当下的应用价值

从上面我们可以看到,向量数据库的价值其实是伴随着整个大模型的发展而发展的,只要大模型在不断发展,那么向量数据库也会不断发展,因为它们就像 CPU 和存储一样。

而向量数据库在当下的应用,第一个就是让大模型可以利用企业或者个人的私域数据,实现信息数据的连接;或者反过来说,让那些拥有大量数据和应用场景的企业利用大模型的能力帮它解决问题,同时还能保持自己对于数据的掌控力。

我们都知道大模型是基于公开数据进行预训练的,它的训练周期也比较长,无法获取当下的实时信息以及企业内部的私域数据,因此需要通过向量数据库这个存储来实现模型与这些数据的连接,此时只需把你的私域数据通过向量数据库进行索引即可。

而为了保护企业的私有数据产权,大模型不能将你的私有数据占为己有,它只能在那一刻使用,用它的模型能力把你的数据处理完并把结果返回给你,它不能存储,也不能将这些数据拿来训练优化其母模型,使用完即删除

在美国,这一点是在法律上得到保证的,因此大家可以无所畏惧的跟 ChatGPT 等大模型进行合作,而不用担心自己的私域数据被这些大模型占为己有(需要说明的是,并非这些大模型没有这个能力,而是法律不允许。这也解答了我对于大模型的一些疑惑,之前以为像 ChatGPT 这样的通用大模型会吃掉所有能吃掉的服务,因为它能不断吸收企业的私域数据,现在看来这点无需担忧了,或许也正是这种明确的保护机制,促进了 ChatGPT 的诞生)。

同理,其第二个应用就是大模型对于(人类)新知识的利用,人类每天都在产生新的知识新的数据,大模型本身无论如何都无法实时将这些信息纳入其模型的训练,一方面在于其训练周期,另一方面每时每刻产生的这些新知识是一个庞大的数据量,这在成本上也不可行。

如何让大模型的能力应用于新知识?和私域数据一样,需要通过向量数据库这个存储实现信息的连接与索引。无论是私域数据还是新知识的利用,向量数据库在这里起到的本质作用都是解决记忆存储的问题

而第三个应用价值,则和当下最热门的 AutoGPT 或者 BabyAGI 这样的 Agent 智能体有关,它们和前面的私域数据以及新知识不同,它面向的是 AI 自己生成的知识,而不是人类创造的知识。这些智能体会把自己创造的知识保存下来,进而进行不断的迭代演化,这会导致数据以指数级增长,这些智能体必需要求助于向量数据库,因为这么大体量的数据是无法通过模型本身来存储的。

目前大家对于类似 AutoGPT 和 BabyAGI 这样的智能体的认知还处于玩具阶段,但是它们很可能是 ChatGPT 后新的 Killer APP,前面的智能体只是对人类已有知识(包括私域数据和人类新知识)的记载,但 BabyAGI 这样的智能体可能逐渐会与人类的知识变得毫无关联。

如果说这些智能体的部署和生产的成本越来越低的话,他们甚至可能会产生人类的数据,这也就是很多人认为我们人类已经到了造物主这个时刻以前本质上这个世界的信息都是人类的生产经营活动造成的,但以后人类会创造一个东西,这个东西是自己的自我演化,会产生远比人类更多的数据,那么数据会爆炸,非结构化数据会爆炸,存储数据也会爆炸,这也就是向量数据库未来的巨大机会所在

尽管在当下我们还想不到这类智能体的具体应用场景,以及人类是否需要那么多智能体,但是或许到某一天可能我们每个人都需要大量这样的 Agent,而每个 Agent 都伴随着向量数据库。

从技术栈的角度理解向量数据库

如果从技术栈的角度来看,AI 时代的技术栈是 CVP( ChatGPT-Vector Database-Prompt ),这里的 C 是指以 ChatGPT 为代表的大模型,Vector Database 就是向量数据库,Prompt 也就是提示词。在实际应用过程中,真正需要用到向量数据库的并不是这些大模型本身或者说它们的需求量很小,而是基于大模型做开发的开发者。

如果我们将其对应到移动互联网时代,开发者平台 iOS 和 Android 就相当于 CVP 里的 C,而 mongoDB和 Firebase 这样的数据库就对应于 CVP 里的 V,各种前端应用对应于 CVP 里的 Prompt。

在每一个技术时代,都是类似的技术栈,都需要相应的数据库,而使用这些数据库的并非类似 iOS 和 Android 这样的平台,而是开发者,这也就是为什么数据库的市场如此大的原因,因为最终的平台可能也就几家,但是开发者成千上万甚至上亿。

而当下中间层非常火的 Langchain 和 LlamaIndex 等产品,其角色是把 CVP 串联起来,如果放到上一个时代的话,它有点类似 IDE,让开发者可以更简单地开发应用。

向量数据库未来的可能格局

我们先看看上一个技术时代云数据或者数据分析平台的最终格局,基本上都是双寡头模式,一个 Snowflake,一个 Databricks,其中 Snowflake 闭源,Databricks 开源。双寡头会占据市场的 60%以上的市场份额,后面市值在几十亿美金的云数据分析公司至少还有 20 家左右,市场格局基本上呈现出寡头和长尾分布的模式。

因此在向量数据库领域,Zilliz 创始人星爵认为,未来可能也会呈现类似的格局,即出现1 到2家 500-1000 亿美金的公司,它们可能会做通用的方案,解决通用类场景。同时在几十到百亿美金之间可能还会有 10 家左右,它们会专注在细分垂直领域,而从过去美国市场的情况来看,几乎都延续了这样的格局。

当然,整个市场才刚刚开始,我们只能从前几个技术时代做简单的预测。现在 AI 的产品形态和场景变化太快,目前主要还集中在文本大模型领域,星爵表示 Zilliz 很早就已经开始做多模态的大模型支撑,下一波的视频、图片以及生物医药等领域的大模型会很快到来,因此未来的向量数据库存储的记忆将不再限于文字,它会存储图片、视频甚至化学分子式等等。

Zilliz 如何在 5 年前便发现了向量数据库这个机会

向量数据库这个概念在最近才真正火起来,但是 Zilliz 在 2018 年就已经在全球开始布局了,因此我特别好奇星爵是如何在那么早就发现了这个机会,星爵说了三个层面:

第一个是技术的直觉,作为在甲骨文做了多年数据库产品的人,星爵说当时最简单的直觉就是在不同的应用场景下,一定会带来新的数据基础软件的机会,如果这个场景足够大的话那就能做成一个非常大的事情。

第二个就是 AI 的逐渐兴起,在 2015-2016 年的时候,我们已经看到 AI 兴起了,也就是 AI 1.0 那一波浪潮。那个时候市场已经有一个基本的共识,那就是 AI 一定会是未来 10 年 20 年最大的一个变革,虽然市场发展过程中的波折让很多人对 AI 的未来产生了疑问,但是星爵一直是相信这个事情会发生的。有了这样一个信念,那么围绕 AI,这种基础软件数据一定会发生很多变化,也就是向量这个东西,它是现代 AI 的本质。

第三个则是星爵亲历了 Snowflake 的整个成长历程,这对于星爵具有非常大的触动,星爵说给他带来了非常大的激励。Snowflake 早期的两位联合创始人跟星爵是隔壁办公室的同事,大家在一起共事写了近 3 年代码。星爵见证了 Snowflake 打造云原生数据库系统快速爆火到获得巨大成功的全过程,深受鼓舞,决定要在 AI 时代打造新一代 AI 原生的数据库系统。

Zilliz 的早期创业经历

正是 Snowflake 爆火的触动与对机会的认知,最终让星爵决定回国创业,星爵跟我说的这句话让我印象非常深刻:

只有见证过奇迹,才会相信奇迹,才会相信奇迹会降临于你。

自此,一段孤独的创业历程便开始了,而选择回到国内开始自己的创业,星爵说核心是中国在第一波 AI 浪潮时数据量最大,应用场景最多,比方说图片检索、推荐系统、电商搜索引擎等领域很早就已经用上向量数据库了,像淘宝的以图搜商品,就是非常典型的应用场景,还有像微软的 Bing 搜索,很早就已经用上向量数据库了。

只是那个时代 C 端的个人消费者是无法感知到这些技术的,本质上还是一个非常小众的市场,但也正是这些应用场景,让星爵更加坚信了自己的判断是正确的,他需要等的就是 AI 的 iPhone 时刻。当 ChatGPT 这个 Killer 产品出现引爆 AI 2.0 后,向量数据库快速从小众市场一下子走向了庞大的开发者市场,这才有了如今大量 VC 追逐投资的景象。

在星爵开启向量数据库创业的时候,即使是在硅谷也没有几个人能懂,投资就更别说了。但从事数据库工作多年的技术直觉让星爵一直坚信,向量数据库就是未来。因此即使早期没有人愿意相信,他依然自己做自己的天使,投入近200 万坚持了下来。

2015-2016 年,Snowflake 在美国的创投圈已经非常火了,成长为新一代独角兽公司。而 Snowflake 的整个发展过程,坚守的是技术/产品至上,其产品在任何一个单点功能上都会比竞争对手要好那么一点点。Snowflake 几乎做了整整 5 年的研发才开始正式对外售卖产品,这一点也成为星爵在做 Zilliz 坚守的一个信条,Zilliz 至今已经快做了 6 年时间,仍然没有一个销售,没有做营收,因为星爵认为,一个基础软件产品,没有个 3-5 年的技术研发,你是没办法拿出去卖的:

如果一个产品经过一两年时间的研发就开始对外卖,那么这个产品一定是没有壁垒的

同样,Snowfake 一开始坚决只做云,也成为 Zilliz 的另一个信条,星爵认为做云上的生意是一个非常好的商业模式,但是一开始做云一定是非常痛苦的,因为它的速度会非常慢,并且面对私有部署以及销售等大单,很多时候是经不住诱惑的,但是对于一个创业公司来说,如果你开始就做私有部署做销售,你的资源很快就会跟不上,它可能会将公司耗死,或者你会变成一个项目公司。

为何一开始就决定做开源

星爵认为这与产品本身的属性相关,Zilliz 作为向量数据库的全球开拓者,不要说在当时,即使是现在真正懂的人可能也不多,作为一个全新并且主要面向开发者的产品,在一开始大家都是没有共识的,因此这个时候要让开发者为此付费是非常困难的,你必需要让大家先使用,而开源就是最好的方式,同时开源是获取用户反馈最好的一种方式。

通过开源,Zilliz 没有一个销售和 BD,已经在全球获得 1000 多家客户,而开源带给 Zilliz 最大的价值还在于带来技术和产品的反馈迭代,这是 Zilliz 区别于大部分竞品的核心之一。

Day 0 即以硅谷的方式做一家全球化公司

在我们的聊天过程中,星爵一直跟我说的一句话就是,Zilliz 从 Day 0 开始即是以硅谷的方式做的一家全球化公司。这点无论是公司的产品研发、做开源的决策、人才招聘、不着急做营收,还是融资过程中的各种坚持,在国内很多做法可能都是反共识的。

比方说融资,星爵跟我分享说国内的大部分投资人一般都要在硅谷找一个对标,如果没有对标是很难决策的,但向量数据库这个事情一开始就是全新的,是一个原创的产品,在全球都找不到对标,这在硅谷是非常正常的一个事情,大家创业都会标榜自己是原创的产品,而不会去某个市场找一个对标。

因此在融资过程中他只能找真正愿意相信这个事情的投资人,找真正能看得懂这个事情的人,而不会去迎合投资人的要求,这个过程说容易,但是要真正执行起来非常困难的,因为每一次都会有投资人来挑战你,大部分海外回国创业的创始人可能坚持一下就妥协了。

同样在产品层面,也是完全按照硅谷的方式,星爵认为对于基础软件,最核心的就是要做好技术研发和产品,营收是技术和产品之后的一个事情,这在硅谷也是非常正常的一个事情,比方说前面说的 Snowflake,以及像 Databrick 和 Anysacle,直到独角兽之前其营收基本上都为零。

在这过去的 5 年,Zilliz 不到 100 人的员工绝大部分都是研发工程师。在过去三年里,他们在国际顶级数据库会议发表的论文基本上做到了每年一篇,星爵说今年他们会发表 3 篇,在基础软件这个领域,国内鲜有创业公司可以拥有 Zilliz 这样的研究实力。

Zilliz 的这些做法,星爵认为放到中国市场来看都是反共识的,但是放到硅谷去看都是 Make Sense 的,这是中美两地环境最大的一个不同。星爵希望能通过 Zilliz 的努力,证明中国创业者也能在企业端做出全球原创性的产品,并改变国内创投环境对于原创产品的更多支持,最终形成创业者与投资人的良性循环。

也正是有了整个这一套的内在价值支撑,Zilliz 这几年一直按照星爵的这种方式,排除掉外界所有的噪音,从零做到目前接近 7 亿美金估值的公司还几乎没有做营收没有销售,这在国内的企业级市场是非常少见的。

如今 ChatGPT 的出现真正引爆 AI 从小众市场到大众浪潮,带来向量数据库在全球需求的大爆发。这个时候,星爵认为所有的条件似乎已经具备了,到了 Zilliz 进行商业化的阶段了,而 Zilliz 的商业化也会从北美正式开始,毕竟其全球总部就在硅谷。

最后我简单问了一下星爵 Zilliz 的竞争壁垒,星爵的回答很有意思,数据库本身就是壁垒,世界上能把数据库真正做好的公司没有几个。目前 Zilliz 的开源产品在 Github 已经接近 2 万星标,对于一个企业级的基础软件产品来说,这是非常不错的成绩了。

星爵对于 AI 的看法,和我昨天文章《Google和OpenAI都没有护城河,主打开源的Together种子轮拿了2000万美金》以及之前文章《未来的 AI 格局不会被单一的通用 AI 模型所主导》里的观点非常类似,对于写这些文章的我来说,似乎也像星爵所说的那样,也是在发掘一群同样认知的人。

延伸阅读:

1.a16z领投1亿估值7.5亿美金,最近AI中间层这个领域实在太火

2.Google和OpenAI都没有护城河,主打开源的Together种子轮拿了2000万美金

3.刚拿完Benchmark 1000万美金种子,不到一周红杉给了2亿美金估值

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存