杭州 兼职 网站建设,淘宝客网站怎么做的人少了,深圳网站开发电话,东莞公司注册官网纵观过去几十年的科技发展史#xff0c;每一代新的技术架构的出现往往都伴随着新的数据范式的出现#xff0c;也催生了多家百亿到千亿美金数据平台的诞生。如果说 2023 年科技领域的关键词是 LLM#xff0c;那么数据库领域的关键词一定非向量数据库莫属。向量数据库是一种专… 纵观过去几十年的科技发展史每一代新的技术架构的出现往往都伴随着新的数据范式的出现也催生了多家百亿到千亿美金数据平台的诞生。如果说 2023 年科技领域的关键词是 LLM那么数据库领域的关键词一定非向量数据库莫属。向量数据库是一种专门用于存储和检索向量数据的数据库系统。它的设计目标是有效地处理高维向量通常用于表示复杂的数据结构如图像、文本、语音等。向量数据库广泛应用于 AI 领域为各种应用场景提供了更高效、更灵活的数据管理和查询解决方案。 在这个领域之中我们罕见地看到了有一家由华人创办的公司扮演领军者的角色他就是星爵带领的 Zilliz。GitHub 狂揽 25K Star甚至获得黄仁勋在 Nvidia 的发布会上亲自点名在全球多家头部客户正式上线云原生产品这些都是 Zilliz 取得的成绩这背后有着怎样的故事从上海到硅谷他们经历了怎样的变化对于今天的年轻创业者们有什么经验教训可以借鉴 让我们一起听听星爵和 Zilliz 的故事Enjoy! Zilliz 官网首页https://zilliz.com/ 01 要做非结构化数据平台而不只是向量数据库 Zilliz 创始人兼 CEO 星爵 ZPZilliz 是 2023 年国内受到很多关注的基础软件公司之一星爵也是数据库行业做了超过二十年的老兵了创业前曾经是 Oracle 云数据库产品的创始工程师。促使你当年离开 Oracle 并创办了 Zilliz 的初心是什么 星爵我大概从 2001 年开始接触到数据库领域之后一直在深耕于此前后做了 23 年的数据库工作。我认为无论是过去的信息化的浪潮还是未来的智能化浪潮数据都会成为越来越重要的资产其价值将得以凸显。过去所提到的信息化和 IT 化更多是指如何把数据和信息采集、保存起来接下来的智能化时代人们更关注如何将数字化的资产进行变现帮助形成商业决策的 Wisdom 和洞见。在未来的智能化时代里更多数据尤其是非结构化数据会被利用起来并成为重要的资产数据库、数据管理则会变成越发重要的行业。 我们公司的名字叫做 Zilliz是回文对称的形式。创造这个词的时候我们还是一家新兴的数据库的公司旨在解决海量的非结构化数据管理的问题。因为非结构化数据的量远超于传统的结构化数据所以我们希望能用一个词将其准确表达出来这也是沿着工程师的思维向谷歌的名字致敬。在英文中“zillion”表示一个很大的数把两个 zillion 的头部拿出来拼在一起就有了 Zilliz。大家对于 Zilliz 的认知可能是一家向量数据库公司但我们真正想打造的是一个完整的平台其包含非结构化数据的存储、管理和检索的平台是为非结构数据的使用而量身定做的新一代数据管理平台。 ZP向量数据库是近一两年来比较新的一个名词尤其是 LLM 浪潮到来之后行业对它的关注和讨论的热度很高。从你们的角度怎么解读向量数据库的定位以及它在 AI 时代所扮演的角色 星爵向量数据库是的本质是提供海量非结构化数据的语义检索。在 AI 时代我们需要处理各种非结构化数据既包括文字、图片、语音、视频、地理位置、人的行为模式轨迹等也包括自然界中的基因序列、蛋白质的三维结构等。在 AI 时代我们借助各种新的模型和算法通过计算机和机器对这些数据进行分析、理解以便获取知识、做出各种决策。 向量数据库是将非结构化数据转化为机器可以理解的语义表示的关键。向量是非结构化数据的抽象数学表示即用一个高维空间代表这些数据后面隐含的语义。比如可以描述一张图片里有什么样的内容一段文字的含义视频中的角色、关系及情感表达等。在深度学习时代我们可以用算法和模型通过复杂的非线性转换把非结构化数据转化为高维数组以精确地捕捉和表达其背后的语义实现非结构化数据和机器、算法进行交互进而检索、索引和分析。 可以看到向量数据库提供的一个核心功能就是对各种非结构化数据进行语义检索它在非结构化数据之上提供了一个语义检索层。这个检索层涉及到向量数据的存储、索引、备份、高可用性以及提供高效的检索和分析的能力。 ZP前面提到Zilliz 想做的不只是数据库而是为非结构数据的使用量身定做的新一代数据管理平台你所定义的数据平台和数据库的区别是什么目前用户的痛点在哪难点又在哪 星爵在未来非结构化数据处理的机会中向量数据库是一个底座它管理着海量非结构化数据的语义表达。借助语义表达可以知晓数据的重要性、相关性等。除此之外建设一个完整的非结构化数据平台是我们的长远价值主张。 从技术面来看向量数据库底座自然而然向外延伸的产品包含 1向量提取从非结构化数据中提取向量这是向量数据库上游的工作十分重要 2模型选择选择正确的模型能够更精准、更高质量地提取向量 3映射管理即管理数据的本体和数据的语义层之间的映射在非结构化数据量庞大的情况下有效维护前述映射会变得很复杂 4映射关系的增删改查数据不是一成不变的如何动态维持映射关系极富挑战性 5数据与模型和应用的交互有了向量数据库后语义的表达最终要和机器、算法和模型交互其中向量数据库到各种模型之间的交互、AI 应用程序之间的交互和整合极为复杂 6数据对不同模型的整合交互如何使不同领域大模型视觉、推荐系统、自动驾驶、生物等领域算法实现更好的整合和无缝的语义层交互也是非结构化数据平台要处理的问题。 总体而言我们定义的数据平台是在向量数据库中向量的语义查询、检索的能力之上有 embedding 提取能力、与原始非结构化数据本体之间的映射能力、与下游大模型算法和应用程序整合的能力。这些能力都是围绕最核心的向量或语义表示进行构建。可以说从向量数据库到非结构化数据平台是一个自然的技术延伸。同时开发者对于数据平台也有期待希望通过现代数据库的核心能力和完整的非结构化数据平台来大幅降低开发成本这也是广大 AI 开发者的本质需求。 02 大语言模型是软件定义的处理器向量数据库是软件定义的语义存储投入产出比将会划分两者边界 ZP在 LLM 还没有火的时候Zilliz 已经在向量数据库领域深耕了那时候市面上很少有人涉足这一领域。当时是怎么考虑的做判断的依据是什么 星爵事实上当时我们并不知道会有大语言模型出现后续也不确定它何时可以达到实用阶段。归根究底向量数据库不是为 LLM 而设计的它服务的是整个 AI 领域拥有更大的场景和市场。如大家所知AI 有三大技术支柱算法、算力和数据。我们在 6 年前所瞄准的正是数据这一重要支柱。在未来的 AI 领域无论是哪类模型都需要这三大支柱作为支撑。 从算法层面来看已经有诸如 DeepMind、谷歌、OpenAI 这样的公司走在了前面算力层面也有英伟达和英特尔。那么数据层面呢6 年前我们认为这个板块可能被大家所忽视基本属于空白市场。再结合自己的专业背景我认为非结构化数据潜力巨大。原因在于世界上 80%的数据都属于非结构化数据而在 AI 系统中需要有一个专用的数据管理系统对它们进行管理为 AI 应用开发者赋能。向量数据库解决了 AI 场景中更为通用的需求包括语言场景、计算机视觉场景和推荐系统场景能助力开发者有效管理其中的非结构化数据。 ZP向量数据库确实不只是能搭配LLM使用但是更多的人知道向量数据库和LLM的火爆也是不无关系的怎么看待LLM与向量数据库的关系上半年一度非常火现在又出来了很多质疑的声音。怎么看待5年维度向量数据库与LLM的关系 星爵过去一年随着大模型的升温向量数据库也迎来爆发性的增长。很多新兴的 AI 开发者接触到的第一个 AI 应用可能就是大语言模型。ResNet、AlexNet 这些上一代的 AI 技术对他们而言可能比较遥远。以 ChatGPT 为代表的LLM 可能是 AI 领域过去十年来第一个 Killer App而 LLM 同时也是向量数据库的第一个 Killer App。在向量数据库领域过去一年也出现了大量与 LLM 相关的用户需求与增量市场。 大模型通过向量数据库减少“幻觉”的过程 做一个简单预测尽管很多 AI 开发者接触到的第一个模型可能是 ChatGPT 背后的模型未来五年他们却会看到更多 Foundation Model。这在计算机视觉领域已然成真未来将遍及自动驾驶、推荐系统、生物制药等领域。届时开发者会发现一个有趣的现象每个 Foundation Model 都需要一个语义的存储系统来帮助自己管理诸如文本、图片、用户行为等数据。向量数据库提供了一种高效、便捷、低成本的数据管理方式向各种不同的 Foundation Model 提供语义的数据检索能力开发者将因此受益。 未来五年LLM 和向量数据库的边界会变得越来越清晰。LLM 将是新一代的软件定义的处理器运行在传统的处理器硬件之上提供智能的语义数据处理能力。传统的 GPU 跟 CPU 如果不借助于大模型就只具备二进制的数据处理能力不具备智能的数据处理能力。而向量数据库在未来五年将更多地成为一种语义存储提供智能的数据检索能力。在传统的存储磁盘、磁带、云上对象存储、文件系统等之上提供软件定义的基于语义的智能数据检索。工业界和开发者会寻求两者之间的平衡点这个平衡点更多是从大规模生产环境下部署和复制的经济性方面考虑的找到在何种情况下使用大模型的计算能力更划算何种情况下将数据放入语义存储并借助向量数据库的检索能力能达到更好的投入产出比。语义计算和语义存储方面的边界将在投入产出比这个经济指挥棒的引导下达到一个巧妙的全局优化的平衡。 ZP新一代开发者讨论和使用向量数据库基本等同于直接使用 RAG会不会出现新的使用方式RAG 与 LLM 和向量数据库的关系是什么 星爵从 RAG 技术本身来看它在过去一年里发展迅速。过去大家在增强 LLM 时可能更多地是使用向量数据库来做简单的模糊匹配但很快发现其准确率不是特别高。大部分公司包括我们自己都在探索如何在向量检索空间中提供更加精准的数据增强。接下来我们将在今年上半年发布的 Milvus 3.0 中提供基于向量的精确查找能力和基于向量的模糊查找能力。这虽然还没有突破 RAG 的范畴但已经将召回率已经从去年下半年的 30%-40% 提高到现在的 60%。如果再配合精确查找能力准确率可以进一步提升至 80%-90%已经可以覆盖于大部分场景。对于需要特别高准确率的场景技术上尚有挖掘空间。 ZPRAG 的准确率从 60% 提升到 80% 意味着什么 星爵在技术的领域里经常提到的 80/20 法则也适用于对准确率的解释。80% 的准确率对大部分应用来说已经 good enough。如果继续追求剩下 20% 准确率的提升可能需要额外投入超之前达到 80% 程度的 3 到 4 倍的成本可以根据不同的应用场景进行 trade-off。 目前很多企业在使用 RAG 的过程中60% 的准确率已经可以解决很多问题。我们从 60% 提升到 80% 中的这 20% 已经是一个质的提升。这 20% 非常重要例如在一家公司或组织中60% 的准确率意味着从 AI 中拿到的答案比公司一半人拿到的答案更好80% 就意味着机器生成的答案比一个组织、公司的人类群体中80% 甚至 90% 的人拿到的答案都要好。如果我们用 AI 算法做一个决定这个决定已经在公司达到 80% 的分位包含了公司的 CEO 这类领导层的答案在很多商业场景里已经超越了绝大部分人类的能力了。80% 也意味着在绝大多数情况下 AI 都能生成更加正确、更好的答案所以从 60% 到 80% 是一个质变的过程会给很多产品的使用体验带来飞跃。 ZP目前全球范围内已经出现了多家向量数据库公司Zilliz 在其中的差异化定位是什么 星爵我们的核心差异化是技术演进方向以云计算为核心这是公司创立第一天就明确的事情。我们是一个开源的、完全云原生的、面向云功能和需求打造的向量数据库产品。商业模式上我们最初就定位成一个基于公有云的数据库服务提供商。 和 Qdrant、Chroma、Weaviate 比较Zilliz 最核心的差异点就是完完全全云原生并且我们从一开始就实现了计算存储分离扩展也是基于云原生的无缝扩展包括我们的分布式架构也是面向云原生设计的。在资源管控方面我们有大量的资源虚拟化能力这使我们能在云上提供优秀的多租户能力同时不降低用户体验和性能。 03 传统数据库转向向量数据库可能有着燃油车厂商转向新能源车那样的鸿沟 ZP过去一年我们也看到有不少传统数据库厂商入场试图通过 Vector Index 的方式提供向量能力这种方式和向量数据库的区别是什么 星爵像 Zilliz 这样的向量数据库公司是要打造一个非结构化数据的管理和处理平台它绝非只提供向量数据库的能力。此前传统数据库厂商构建的大都是结构化数据处理平台而这和非结构化数据平台有本质的区别。他们或许可以提供向量数据库能做的算子、提供部分索引类型但不可能打造出非结构化数据平台。二者的差异包括数据类型带来的处理流程的挑战从数据的转换、清洗到管理和数据映射以及接入的应用和模型完全不同。这样的争论本质上是一件好事这证明了传统的数据库公司也感受到了向量数据库及未来非结构化数据平台的威胁和冲击。因为他们也知道相较之下非结构化数据处理市场是一个大 5 到 10 倍的市场有着更广阔的市场前景。 正如十年前电动汽车刚出现时传统燃油车厂商也声称他们能制造电动车。从事实上看他们确实制造了出了电动车能做出电池刹车时也能做到动能回收。但从长远来看我们已经很清楚地看到燃油车和电动车之间的区别并非简单的能源驱动方式的变化其在电动汽车的设计理念、平台、生态系统等方面都是完全不同的。从底盘到传动到内部的主机设置包括电气化、智能化都是一个完全的推翻重来的过程。虽然燃油汽车厂商能制造出电动车但没有任何一家燃油车厂商真正能够做出特别好的电动车他们很难彻底转向新能源汽车平台。这些厂商可能会在混合动力车型上有所进展但再进一步完全转向新能源平台对他们来说是相当痛苦的这个鸿沟也许永远跨不过来。 同样地传统的数据库厂商或许能实现部分向量数据库的功能但构建一个完整的非结构化数据平台是非常困难的甚至是不太可能的。 ZP我们知道 Zilliz 的产品在一些复杂的场景下表现出了很好的性能。Zilliz 能够很好地服务复杂场景的最核心的原因是什么公司长期的核心竞争力又是什么 星爵我们能够服务复杂场景背后的核心原因是以工匠精神不断打磨产品。好的产品并非一蹴而就举个例子早期的 Milvus 也是一个比较简陋的产品。当时我们的做法是第一要更快地获取用户需求第二是耐心理解用户的需求形成自己的洞察并花时间在产品方面进行打磨、升级以满足用户的需求。 开源和云原生的商业化产品所产生的飞轮效应。这两个飞轮使得我们能够接触到很多复杂的场景并且表现出优异的性能。只要我们坚持二者相互配合未来我们会保有持续的竞争优势。具体来看开源可以让我们拿到很多更新的场景在部分领域永远能够敏锐地感知工业界、用户需求的变化。而商业化尤其是基于云原生的商业化产品又能让我们了解用户特别 mission critical 的要求包括对性能、可扩展性、成本的要求以及对于企业级的 enterprise-readiness 的要求这些要求又会促使我们进一步打磨产品。在开源和云原生的商业化产品这两个飞轮的带动下Zilliz 能够让持续地拿到更多需求并进行产品迭代。 ZPZilliz 的开源产品是 Milvus商业化产品是 Zilliz Cloud公司对于它们的规划是怎样的目前会有侧重点吗如何平衡好这两者的关系 星爵从功能性能和企业级需求方面来看商业版确实领先于开源版不过我们会在不同时期将商业版的部分超前功能回归到开源版中。目前我们团队大概有三分之一的工程师在负责开源版这一块会持续投入剩余所有的工程师都在做商业版的演进。 关于如何平衡这两者的关系公司发展早期会更专注于开源因为我们坚持在开源产品还没做好的情况下无法进行商业化和产品化。进入商业化阶段后我们在商业化版本和开源版本上都倾注了很多资源和心血。总体而言我们始终坚持为商业版用户和开源版的用户提供相同的体验包括产品的接口、SDK、API 等这样用户从开源版升级到商业版时能够获得低成本、无缝快速迁移的体验。 ZP5 年维度你对 AI 行业最大的期待是什么最让你兴奋的点是什么 星爵是AGI 的到来。但我讲的 AGI 可能和其他人不同大家一般讲的是 Artificial General Intelligence即通用人工智能但我想讲的是Affordable General Intelligence。在未来五年的时间里随着算法的进步AI 毫无疑问会比现在聪明 100 倍。关健是我们能否让如此聪明的 AI 真正变得 affordable。目前来看这是个不小的挑战参考 AI 芯片的短缺、产能和成本问题。虽然 AI 实施的应用成本在降低不过如果考虑到整个硬件、大模型和运维等方面成本依然巨大。举个例子如果 AI copilot 月费由 20-30 美金降到 3-5 美金会有更多人可以使用它。为此我期待AGI让每个人、每家公司都能负担得起 AI真正实现 AI 民主化。 04 华人在硅谷创业正确地面对我们从哪里来要到哪里去有空杯心态尽十倍努力 ZP你之前是 Oracle 云数据库产品的创始工程师当时在Oracle做得好好的怎么想到创业的 星爵当时我的想法很简单就是想做一些不一样的事情。我看到 Oracle 几乎定义并垄断了整个 IT 时代也定义了结构化数据的处理。而在 AI 时代我看到了非结构化数据处理的机会所以迫不及待地想要加入到这股洪流中。我觉得如果有幸能够为非结构化数据处理的产品和市场中的定义做出贡献是更加有价值和荣幸的事。 ZP创业这么多年最接近崩溃的时刻是什么 星爵我每天都处在这种状态里要么已经崩溃了要么是在崩溃边缘。作为一个云数据服务公司我们把用户的数据安全和数据服务的可用性摆在第一位所以如果这方面出现问题就是我压力最大、最崩溃的时刻。 ZP每天都在崩溃的状态里常见的原因是什么 星爵因为有各种潜在的挑战。你知道某个问题在某一个点可能会发生但目前还没有被解决它可能是技术问题可能是人员问题也可能是账上的现金流问题。这些问题就悬在头上让人觉得随时接近崩溃。还有一些事情可能已经发生了比如服务崩溃、产品崩溃、员工离职或是被竞争对手挖走、被投资人拒绝……这些事情一旦发生靴子落地了会真正让人感到崩溃。 ZP对于上述的崩溃或接近崩溃的时刻你有什么好的缓解的方式吗 星爵我特别喜欢读人物传记每年都会读五到十本这个习惯一直坚持到现在。因为我发现这些伟人无论是政治家、军事家、企业家还是科学家他们的人生也是无限接近崩溃的比如工作强度非常高、压力巨大等。对于政治家和军事家来说压力可能更大因为涉及生死攸关的选择。虽然很多书不会详细描述他们克服困难的过程但这会让我不断提醒自己所有伟大的事业和人物都是在艰苦的磨炼中形成的。 “天将降大任于是人也必先苦其心志劳其筋骨饿其体肤空乏其身行拂乱其所为。”每次读这些传记我会想到在那个时刻这些伟人比我更加痛苦和他们相比我们活在一个更好的时代。感同身受地认为今天的痛苦和压力是必然要经历的过程它们本质上也是客观的筛选过程。没有真正崩溃便是向前多走一步。尤其近两年有一种说法是“熬死对手”如果你的对手崩溃了而你还没崩溃你就赢了。 ZPZilliz 是 2023 年上半年 Nvidia 发布会上唯一被提及的华人公司。华人创办的公司在硅谷做市场和生态有哪些窍门可以分享吗 星爵在面对创业的挑战时我认为没有什么特别的窍门。重要的是正确地面对我们从哪里来要到哪里去的问题。华人在海外创业不可避免的会遇到一些阻力和困难但只要我们尽十倍地努力发挥和放大自己的强项就好。Just be yourself. ZP在上述过程中有什么跟想象中很不一样的东西吗 星爵要有空杯心态。当我们一年多以前去硅谷发展时认为公司已经运营了五年多不算是从零开始应该能更快地取得成功。但现在看来这可能是一个 misunderstanding。我们意识到即使五年前在国内已经建立了团队、架构、技术产品甚至做出了一些影响力和成就但进入硅谷、进入全球市场后还是需要保持一种空杯心态。如果可以重新开始我一定会更加坚持空杯心态认识到在海外创业就是从零开始包括搭建团队、建设影响力会重新经历从零到一的痛苦的过程。此外需要看到海外和国内市场的差异之前在国内的成功经验可能无法在海外复制。例如在国内我们可能依靠媒体渠道来建立影响力但在海外影响力的建立更多依赖于 social media 这种更加 organic 的方式。 ZP黄仁勋曾说如果能回到 30 岁他绝对不会创办英伟达。如果带着今天的记忆回到创办 Zilliz 的那天你的选择会有变化吗 星爵我今天的回答是没有变化但也特别能理解老黄的想法毕竟我现在才到创业第 7 年公司只有 6 年的历史。我看到了一个明显的趋势公司未来几年要解决的问题比之前要难得多。每一年都需要逼着公司和每个人再上一个台阶。所以在创业 6 年后的今天我会说我的选择没有变化。但也许等我创业十年或二十年后你再问我同样的问题我的回答可能和老黄一样。因为可以预见后面的困难和问题会超出我的想象尽管我今天表达得如此无畏但对未来必须保持十分的敬畏。我们也可以做一个小小的约定5 年后你再问我这个问题看看有没有不同的答案。 ZP创业的困难不是线性的吗主要是体现在哪个方面 星爵每个人都有自己擅长的点但作为一家成功的企业需要打造一个完整的机器包括发动机、齿轮、传动系统甚至润滑剂等。大多数人在创业初期可能在某个领域见长比如一家公司在前几年可能因为技术、产品或销售而出名这是他们安身立命的出发点。不过往后看一家真正成功的公司需要在技术、产品、商业化、组织文化等多方面都非常出色不能有短板这就对人尤其是公司核心人员提出了很高的要求。增长的要求一定是非线性的作为一名工程师假设只做技术随着时间的推移遇到的问题越多能力会越强。但如果加入商业化、产品、用户思考、和资本市场打交道这些维度事情就不同了本来你是在一两维空间成长只需要关注一两个象限但现在需要关注一个高维空间的多个象限要同步增长这本身就是一个非线性的挑战。 另外要承认每个人最终都有自己的天花板。作为企业家你需要不断突破自己的天花板才能领导一个伟大的企业但大家都不知道这个天花板在哪里也不知道能不能突破。当我们的认知到达一定高度后可能就无法再进一步了。历史上只有极少数的个人能突破全面多维的认知天花板达到更高的境界。大部分的人需要认识到企业的成长需要我们向更高的境界努力但也需要客观地认识自己承认隐形的天花板的存在。 05 快问快答 ZP最近看到的最有意思的 AI 产品是什么 星爵最近有一个产品我认为很有意思叫 Credal。它要做的是一个以安全为中心的 AI 平台把各种不同的数据源整合进来并确保它们对应用程序的构建是安全的。AI 本质上接触的是一些隐私信息且能力太过强大因此数据安全的重要性可能已经被提到了前所未有的高度。在 AI 应用开发的过程中开发者会在不同平台上留有数据 Credal 能将所有这些数据串联起来使它们能够更好地为之后的工作进行增强、支撑以及知识管理同时还能确保它们得到很好的安全保护其他人无法查看。 ZP要同时兼顾中美两地的工作减压小技巧是什么 星爵对我来说解压就是看书不管是在飞机还是高铁上不管今天有多少事我都会带一本电子书在身上。 ZP给我们的读者推荐一本你最近在看的书或者最近印象深刻的文章 星爵我推荐一本比较老的书是写霍华德休斯的他是现实中钢铁侠的原型中文名叫《生而癫狂》。我认为是所有写霍华德休斯传记中最好的一本。书中可以看到整个美国历史大概几百年来所有成功的企业家背后的那些疯狂的影子。和霍华德休斯相比我觉得马斯克都是比较正常、很好理解的前者要更疯狂一些。 本文由 mdnice 多平台发布