算力、算法、数据,被誉为AI的三大要素。对于当前大火的生成式AI、大模型,也不例外。
随着国内外硬件厂商、云厂商的百花齐放,AI算力成为最容易实现的要素;AI算法也有相对成熟的经典算法、调优手段,况且还有众多的AI基础软件提供坚实保障。
而大模型之所以“大”,更多的与数据相关。数据量越大、数据质量越高,大模型的效果就越好。PC互联网、移动互联网、物联网等产生了海量的数据,而文字、图片、视频等多模态的形式,则进一步加大了数据的复杂度。如何有效地解决数据存储、计算和流通,使之为大模型进化提供可靠的学习源,成为大模型发展的当务之急。
2023年6月30日,AI基础软件提供商九章云极DataCanvas在北京召开新品发布会,发布人工智能应用构建基础设施平台AIFS的同时,面向全球首提数据“向量海”(Vector Ocean),并推出畅游于“向量海”的基于大模型的新一代数据架构工具产品DataPilot数据领航员。
九章云极DataCanvas产品战略地图
向量海,数据发展的终极形态
一直以来,AI和数据关系密切。以往更多的是数据对AI的单向输出,通常被认为是AI的原料、基础要素,而大模型的出现,让数据得到了AI的反向赋能。
当AI能力跃升而与数据实现“双向奔赴”时,数据的未来在哪里?DataPilot给出的答案是——“向量海”。
向量,一个数学名词,是指具有大小和方向的量。在二维空间中,向量通常由两个数值组成,表示在水平和竖直方向上的大小。在三维空间中,向量通常由三个数值组成,表示在三个方向上的大小。
在计算机科学中,向量是一种常用的数据结构,也被称为数组或列表。每个向量都包含多个元素,每个元素都有一个索引,可用于访问或修改其对应的值。
在机器学习和数据科学中,向量通常表示为一组数字,它们构成了一个多维的数值空间。向量的每个维度代表该空间的一个不同的特征或属性,例如图像中不同像素点的颜色值、文本中每个词的出现频率等。通过对向量进行数学运算,可以实现各种机器学习算法和数据分析技术,例如聚类、分类、回归等。
“向量海”的提出,是九章云极DataCanvas基于多年来在数据库领域的研究和实践,结合向量数据的发展方向,创造性提出的数据发展的终极形态。
DataPilot,大模型驶入向量海的数据领航员
作为向量海和大模型之间需要一座桥梁,九章云极DataCanvas此次提出的DataPilot便是这样的角色,为向量数据在大模型中的应用建立链接和指明方向。
作为一种数据处理新范式、基于大模型的新一代数据架构工具产品,DataPilot通过充分利用DataCanvas Alaya九章元识大模型的通用文本的理解和生成能力以及在数据领域的微调优化,帮助用户实现数据在建模全生命周期的智能化与自动化。
据九章云极DataCanvas公司副总裁周晓凌介绍,DataPilot的特性包括多模“向量海”数据架构,按需自动化数据集成、代码生成、流程编排和分析计算,以及基于自然语言的数据获取、分析和机器学习建模能力。DataPilot能够大幅降低数据集成、治理、建模、计算、查询、分析、机器学习建模全链路的技术门槛,降低数据驱动业务发展的成本,加快数字化创新的进程。
正是基于“向量海”理念,DataPilot所包含的DataCanvas RT实时决策中心平台、开源DingoDB多模向量数据库等各类数据软件,让用户具备AI技术突破情况下亟需的实时、多模态的数据能力。
其中,DingoDB作为一款开源的多模态向量数据库,将是向量海时代的强大引擎。它结合了数据湖和向量数据库的特性,支持存储任何类型(键值、PDF、音频、视频等)和任何大小的数据。通过DingoDB,用户可以构建专属的数据“向量海”,不论是结构化还是非结构化数据,仅通过1套SQL即可完成多模态数据的分析与科学计算。
向量数据库,未来已来
去年以来,随着生成式AI及大模型的爆火,向量数据库站上风口浪尖。
作为一种专门用于存储、索引和查询嵌入向量的数据库系统,向量数据库可以让大模型更高效地存储和读取知识库,并且以更低的成本进行 Fine Tune(模型微调)。同时,向量数据库还自带多模态功能,可以大幅度拓展大模型的时间边界和空间边界。这些都注定向量数据库成为了大模型的数据好伴侣。
向量数据库市场空间巨大,目前尚处于从 0-1 阶段。去年以来,国内外多个向量数据库产品均获得了可观的融资。据东北证券预测,到 2030 年,全球向量数据库市场规模有望达到 500 亿美元,国内向量数据库市场规模有望超过600亿元人民币。
“数据的有效存储、计算和流通仍然具有广阔的发挥空间,在现实世界中,行业、企业、专业之间存在众多独立的数据领地,庞大的数据量和贯通数据领地的难度预示着通用大模型的落地难度。”九章云极DataCanvas公司董事长方磊表示。
DataPilot携向量海、向量数据库DingoDB的出现,正是为了解决大模型的新一代数据难题而生。面向未来,DataPilot有望在大模型发展中留下浓墨重彩的一笔。