九章云极DataPilot:大模型驶入向量海的数据领航员

2023-07-20 12:40:23     来源:

算力、算法、数据,被誉为AI的三大要素。对于当前大火的生成式AI、大模型,也不例外。

随着国内外硬件厂商、云厂商的百花齐放,AI算力成为最容易实现的要素;AI算法也有相对成熟的经典算法、调优手段,况且还有众多的AI基础软件提供坚实保障。

而大模型之所以“大”,更多的与数据相关。数据量越大、数据质量越高,大模型的效果就越好。PC互联网、移动互联网、物联网等产生了海量的数据,而文字、图片、视频等多模态的形式,则进一步加大了数据的复杂度。如何有效地解决数据存储、计算和流通,使之为大模型进化提供可靠的学习源,成为大模型发展的当务之急。

2023年6月30日,AI基础软件提供商九章云极DataCanvas在北京召开新品发布会,发布人工智能应用构建基础设施平台AIFS的同时,面向全球首提数据“向量海”(Vector Ocean),并推出畅游于“向量海”的基于大模型的新一代数据架构工具产品DataPilot数据领航员。

九章云极DataCanvas产品战略地图

向量海数据发展的终极形态

一直以来,AI和数据关系密切。以往更多的是数据对AI的单向输出,通常被认为是AI的原料、基础要素,而大模型的出现,让数据得到了AI的反向赋能。

当AI能力跃升而与数据实现“双向奔赴”时,数据的未来在哪里?DataPilot给出的答案是——“向量海”。

向量,一个数学名词,是指具有大小和方向的量。在二维空间中,向量通常由两个数值组成,表示在水平和竖直方向上的大小。在三维空间中,向量通常由三个数值组成,表示在三个方向上的大小。

在计算机科学中,向量是一种常用的数据结构,也被称为数组或列表。每个向量都包含多个元素,每个元素都有一个索引,可用于访问或修改其对应的值。

在机器学习和数据科学中,向量通常表示为一组数字,它们构成了一个多维的数值空间。向量的每个维度代表该空间的一个不同的特征或属性,例如图像中不同像素点的颜色值、文本中每个词的出现频率等。通过对向量进行数学运算,可以实现各种机器学习算法和数据分析技术,例如聚类、分类、回归等。

“向量海”的提出,是九章云极DataCanvas基于多年来在数据库领域的研究和实践,结合向量数据的发展方向,创造性提出的数据发展的终极形态。

DataPilot大模型驶入向量海的数据领航员

作为向量海和大模型之间需要一座桥梁,九章云极DataCanvas此次提出的DataPilot便是这样的角色,为向量数据在大模型中的应用建立链接和指明方向。

作为一种数据处理新范式、基于大模型的新一代数据架构工具产品,DataPilot通过充分利用DataCanvas Alaya九章元识大模型的通用文本的理解和生成能力以及在数据领域的微调优化,帮助用户实现数据在建模全生命周期的智能化与自动化。

据九章云极DataCanvas公司副总裁周晓凌介绍,DataPilot的特性包括多模“向量海”数据架构,按需自动化数据集成、代码生成、流程编排和分析计算,以及基于自然语言的数据获取、分析和机器学习建模能力。DataPilot能够大幅降低数据集成、治理、建模、计算、查询、分析、机器学习建模全链路的技术门槛,降低数据驱动业务发展的成本,加快数字化创新的进程。

正是基于“向量海”理念,DataPilot所包含的DataCanvas RT实时决策中心平台、开源DingoDB多模向量数据库等各类数据软件,让用户具备AI技术突破情况下亟需的实时、多模态的数据能力。

其中,DingoDB作为一款开源的多模态向量数据库,将是向量海时代的强大引擎。它结合了数据湖和向量数据库的特性,支持存储任何类型(键值、PDF、音频、视频等)和任何大小的数据。通过DingoDB,用户可以构建专属的数据“向量海”,不论是结构化还是非结构化数据,仅通过1套SQL即可完成多模态数据的分析与科学计算。

向量数据库未来已来

去年以来,随着生成式AI及大模型的爆火,向量数据库站上风口浪尖。

作为一种专门用于存储、索引和查询嵌入向量的数据库系统,向量数据库可以让大模型更高效地存储和读取知识库,并且以更低的成本进行 Fine Tune(模型微调)。同时,向量数据库还自带多模态功能,可以大幅度拓展大模型的时间边界和空间边界。这些都注定向量数据库成为了大模型的数据好伴侣。

向量数据库市场空间巨大,目前尚处于从 0-1 阶段。去年以来,国内外多个向量数据库产品均获得了可观的融资。据东北证券预测,到 2030 年,全球向量数据库市场规模有望达到 500 亿美元,国内向量数据库市场规模有望超过600亿元人民币。

“数据的有效存储、计算和流通仍然具有广阔的发挥空间,在现实世界中,行业、企业、专业之间存在众多独立的数据领地,庞大的数据量和贯通数据领地的难度预示着通用大模型的落地难度。”九章云极DataCanvas公司董事长方磊表示。

DataPilot携向量海、向量数据库DingoDB的出现,正是为了解决大模型的新一代数据难题而生。面向未来,DataPilot有望在大模型发展中留下浓墨重彩的一笔。

标签:

猜你喜欢

我爱我家杭州管理团队亮相,开启杭州市场新篇章
华为“黑科技”带来舒适安全的驾驶体验——HUAWEI DATS
6大NBA球星连着来!吉米·巴特勒等将入淘直播发布限量新品
2023广州数控机床、制造业、橡塑、包装展震撼开幕 展出了国际新高度
理想汽车公布6月交付数据,交付能力进一步提升
水滴信用现支持今日头条查询企业信息
极致时效优势凸显,顺丰6月速运物流量收齐增
博睿数据李骅宸获聘成为信通院DGA首批智库专家组首批成员
创新医疗器械蔚通胶囊,肠道内振动为便秘人群提供全新疗法
知名心理学作家卢熠翎:情绪背后代表着我们的心理需求
从天山雪莲到青莲居士,《长安三万里》诠释李白传奇的一生
前程无忧2023高校毕业生就业趋势发布,产品创新与用户体验聚集人才需求
受国务院认可!“供链融通”平台高效解决科创产业链票据融资难题
聚力质变·为破局而来 ——高培学霸奶上市尊享会圆满成功!
江苏省基层卫生协会2023年会成功召开 常笑健康荣升协会副会长单位
探秘颐莲品牌发展之路,《颐莲说》邀你见证20载难忘时光
这位基金经理“既要又要” 是怎么做到的?
开展首日精彩速递!艾比森创新成果闪耀北京 InfoComm China 2023
垂直大模型应用落地,CeMeta AI营销应用平台即将开启预约!
震荡市下多资产配置凸显韧性 西部利得汇鑫火热发售
“牛市旗手”布局良机显现?首只财富管理ETF(159503)今日上市
Payoneer派安盈任命承丹丹女士为全球高级副总裁、大中华区总裁
振森电能:现代汽车3418.8kW分布式光伏发电项目顺利并网发电!
聚合企业向上的力量 中国创客联盟重磅亮相
前沿抗衰技术HydroMg亮相国际健康发展大会发布会,以中国创新科技,引领全球健康
新时代智创普陀 她助力全面发展—— 普陀区“孕育乐享丽人创业计划”第七届大赛总结暨第八届大赛启动仪式顺利举办
落地江城!临床研究机构数字化管理平台在武汉大学人民医院顺利上线
首个达成广泛期小细胞肺癌一线治疗3期研究双重主要终点 特瑞普利单抗新适应症申报获受理
建设银行成功发行300亿元无固定期限资本债券
几个数字,带你解析智己全新车型LS6!