8月12日,新华社研究院中国企业发展研究中心发布《人工智能大模型体验报告2.0》(以下简称“报告”)。报告显示,在当前业已发布的国内主流大模型中,百度文心在基础能力、智商能力、情商能力和工具提效四大维度综合得分 1010分,排名第二,与排名第一的科大讯飞星火大模型(1013分)仅差3分。其余排在第三、第四、第五位的分别为商汤商量、智谱ChatGLM和360智脑,得分分别为983、983、951。
报告称,本次测评的目的,旨在进一步直观感受我国当前主流科技企业所推出的大模型产品的现状、优势和特点。
在打分标准上,本次测评根据对产业、生活的实际价值,更综合深入的对基础能力、智商能力、情商能力和工具提效四大测评维度进行了权重设计。
同时本次研究还设置了用户体验项目,抓取了7月31日—8月4日数据,通过人机互动提问等形式,对国内主流大模型进行使用体验评测,旨在为科技企业调整努力方向提供参考。
具体到各维度,讯飞星火在工作提效、智商方面优势明显,而百度文心一言和商汤商量则在基础能力和情商方面各有所长。
报告指出,尽管AI具有高速度和高效率的优势,但在某些复杂和具有创新性的任务中,人类的智慧和想象力仍然具有无法替代的作用。在本次测评中,人类答案得分为1014分,相比讯飞星火高出1分,相比百度文心一言高出4分。