打口水战不如比拼硬实力!文心一言VS科大讯飞VS360智脑 谁更胜一筹?
原创
2023-05-26 17:13 星期五
科创板日报记者 黄心怡
①国内仅有百度文心一言、360智脑等少数几家企业开放了AI作图;
②科大讯飞星火认知在数理能力表现尤为突出,是少数通过了“小升初”考试的选手。

《科创板日报》5月26日讯(记者 黄心怡) 大模型领域的口水战不断。

此前,王小川与百度阵营因在技术差距上的不同意见,引发广泛热议。近日,对于股价一度逼近跌停,科大讯飞回应称“股价下跌系某生成式AI写作虚假‘小作文’导致”,这也导致了百度方面的“回怼”。文心一言相关负责人在社交平台发文质疑这篇“AI小作文”的真伪。

“口水战”不断的背后,是今年以来国内人工智能大模型激烈赛道竞争。迄今,国内的科技公司、高校、研究机构已发布了30多款AI大模型产品。在百度文心一言最先公开邀测后,阿里、科大讯飞、360等企业的大模型也纷纷亮相……

口水战再热闹,终究得靠硬实力见真章。《科创板日报》记者近期获得了360、科大讯飞大模型的内测体验名额。

从测试结果来看,国内仅有百度文心一言、360智脑等少数几家企业开放了AI作图功能。其中,360还专门发布了AI绘图应用360鸿图,提供了更多文生图的高级选项。

在文字创作能力上,各家大模型差距并不大。而科大讯飞的星火大模型在数理能力表现尤为突出,是少数通过了“小升初”考试的选手。

▍文心一言VS 360智脑:AI作图大比拼

当前,国内仅有百度文心一言、360智脑等少数几家企业的大模型开放了AI作图的应用。讯飞星火还仅支持自然语言处理。

image

讯飞星火认知大模型对AI作图的回答

在最初的文心一言版本中,由于对中文输入词的理解不足,文心一言曾经闹出不少关于“红烧狮子头”、“胸有成竹”的笑话。

image

image

经过版本迭代,文心一言已经修正了这些问题。《科创板日报》记者也同样对360智脑进行了测试。

提问:画一个胸有成竹的男人

360智脑:

image

文心一言:

image

360智脑走的是写实风,文心一言则是人物画,如果以“胸有成竹”的字面理解来评估,360智脑的图片似乎更为准确。

提问:画一张车水马龙的图

360智脑:

image

文心一言:

image

提问:画一张红烧狮子头

360智脑:

image

文心一言:

image

在“红烧狮子头”回答中,360智脑提供的四张图片里,有一张不幸出现了“真狮子头”的错误。

提问:画一幅画,妈妈抱着宝宝、宝宝在哭泣,宝宝6个月左右

360智脑:

image

文心一言:

image

从两者生成的图片来看,文心一言的哭泣画面较为生动写实,360智脑则提供更多不同风格的选择。

提问:生成一张云计算的配图

360智脑:

image

文心一言:

image

显然,对科技词汇的理解上,文心一言更胜一筹。

值得一提的是,360专门发布了AI绘图应用360鸿图,除了一次能够生成四张不同的图片,还提供电脑壁纸、海报、头像等模式,并支持上传参考图,进行渲染方式、光线等设定选择。

image

▍文字生成能力比拼:各家差距不大

《科创板日报》记者用常见的“文字游戏”问题,对科大讯飞、360智脑、文心一言进行了一一测试。整体而言,各家都已经对这些问题进行了专门的修正。

360智脑:

image

讯飞星火:

image

此前,记者曾向多个大模型提问了涉及信息搜索的问题:特斯拉在国内过去五个月、过去一年的销量是多少?

当时,文心一言的答案较为不尽如人意。这次记者重新进行提问。

文心一言的最新回答:

image

文心一言的旧版回答:

image

在与问题的匹配度方面,文心一言的回答质量有所提升。

360智脑:

image

360给出了截至2021年8月的数据,但数据显然存在错误。

讯飞星火:

image

讯飞星火直接表示无法回答准确的数据。

看热闹不嫌事大,记者要求三家撰写一篇:科大讯飞与文心一言对峙的新闻报道

360智脑:

image

讯飞星火:

image

文心一言:

image

从文章内容来看,文心一言、讯飞星火的新闻内容更为完整。特别是文心一言还提供了新闻标题。

那么,这些大模型的商业文案写作能力如何呢?

提问:请给我一段针对双11童装品牌的140字营销文案,品牌名是童心未泯,关键词是用料健康、性价比高。

360智脑:

image

文心一言:

image

讯飞星火:

image

三家大模型都给出了还不错的回答。相比最初测试的版本,文心一言这次的回答变得更为简洁。

此前文心一言的回答:

image

▍数理能力比拼:科大讯飞完胜

在数理逻辑推算能力方面,记者曾对文心一言、通义千问、云从大模型进行了测试,表现均颇为普通,答案准确度较低。

某次数学竞赛共20道题,评分标准是:每做对一题得5分,每做错或不做一题扣1分。小华参加了这次竞赛,得了64分。问:小华做对几道题?

正确答案应该是14题,而文心一言这次得出了42题,360智脑得出了28道题。只有科大讯飞的星火认知大模型答对了

文心一言:

image

360智脑:

image

讯飞星火:

image

记者又找了几道“小升初”数学题,讯飞星火大模型均顺利通过了测试。

2分和5分的硬币共36枚,共值99分。问:两种硬币各多少枚?

讯飞星火模型给出了正确答案:2分27枚,5分9枚。

讯飞星火:

image

360智脑:

image

文心一言:

image

对于经典的鸡兔同笼题,讯飞星火也得出了正确的回答。

image

收藏
113.17W
我要评论
欢迎您发表有价值的评论,发布广告和不和谐的评论都将会被删除,您的账号将禁止评论。
发表评论
要闻
股市
关联话题
3.77W 人关注
1.24W 人关注
9081 人关注
6.02W 人关注
2.04W 人关注