阶跃星辰发布多模态理解大模型Step-1o Vision 节前还将上新更多模型
原创
2025-01-21 19:02 星期二
科创板日报记者 黄心怡
①Step-1o系列是阶跃星辰研发的端到端文本、视觉、语音三模态生成理解一体化模型。
②Step-1o Audio语音模型能力也迎来升级,情商更高,声音更自然,支持多语种及方言理解。

《科创板日报》1月21日讯(记者 黄心怡)既发布推理模型Step R-mini之后,阶跃星辰再发布Step-1o Vision多模态理解大模型。

据了解,Step-1o系列是阶跃星辰研发的端到端文本、视觉、语音三模态生成理解一体化模型。一个月前,阶跃星辰发布了1o家族的首个模型Step-1o Audio,这也是国内首个千亿参数端到端语音大模型。

在Step-1o Vision多模态理解大模型上线的同时,Step-1o Audio语音模型能力也迎来升级。相对于Step-1V系列多模态理解模型,Step-1o Vision在视觉识别、感知、指令跟随、推理等方面进行了提升。而升级后的Step-1o Audio则情商更高,声音更自然,支持多语种及方言理解,同时实现了更低的时延。

在LMSYS Org发布的大模型竞技场Chatbot Arena最新榜单中,Step-1o Vision在视觉领域位列中国大模型第一,超过所有国内大模型公司。

image

同时,在国内的大型模型评估平台“司南”(OpenCompass)多模态模型评测实时榜单中,位列第一。

image

在实际测试中,Step-1o Vision能够识别复古插画中的“个人交通工具”、“未来城市”等关键词,并翻译了小字的意大利语。


image

上传了一张挤在一块儿的幼年猫科动物图,Step-1o Vision识别了动物数量和品种,并可以进行互动。



image

在下面这张图中,模型能通过表格、logo等元素识别出对应的软件工具,并理解了其中黑色幽默的表达方式,将软件分成了五个等级,还对每个层级的软件进行了介绍。

image

Step-1o Vision还可以识别出图中是用铰链连接的三个手机,而非真正的折叠屏手机。

image

《科创板日报》获悉,Step系列将在春节前继续推出更多通用大模型。

收藏
60.41W
我要评论
图片
欢迎您发表有价值的评论,发布广告和不和谐的评论都将会被删除,您的账号将禁止评论。
发表评论
要闻
股市
关联话题
6.61W 人关注
2.41W 人关注
关于我们|网站声明|联系方式|用户反馈|网站地图|友情链接|举报电话:021-54679377转617举报邮箱:editor@cls.cn财联社举报
财联社 ©2018-2026上海界面财联社科技股份有限公司 版权所有沪ICP备14040942号-9沪公网安备31010402006047号互联网新闻信息服务许可证:31120170007沪金信备 [2021] 2号