【字节Seed发布GR-RL 首次实现真机强化学习穿鞋带】《科创板日报》2日讯，字节跳动Seed团队发布最新研究成果GR-RL，着力于拓展VLA模型在长时程精细灵巧操作方面的能力边界。GR-RL提出了一套从离线数据筛选到在线真机微调的强化学习框架，在业界首次实现“让机器人给整只鞋连续穿鞋带”。相较前作监督学习模型GR-3，GR-RL在穿鞋带任务上将成功率从45.7%提升至83.3%，减少了近70%的失败情况。

首页

电报

话题

盯盘

VIP

FM

投研

下载

全部

加红

公司

看盘

港美股

基金

提醒