智能足球运动员横空出世,过人、射门、防守全在行

日期: 2025-10-05 12:04:05|浏览: 10|编号: 163335

友情提醒:信息内容来源于网络网友,如涉及侵权请联系客服。

智能足球运动员横空出世,过人、射门、防守全在行

踢球是一项要求很高的活动,参与这项运动的人不仅要有特别好的身体条件,还要学会非常熟练的技巧。

成为优秀的足球选手对人类来说并非易事,更何况那些行动笨拙且姿态刻板的机器。

现在,由 开发的那个小型仿人型机器人,能够迅速移动,能够超越对手,能够发起攻击,能够理解比赛,能够准确判断足球的运行轨迹,能够干扰对方的进球。

实验数据显示,这个机器人奔跑时比参照标准快了将近两倍,转动身躯的速度也提升了近三倍,从跌倒状态恢复站立的过程只需原来的四成时间,踢球的效率提高了三分之一,并且能够灵活地融合多种动作,其表现完全刷新了大众对机器人的传统印象。

这项研究的相关论文,标题为“敏捷性应用于深度学习机器人”,已作为封面文章刊登在专业期刊的子刊上。

“足球智能体”是如何踢球的?

研制通用物理交互智能体,也就是研制出能够像生物体或人类那样在现实空间里快速、灵活且富有洞察力地活动的人工智能,这始终是人工智能与机器人技术两大领域共同期盼的成就。

深度强化学习方法,在应对虚拟环境中的角色以及实体机器人时,其对于复杂动作的调控展现出显著成效,并且能够有效处理相关任务。

现在,具备四条腿的机械人已经普及开来,它们能够完成多种动作,例如稳定且灵活地行走,还能在跌倒后自行恢复,甚至可以攀爬物体,此外它们还掌握了基础的足球技巧,包括控球、射球、抢断以及接球,并且能够利用腿部进行简单的操作。

但是,相对而言,操控仿生人和双足机器人需要付出的努力要小很多,它们在平衡性、设备防护、活动范围以及适配装备的可得性方面带来了额外的难题。

目前,依靠学习实现的工作能力尚不发达,主要局限于掌握和迁移一些特定的基础动作,例如前进、奔跑、攀爬台阶以及腾跃。在仿人控制技术方面,新方法采用了目标导向的模型预测控制策略,这一做法导致该技术难以适用于更广泛的应用场景。

这项研究旨在提升机器人完成长期任务的能力,为此团队探讨了如何运用学习技术实现人形机器人全身协调控制,具体而言,他们借助深度强化学习方法训练了经济型机器人参与足球比赛,经过训练这些机器人在行动上表现得异常灵活,其动作的连贯性也大大超出事先的设想

他们致力于通过体感感知和动作记录来掌握身体运动的整体操控,为此在虚拟环境中对一个简化版单对单足球比赛进行训练,随后把掌握的方法直接用于实际机器人(如下图所示)。

图|机器人踢球场景。 研究人员构建了对应的虚拟(左侧)与实际(右侧)足球场地。场地长度为 5 米,宽度为 4 米,现实场地铺设了 50 厘米见方的硬质面板。实际场地还安装了动作追踪装置,用以监测两台机器人和足球的位置。(信息来源:相关研究文献)

根据文献记载,学习过程分为两个步骤,首先,科研人员培养了两种能力模式,第一种是学会站立起来,第二种是向未进行训练的竞争者实施进球动作。

在下一环节,借助能力提纯,借助一种模拟内部对抗的群体练习方式,来培养个体达成全部单挑足球目标,其中对手由个体自身先前训练生成的部分样本库中随机选出。

图展示智能体训练安排,包含两个时期,第一个时期(左侧),单独培养踢球本领和站起能力,第二个时期(右侧),把这两种能力融合,打造出既能站起又能踢球的个体,同时这一时期也进行自我对抗,从早期训练中选取策略样本随机配对。

实验表明,与让智能体从零开始执行全部 1v1 足球挑战相比,采用这种分两步走的策略,能够获得更佳的直观表现,并且显著提升了模拟环境到现实世界的转化效果。

该智能体经过训练后,表现出迅速且多变的行动本领,涵盖了前进、斜行、触球、跌倒再起立以及球体交互等动作,并且能够将这些动作自然地衔接和转换。

此外,智能体还展现出一些出乎意料的做法,这些做法比预设方案更充分地运用了系统所有功能,而这些做法或许是人类未曾预料的。

有个现象值得注意,那就是机器人采用了旋转方式,利用脚边部位作为支撑点完成转动,这种方式给程序规划带来了难题,不过实际运行效果却比那些比较稳妥的参照方案要出色得多。

这种学习方式能够识别为特定竞赛场景设计的改进措施,比如与具体环境相关的快速反应能力,比如控运移动的物体;不断涌现的战术策略,比如精妙的防守移动方案;还有根据比赛状况调整的行动方式,比如紧逼持球者时与跟随无球队友时相比,移动步伐更短促。

此外,该系统能够预判足球运动轨迹和对手行为,依据赛场态势优化自身行动,同时长时间内统筹配合,最终达成得分目标。

不足与展望

研究团队指出,这项工作为在动态多智能体环境中实际运用深度强化学习灵活操控人形机器人奠定了关键基础。

然而,该研究还存在一定的局限性,例如:

研究领域特有的知识运用以及场景的随机性,构成了该研究学习过程的基础,这种做法在机器人学习领域颇为普遍。比如,在构建奖励机制以及训练站立能力时,往往需要人为挑选恰当的状态参数,这对那些运行环境更为复杂灵活的系统而言,可能会变得十分困难或者并不可行。

没有借助实际数据来迁移,研究方式仅依靠模拟向现实的转化,并未在训练过程中融入真实信息。若在真实机器人上实施微调,或是在模拟过程中掺杂真实信息,或许能提升迁移成效,同时让表现更为稳固且丰富。

这项研究主要针对小型机器人开展,没有充分考虑到大型机器人所面临的额外难题。现有系统存在诸多提升空间,比如针对体型较大的机器人,必须更加关注其运动控制与平衡维持问题。

机器运作能力会逐渐减弱,这是由于髋部关节松弛或位置编码器校准出现偏差所致。为此,必须对机器人实施周期性保养。

自我博弈存在变动性,有时会造成学习过程的不连续性;运用群体式训练方法或许能增强稳定性,同时有助于提升多智能体协作的成效。

调整奖励项的比重:研究涉及若干辅助奖励,部分旨在促进迁移,比如鼓励站直和惩罚膝盖扭曲,另一些则侧重于增强探索,比如提升前进速率。将各项奖励按权重进行平均计算,以此作为训练依据,同时通过广泛搜寻超参数进行优化。不过,采用多目标强化学习或约束强化学习方法,或许能取得更优结果。

在未来的工作中,研究团队提出了两个重点关注的方向。

一个富有前景的职业发展路径是“群体智能足球”,也就是培养由两个或以上群体智能体组合而成的队伍。

该论文提出的方法能够直接用于训练这种场景下的智能体,在初步的2v2足球实验里,研究团队发现智能体掌握了任务分配,这是一种基础的协作方式,当队友靠近球时,智能体就会远离球,不过这种做法也使得智能体减少了灵活的动作表现

另一条研究路径是“基于初始视觉进行足球训练”,具体而言,仅借助飞行器上的感应装置进行掌握,无需借助外部运动追踪系统的状态数据。

直接能够获得球体、球门及对手位置的状态型智能体,与视觉型智能体不同,后者必须从有限维度的自我中心相机观测历史记录中推算信息,并且需要随时间逐步融合部分状态数据,这样就显著提升了问题的复杂程度。

现阶段,该课题组已探究了运用机上 RGB 摄像头及自身感知来训练视觉智能体的方法,借助神经辐射场模型构筑了实验室的视觉表现,让机器人掌握了诸如追踪球体、识别对手与目标等技能,同时还具备了环境情境理解的能力。

参考链接:

/doi/10.1126/.

提醒:请联系我时一定说明是从实用信息网上看到的!