全自主足球机器人系统关键技术综述


图3 理想针孔式透视模型

1.4 多机器人传感器融合

多机器人传感器融合(也称为分布式传感) 是指 机器人群体系统通过机器人之间的信息交互, 把分 布在不同机器人上的多个同类或不同类传感器提供 的局部环境信息加以综合, 以形成对环境相对完整 的感知。 通过多机器人传感器融合, 单个机器人可以 得到比较精确的全局环境模型, 提高机器人对赛场 情况判断的准确性、完整性和实时性。 主要的传感器 信息融合方法有加权平均、贝叶斯估计、卡尔曼滤 波、统计决策理论、模糊逻辑、人工神经网络等。 在RoboCup 中型组比赛中, 德国弗赖堡大学队 比较成功地实现了多机器人的传感器融合, 球队的 每个机器人先通过多传感器融合获得局部环境的信 息, 然后场外的服务器对局部环境信息再次融合, 结 合卡尔曼滤波和M arkov 定位方法, 获得了比较精 确的全局环境模型。

多机器人传感器融合是一种很有发展前途的技 术, 但是, 由于传感器提供的信息受环境状态和传感 器本身特性的制约, 分布在不同机器人上的传感器 所提供的信息可能是不完整、不确定的、甚至是不正 确的,机器人之间也可能存在相互干扰。

1.5 多机器人的协作

多机器人的协作是指多个机器人通过协调各自 的行为, 合作完成共同目标。 多机器人的协作策略在 很大程度上决定了一支球队的强弱, 也是机器人智 能的一个集中体现。 在RoboCup 中, 一支球队中的 多个机器人要完成进球的任务, 就必须以一定的形 式组织起来, 以达到相互配合的目的。 常用的协作策 略有基于区域的队员组织和基于角色的队员组织两 种方法。 第1 种方法比较简单, 其基本思想是: 场外 的服务器为所有队员分配不同的区域, 处于某特定 区域的队员要自主地做出动作选择。 第2 种方法看 起来智能程度比较高, 其基本思想是: 队员通过交流 效用值来选择不同类型的角色, 队员组织起来后, 角 色之间有明显的配合。 伊朗Sharif 大学队采用第1 种方法[ 5 ]: 场外的服务器为所有队员动态地分配区域, 到达某特定区域的队员要自主地做出动作选择。 德国弗赖堡大学队和意大利的ART 队采用第2 种 方法: 所有队员(除守门员) 是以积极型、辅助型和策 略型3 种不同的角色组织起来的。 积极型队员去抢 球, 辅助型队员帮助它进攻, 策略型队员负责防守。 角色分配并不是固定的, 而是通过算法来实现的。

多机器人的协作对机器人的智能提出了很高的 要求: 单个机器人既要自主地完成个体行为, 又要与 其他机器人通信, 影响它们的行为, 同时自身的行为 又受到其他机器人的影响。 因此, 某一种策略的优劣 不仅与策略本身有关, 还与执行策略的机器人、具体 的环境密切相关。

1.6 机器人的学习

目前, 机器人的行为实现大部分是通过编程人 员手工编程来实现的。一方面, 由于编程人员的知 识、经历有限, 不可能考虑到现实中所有可能出现的 情况; 另一方面, 当任务和环境变得复杂时, 要完全 依靠程序员的手工编程实现机器人的行为, 就变得 非常繁重,甚至是不可能的。在这个背景下,具有自 学习能力的机器人成了一个新的研究热点。 而 RoboCup 比赛的环境是动态变化的,任务是复杂 的,要想取得好的成绩, 降低编程难度, 让机器人自学习是一个很好的途径。 由于增强学习可以实现机 器人在没有或只有很少先验知识的情况下, 通过学 习获得较高的反应能力和自适应能力, 因此这种方 法受到了人们的广泛关注[ 6 ]。

在训练单机器人技巧方面,N akamura[ 7 ]提出一 种自动分割状态空间的算法, 即通过状态空间的不 均匀分割来解决在应用增强学习中遇到的输入泛化 问题, 并将该算法应用到足球机器人的射门和截球 动作中。 此外, 一些学者正在研究如何通过学习获得 多个机器人的配合策略问题。 例如, 文献[ 8 ]中采用 增强学习方法实现了多个机器人球员的任务分工; U ch ibe 等[ 9 ]将增强学习应用到多机器人中, 通过学 习实现了两个机器人相互配合传球、射门的动作。 虽然增强型学习是一种很好的学习方法, 但是 由于机器人在学习之初, 没有或有很少经验, 这样, 机器人需要花费较长的时间通过在实践中不断积累 经验, 从而得到所需的规则。 这也是目前学习方法大 多应用于仿真和实验室环境的原因之一。