人工智能

机器人中混合控制的解密强化学习

2020-08-11 17:34:49 | 来源:中培企业IT培训网

在一部电影中,一些记者对机器人视而不见,就像它们被某种病毒杀死了我们所有人一样。但是,事实与我们所展示的相反。长期以来,机器人一直在协助我们进行工业升级。在过去的几年中,整个机器人技术行业都在迅速发展。在全球机器人市场以26%的年复合增长率增长,到2025年达到这样的$器210十亿的收入,你能明白,为什么我是说,机器人是没有那么糟糕,他们可以盈利呢。这里的基本思想是机器人可以为您提供帮助,我们将讨论一种提高机器人效率的方法。

  强化学习:

机器学习是AI的一部分,它使用算法来训练机器以汇总,分析和预测数据模式。人工智能范式中使用了三种类型的算法学习方法。他们是。

1. 监督学习

2. 无监督学习

3. 强化学习

监督学习是用数据模式指导机器的一种人工方式。无监督学习探索自我学习,并允许机器自行学习。强化学习就像放置一台机器来玩人生游戏。他们受过训练以在特定环境中行动,并具有处理这些情况的先决条件。

让我们以自动驾驶卡车为例。无人驾驶汽车需要预测周围的交通方式,不同草皮上的适当速度以及交付目的地。所有这些在纸面上看起来都很容易,但是如果汽车跳过车道并驶向自动驾驶卡车,那就是强化学习可以帮助机器进行训练的时候。

  机器人中的连续混合控制:

机器人使用抓爪和其他端点工具执行不同的任务。在机器人技术中,有两种机器人动作。

· 连续动作-模拟输出,扭矩或速度

· 离散动作-控制模式,齿轮切换或离散阀。

机器人执行的动作由伺服电机提供动力。两种最流行的伺服电机类型为有刷和无刷。机器人中的所有控件,无论是在工业上焊接钢板还是在喷涂下一辆跑车,都可以通过具有AI功能的模块进行编程。

混合控件合并了连续和离散动作,以实现机器人的最佳端点功能。使用相同的强化学习算法模型,可以在工业过程中更可靠地在动作的连续和离散之间进行选择。

  混合MPO:

在这里,我们将考虑在马尔可夫决策过程或MDP中使用混合代理进行强化学习。整个RL模型基于最大后验策略优化(MPO)。它不同于强化学习算法的常规公式,后者的目的是找到可以使结果最大化的轨迹。

当MPO探索范例时,会使用推理公式。他们首先在轨迹上分布数据并创建相关的结果。然后,估计与结果一致的轨迹上的最佳分布。

如果您是“感兴趣的人”电视连续剧的迷,您将很容易理解。还记得该系列中的AI机器预测最终实现相同结果的千种方法的那一集吗?在这里,混合MPO的RL模型在类似的框架上工作。

  用于连续混合控制的混合MPO的执行:

每个机器人动作,无论是连续动作还是离散动作,都通过用机器语言编写的程序来控制,该程序通过机器人系统中的处理器进行解释,该处理器通过伺服电机将代码转换为机械能。

在这里,可通过API或应用程序编程接口访问编程数据。它是一组协议,指示跨不同平台的数据访问,授权和验证。但是,在RL模型通过API或机器人接口提供命令程序之前,需要执行混合策略。

混合策略集成了连续和离散操作,以创建异步混合控制。它为配方提供了最佳的回报。让我们以在钢板上钻孔为例。

机器人需要在高规格钢板上钻一个0.75毫米的孔。现在,这里有两种类型的动作。一种方法是通过扭矩/速度的连续作用来为钻具创建前推。

另一种方法是切换齿轮以达到调制扭矩,以确保工具的安全,这是一个分立的动作。太高的速度会因过热而导致工具损坏。

因此,混合MPO执行混合策略,向代理暴露多个“模式”。因此,机器人可以选择连续和离散动作的正确策略。

机器人技术已经发展了一段时间。工业4.0的梦想已经来临,我们正在看到机器人自动化方面的新进展。在这里,我试图破译RL模型及其在机器人控件上的应用。这是自动化工业机器人技术的惊人进步,它将帮助我们创建高效的流程。想了解更多关于人工智能的信息,请继续关注中培伟业。