聊5G定位技术

发布时间：2021-02-05 12:45:43 所属栏目：外闻来源：互联网

导读：机器人强化学习在机器人技术领域的应用同样大放异彩。感兴趣的朋友请关注强化学习在机器人领域的研究成果。在这方面，研究人员们通过训练引导机器人学习策略，尝试将原始视频图像与机器人的行动映射起来。将RGB图像输入CNN进行计算，最终输出的则是各台驱动

机器人

强化学习在机器人技术领域的应用同样大放异彩。感兴趣的朋友请关注强化学习在机器人领域的研究成果。在这方面，研究人员们通过训练引导机器人学习策略，尝试将原始视频图像与机器人的行动映射起来。将RGB图像输入CNN进行计算，最终输出的则是各台驱动引擎的扭矩。强化学习组件负责根据训练数据中的状态分布总结出准确的转换策略。

网络系统配置

网络系统当中往往包含超过100项可配置参数，而参数调整过程则需要合格的操作人员持续进行跟踪与错误测试。

题为《强化在线网络系统自我配置能力的学习方法》的论文，介绍了研究人员如何在基于动态虚拟机的环境中自动重新配置多层网络系统内各项参数的首次尝试。

研究人员可以将重新配置的流程公式化为有限MDP（马尔科夫决策流程）的形式。其中的状态空间为系统配置，各参数的行动空间则包括{增加，减少，保持不变}。奖励被定义为预期响应时间与实测响应时间之差。作者使用Q学习算法执行这项任务。

当然，作者也使用了其他一些技术（例如策略初始化）以解决较大状态空间与复杂问题场景下的计算难度问题，因此并不能算单纯依靠强化学习与神经网络组合实现。但可以相信，这项开拓性工作为未来的探索铺平了道路。

化学

强化学习在优化化学反应方面同样表现出色。研究人员们发现，他们的模型已经摸索出极为先进的算法，《通过深度强化学习优化化学反应》一文还探讨了如何将这种算法推广到多种不同的潜在场景当中。

配合LSTM（长短期记忆网络）对策略特征进行建模，强化学习代理通过以{S，A，P，R}为特征的马尔科夫决策流程（MDP）优化了化学反应。其中的S代表一组实验条件（例如温度、pH等），A为可以调整的一切可能行动的集合，P为从当前实验条件转换至下一条件的概率，R则为状态奖励函数。

这套应用方案很好地演示了强化学习技术如何在相对稳定的环境下减少试错次数并缩短学习周期。

拍卖与广告

阿里巴巴公司的研究人员发表了《在广告展示中采用多代理强化学习进行实时竞拍》一文，表示其基于集群的分布式多代理解决方案（DCMAB）取得了可喜的成果，并计划在下一步研究中投放淘宝平台进行实际测试。

总体而言，淘宝广告平台负责为经销商提供可供竞拍的广告展示区域。目前大多数代理无法快速解决这个问题，因为交易者往往互相竞标，而且出价往往与其业务及决策密切相关。在这篇论文中，研究人员将商户与客户划分为不同的组以降低计算复杂性。各代理的状态空间表示代理本身的成本-收入状态，行动空间为（连续）竞标，奖励则为客户集群收入。

深度学习

近期，越来越多研究人员开始尝试将强化学习与其他深度学习架构相结合，并带来了令人印象深刻的成果。

其中最具影响力的成果之一，正是DeepMind将CNN与强化学习相结合做出的尝试。以此为基础，代理可以通过高维传感器“观察”环境，而后学习如何与之交互。

CNN配合强化学习已经成为人们探索新思路的有力组合。RNN是一种具有“记忆”的神经网络。与强化学习结合使用，RNN将为代理提供记忆能力。例如，研究人员将LSTM与强化学习进行组合，创建出一套深循环Q网络（DRQN）并学习如何游玩雅达利游戏。他们还使用LSTM加强化学习解决了化学反应优化问题。

DeepMind还展示了如何使用生成模型与强化学习生成程序。在这套模型中，以对抗方式训练而成的代理会将对抗信号作为改善行动的奖励，这种方式与GAN（生成对抗网络）将梯度传播至入口空间的方法有所不同。

（编辑：济宁站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

美国新一代登月火箭再	沙特计划2023年将该国
Maxar携手多领域行业创	欧盟提出针对网络设备