人工智能领域顶级学术会议AAAI2019正在美国夏威夷举行。大会期间,滴滴技术团队重点举办深度强化学习主题课程,全面分享了深度强化学习在交通领域的理论研究与应用,并详细展示了滴滴的最新探索与实践。
深度强化学习课程详解交通出行中的人工智能
AAAI是国际人工智能协会年会,每年大会上的课程、收录论文都备受外界关注。大会数据显示,AAAI 2019共收到7095篇有效投稿,但最终录用数仅为1147篇,录取比例为近年最低;而大会期间共举办24个专题课程,覆盖机器学习、自然语言处理等多个领域。
今年,滴滴现场举办了《深度强化学习在交通出行领域的理论研究与实践应用》课程(Tutorial on Deep Reinforcement Learning with Applications in Transportation),系统讲解深度强化学习的诸多理论、算法,如Markov decision process(MDP)基础、动态规划方法、基于函数逼近的价值类方法、策略梯度类方法、多智能体强化学习、迁移学习等;并以众多案例入手,具体讲解了不同算法在路径规划、导航、交通灯控制和智能驾驶等智能交通场景内的应用、机遇和挑战,吸引大会众多研究学者参与。
(滴滴AI Labs负责人叶杰平介绍现代交通演变史及机器学习范式)
(滴滴研究员详细讲解深度强化学习基础理论)
此外,滴滴研究团队还深入讲解了滴滴在强化学习领域的研究工作,特别是深度强化学习技术在智能派单调度中的应用。由于派单的决定会影响未来的司机分布,且派单既要考虑司机收入还要保障用户体验,综合考虑这两个需求,滴滴研究团队介绍了两种方法来解决派单问题,一种方法是时间差学习(TD-learning),另一种是深度强化学习。TD-learning在派单中的应用中分为两个部分,线上的计划过程和离线的学习过程,这两个过程结合了强化学习和组合优化。考虑到每一次匹配对未来是有影响的,这样可以能基于全天供需、出行行为预测,来考虑一天之内司机整体的效率,相关模型实践论文已被KDD2018收录。
而深度强化学习在派单应用中具有诸多优点,不仅对于实时供需变化具有良好的适应性;而且适合学习不同城市和时间段的数据,从而迁移模型知识;此外,由于输入(上车地点、时间、目的地、内容)权重共享,具有泛化能力强的特点。由此滴滴研究团队提出了带有行动搜索的DQN(Deep Q-network)模型,对DQN做了多项技术改进,使之能在离线off-policy数据上能成功训练。同时也提出了一种新的双路径网络架构,使迁移学习得以和强化学习相结合,描述该项工作的论文也已发表在IEEE ICDM 2018会议。
(滴滴深度学习课程吸引现场众多研究学者参与)
滴滴现场还进一步讲解了如何运用深度强化学习联合优化派单和车辆调度。通过有效利用了深度学习中的嵌入层和注意力机制,可以把派单和调度进一步整合,打开更大的优化空间。这一模型也于去年12月首次在NeurIPS大会上发表。
四篇论文入选AAAI2019 新对外开放脱敏POI科研数据集
在论文方面,本次滴滴共有四篇论文被AAAI收录,内容涉及深度学习、生成对抗网络、神经网络等技术方向。以《基于时空多图卷积神经网络的网约车需求预测》论文为例,滴滴提出一种新的模型STMGCN(时空多图卷积网络),用于对时空序列进行建模与预测。该模型将城市时空预测问题定义为非规则网格上的时空预测问题,借助城市中的多模态数据,如地理临近程度,POI相似度与路网连通规则为区域间建立了非欧式关系,并用图卷积神经网络(GCN)对这种关系进行建模。STMGCN在网约车用车需求预测问题上取得了非常好的效果,预测结果更加稳定,误差相比传统方法减小了10%以上。
(滴滴算法专家现场分享模型实践)
而在《基于文本和地理信息的Query-POI相关性学习》中,滴滴提出了一种基于文本特征及地理特征的Query-POI相关性学习方法,将起终点的地理位置关系应用于POI(信息点)检索模型中,通过结合文本特征和地理特征,在POI排序任务中获得了更好的效果,有助于优化用户的发单体验。
值得注意的是,在AAAI大会现场,滴滴盖亚数据开放计划还新增加一个脱敏POI检索科研数据集,新对外开放2018年5-6月成都局部区域内专车快车的POI检索数据。相关数据已经过加密、脱敏、匿名化等处理,全球高校和科研机构的专家学者可登入盖亚数据开放计划网站提交相关信息免费获取。滴滴方面现场也表示,后续盖亚数据开放计划将持续以开放协作支持全球科研工作者进行更广泛学术研究。
好文章,需要你的鼓励