微信扫描,关注珞珈图腾微信公众号
动态
当前位置: 首页 > 实验室概况 > 动态
珞珈图腾实验室在数据库A类会议ICDE2022上发表第一作者学术论文
浏览次数: | 评论次数: | 发布人:管理员 | 发布时间:2021/11/21 18:49:51

近日,数据库领域A类会议IEEE International Conferences on Data Engineering(ICDE 2022)录用彭智勇教授研究组一篇论文,题目是“A Resource-Aware Deep Cost Model for Big Data Query Processing”。博士生李岩是第一作者,该论文是在王黎维、王胜、彭智勇三位老师共同指导下完成的。

论文重点研究大数据处理引擎的查询优化问题。大数据处理引擎Spark SQL的执行计划和资源分配对查询处理的效率影响很大。然而,Spark SQL的代价模型仍然是基于手工制定的规则。基于学习的代价模型已经被提出用于关系数据库,但它没有考虑可用资源的影响。为了解决这个问题,我们提出了一个资源感知深度学习模型(如下图所示),该模型可以基于历史数据自动预测查询计划的执行时间。为了训练我们的模型,我们嵌入基于查询计划树的查询执行计划,并从分配的资源中提取特征。然后训练具有自适应注意机制的深度学习模型来预测查询计划的执行时间。实验表明,与传统的基于规则的优化方法和基于关系数据库学习的优化方法相比,我们的深度代价模型在预测查询计划执行时间方面具有更高的准确性。更多细节大家可以进一步阅读原文。

1.png