科研进展

深圳先进院在内存大数据查询引擎性能优化研究方面取得突破

时间:2022-03-21  来源:数字所 文本大小:【 |  | 】  【打印

  近日,中国科学院深圳先进技术研究院数字所异构智能计算中心在内存大数据查询引擎性能优化研究方面取得重要进展,相关成果LOCAT: Low-Overhead Online Configuration Auto-Tuning of Spark SQL Applications为题被数据库领域CCF A类会议ACM SIGMOD 2022 (数据管理国际会议Special Interest Group on Management Of Data) 录用为长文。深圳先进院异构智能计算中心硕士生辛锦瀚为论文第一作者,喻之斌研究员为通讯作者。 

  随着Spark SQL框架的广泛使用Spark SQL的配置参数优化始终是一个难以解决的问题。现有的机器学习优化方法由于优化时间成本高、无法很好适应所处理的数据量变化而难以实际应用。该项研究针对这一难题研究出了低时间成本、能够适应输入数据集大小变化的配置自动优化方法LOCAT,由核心技术组成。首先,我们设计了query与配置参数敏感性分析技术在收集训练样本时,从给定工作负载中识别并删除与配置参数不敏感的query其次,对于其余的queryLOCAT通过计算相关系数来识别重要的配置参数,然后应用核主成分分析来降低配置参数搜索维度最后,LOCAT设计了感知数据集大小的贝叶斯优化来搜索最优配置,以便能根据数据集的大小自动优化性能。基于TPC-DSTPC-HHiBench测试基准的实验表明,分别在8台高性能x86服务器的集群环境与4台高性能ARM服务器的集群环境下,较当前最先进的自动调优解决方案LOCAT降低优化时间成本9.7倍,而且获得了高达2.8倍的性能提升。 

  ACM SIGMOD数据管理国际会议(Special Interest Group on Management Of Data.)是由美国计算机协会(ACM)数据管理专业委员会(SIGMOD)发起在数据库领域具有最高学术地位的国际性学术会议,被中国计算机学会(CCF)定级为A 类国际学术会议。 

  上述工作得到重点研发计划课题软件定义的云计算资源管理和国家自然科学基金等项目的资助。 

 

LOCAT框架 

 

LOCAT筛选SQL query 

 

LOCAT提升优化性能 

 

LOCAT降低优化成本