深圳先进院在内存大数据查询引擎性能优化研究方面取得突破
近日,中国科学院深圳先进技术研究院数字所异构智能计算中心在内存大数据查询引擎性能优化研究方面取得重要进展,相关成果以“LOCAT: Low-Overhead Online Configuration Auto-Tuning of Spark SQL Applications”为题被数据库领域的CCF A类会议ACM SIGMOD 2022 (数据管理国际会议,Special Interest Group on Management Of Data) 录用为长文。深圳先进院异构智能计算中心硕士生辛锦瀚为论文第一作者,喻之斌研究员为通讯作者。
随着Spark SQL框架的广泛使用,Spark SQL的配置参数优化始终是一个难以解决的问题。现有的机器学习优化方法由于优化时间成本高、无法很好适应所处理的数据量变化而难以实际应用。该项研究针对这一难题研究出了低时间成本、能够适应输入数据集大小变化的配置自动优化方法LOCAT,由三个核心技术组成。首先,我们设计了query与配置参数敏感性分析技术。在收集训练样本时,从给定工作负载中识别并删除与配置参数不敏感的query。其次,对于其余的query,LOCAT通过计算相关性系数来识别重要的配置参数,然后应用核主成分分析来降低配置参数搜索维度。最后,LOCAT设计了感知数据集大小的贝叶斯优化来搜索最优配置,以便能根据数据集的大小自动优化性能。基于TPC-DS、TPC-H与HiBench测试基准的实验表明,分别在8台高性能x86服务器的集群环境与4台高性能ARM服务器的集群环境下,较当前最先进的自动调优解决方案LOCAT降低优化时间成本达9.7倍,而且获得了高达2.8倍的性能提升。
ACM SIGMOD数据管理国际会议(Special Interest Group on Management Of Data.)是由美国计算机协会(ACM)数据管理专业委员会(SIGMOD)发起,在数据库领域具有最高学术地位的国际性学术会议,被中国计算机学会(CCF)定级为A 类国际学术会议。
上述工作得到重点研发计划课题“软件定义的云计算资源管理”和国家自然科学基金等项目的资助。
LOCAT框架
LOCAT筛选SQL query
LOCAT提升优化性能
LOCAT降低优化成本