基于键值对数据库的高效轨迹相似查询方案 [ICDE-2022论文]
Published:
相似性搜索已成为许多轨迹数据分析任务的重要组成部分。随着物联网技术的快速发展,使得企业收集轨迹数据的途径变多、速度变快,导致许多轨迹分析任务必须从海量轨迹中寻找相似的轨迹。由于轨迹数据结构复杂,具有不规则的空间形状和连续的时间序列属性,存储和查询海量轨迹数据具有挑战性。西南交通大学博士生、京东实习生何华均为第一作者,郑宇教授和李天瑞教授为通讯作者,重庆大学李瑞远副教授、京东智能城市研究院-时空实验室鲍捷和何天赋,以及西安电子科技大学阮思捷博士共同完成的论文《TraSS: Efficient Trajectory Similarity Search Based on Key-Value Data Stores》提出了一种在key-value数据库中快速查询相似轨迹的高效方案。通常,海量轨迹数据可以通过key-value数据库进行管理。然而,现有的key-value数据库只能使用粗粒度的空间索引来存储轨迹数据,并且没有提供高效的查询处理算法来搜索相似的轨迹。TraSS提出了一种新颖的空间索引 XZ,它利用具有不同大小和不规则形状的索引空间来精细地表示轨迹的空间位置和形状。此外,TraSS设计了一个从 XZ 的多维索引空间到一维连续整数域的编码函数,可方便设计高效的轨迹存储策略和快速的轨迹查询处理算法。进一步地,为了提高相似性搜索的效率,TraSS采用两个步骤来修剪不相似的轨迹:(1)全局修剪。它利用 XZ* 索引来修剪没有相似于查询轨迹的索引空间。TraSS的全局剪枝只会挑选出与查询轨迹具有相似大小和形状的索引空间。与之前最先进的索引相比,TraSS的全局剪枝在查询处理过程中减少了高达 66.4% 的 I/O 开销;(2)局部过滤。它以降低相似度计算复杂度的方式来快速过滤不相似的轨迹。TraSS使用 Douglas-Peucker 算法从轨迹中提取代表性特征来加速局部过滤,极大地降低了查询处理过程中产生的计算量。大量实验和实际案例表明TraSS极大地提高了海量轨迹相似查询效率。