关键词:
光变曲线
天文星表
时序数据存储
并行优化
智能分类
摘要:
光变曲线是源自天文望远镜观测的时间序列数据,记录了天体亮度随时间的变化,是系外行星、超新星等时域天文学研究的核心对象。天文观测数据的归档以时间维度为主,每次观测会获得视场内全部天体的数据,经处理后以星表形式批量存储,因此任何天体的光变曲线数据在归档数据中都不能直接获得。按需检索的方式可以获得指定天体的光变曲线数据,能够支撑有候选目标的时域天文学研究,但对于观测数据全集而言只有极少一部分天体的光变信息被用于分析研究,观测数据潜在的科学价值无法借助机器学习等方法得到充分挖掘。针对以上问题,本文从光变曲线构造、光变曲线数据模型与存储以及光变曲线分类训练集构造三个方面对面向智能分析的天文时序数据处理关键技术进行研究。具体工作与创新点如下:
针对海量天文星表环境下以空间维度对星表数据重构的效率问题,本文提出了一种光变曲线高效构造方法,并实现了光变曲线全样本数据集的高效构造工具Astro Cat R,从归档的海量天文星表数据中,构造出全样本的光变曲线数据集。为了确定同一天体的观测数据,针对光变曲线构造的星表数据证认计算的性能问题,提出了基于证认基准表的星表高效证认计算方法,减少天体间证认计算次数,提升计算效率。针对证认计算中的边界漏源问题,提出了一种新的增加冗余数据的方法,确保星表证认计算的高效性和可靠性。针对光变曲线构造中的均衡负载的问题,将任务划分问题转化为多个背包问题,并提出基于动态规划的任务划分方法。本文提出的基于证认基准表的证认算法较基于数据库内存表的方法获得了近3倍的性能提升。综合考虑内存、负载等均衡因素建立合理的性能评价指标,不同工作负载及不同进程数,任务划分均衡且可以忽略时间开销。
保障光变曲线数据的存储访问的性能是提升光变曲线的处理和分析效率的关键。针对光变曲线数据格式、组织形式不统一导致的不兼容问题和光变曲线非结构化、稀疏不均匀等特点导致的存储性能等问题,本文提出了光变曲线数据模型TSCat和可控的解耦合存储方案。受观测条件的影响,不同天体被观测到的频次存在差异,从而导致了光变曲线数据采样不均衡等存储问题。针对此类存储问题,设计并实现了基于TSCat数据模型的光变曲线存储系统。为了支持多样化分析模式,TSCat存储系统提供了并行加速来提升数据导入性能、自定义元数据属性兼容不同来源的数据、可视化来辅助数据分析等服务。为了提升TSCat数据模型中被频繁读写的时序元组的写入和查询性能,提出了基于LSM(Log Structured Merge)树的TSCat存储引擎,避免了TSCat存储系统动态建表的开销,同时提升了数据写入效率,并基于跳表、布隆过滤器和缓存策略对数据的查询性能进行优化。TSCat存储引擎较关系型数据库的插入性能提升约30%,查询性能提升约60%。
以光变曲线分类为示范应用,针对光变曲线分类标准化训练集的可扩展性问题,本文提出了一种光变曲线分类训练集的构造方法,并基于开源的有标签的光变曲线数据构造出了一个可自定义的光变曲线分类训练集。为了提升光变曲线分类效果,将光变曲线分类问题转化为标准的时序分类问题,提出了基于Shapelets的特征工程来提取光变曲线数据集新的多层级特征,并结合本文提出的端到端的分类判别器提升多分类不均衡任务的分类效果。通过支持向量机、随机森林、卷积神经网络三种常用的分类方法对光变曲线分类训练集的在二分类和多分类的分类效果进行评价,验证了光变曲线分类训练集可直接应用于筛选候选目标和分类算法的开发。基于Shapelets的特征工程提取到的特征能够提升分类效果的同时具可解释性,方便领域专家进行进一步的分析研究。基于统计学和Shapelets的特征在MANTRA开源数据集上执行分类任务时,比基于统计学特征的分类效果最多获得了20%的F1-值的提升。
本文以时域天文学领域光变相关研究的实际需求为牵引,通过对光变曲线智能分析中数据处理的关键技术方法的研究,提供数据基础和技术支撑。本文构造出全样本光变曲线数据集和光变曲线分类训练集,促进人工智能技术在光变曲线智能分析研究中的应用与发展。通过对技术方法和系统框架的研发探索,提升光变曲线智能分析研究的科研效率,充分挖掘天文数据中潜在的科学价值。