气象数据浩如烟海
来源复杂
格式多样
存储海量
面对如此多的数据
在成本适度的前提下
如何更为科学地管理呢?
可别小看这一环节
气象数据管理作为整个系统的基础功能和核心支撑
如果不能采用科学的方法
数据便无法高效存储与使用
海量气象数据高效存储管理技术
对海量数据库的支持,不单单指数据库容量能达到TB/PB级,更是对数据库系统的管理能力,比如日常管理、数据加载、索引建立、灾难恢复等。
现阶段我国采用的一些技术主要包括分表技术、表分区技术、Look-through技术与应用分割技术。
分表技术是最早使用的海量数据存储技术,它可以弥补PC性能低和单个表数据量过大的缺点,可以较为直观地了解数据。
表分区技术就是将表根据一定的条件划分为多个分区,每个分区都是一个逻辑实体,用户可以像操作单表一样对表分区进行操作,在相应的分区建立不同的索引机制,选择不同的并行方式。
Look-through技术有效结合了分布式技术和分表技术,使得远程访问多个数据库成为可能,它降低了系统开发和管理的难度,同时也减少了软硬件的开销。
多态气象数据存储管理技术
关系型数据库和共享文件系统
关系型数据库基于关系模型构建。它的底层模型与事务保障机制所具备的明确性,很好地解决了传统业务环境中的数据管理问题。
共享文件系统一般基于磁盘阵列构建,使用RAID技术保证其性能和可靠性,利用NFS、CIS等协议为用户提供服务。
NoSQL数据库
它是面向海量数据并行处理的数据库,具有高可靠、高性能、可伸缩的分布式存储架构。
NoSQL数据库可以解决数据的访问效率问题,通过分布式处理,可以使用更少的时间完成同样多的数据库操作。
NewSQL数据库
NewSQL是一种分布式的关系型数据库,它既支持典型的事务性SQL,又通过自身的构架解决了水平扩展的难题。
对于NewSQL数据库而言,它能够轻松地接入附加硬件资源,无需应用程序变更,无需调整数据模型。
气象数据多级存储及导存技术
根据管理特性和应用要求,气象数据的存储可以分为静态多级存储和动态多级存储。
静态多级存储主要分为采用高性能磁盘阵列构成的在线高端存储和采用大容量低端磁盘阵列构成的在线低端存储。
针对历史库中的文件数据,采用动态多级存储的方式实现其存储管理,通过迁移回迁实现这些数据在高端、低端和带库之间的流动存储。
参考资料:《气象与大数据》