气象大数据平台的数据采集与处理系统初探

admin · 发表于 2025-9-2 06:21:36

面对日益增长的气象数据，传统的数据存储和共享方式已经逐渐不能满足现代气象业务的应用发展。数据的存储和存取速度严重影响了气象相关业务。目前大数据的发展为气象服务开阔了思路和方向。目前的大数据处理技术各有自身优势特点与适合的场景，没有一种技术能够完全满足所有业务分析场景的数据处理要求，本文构建的大数据平台从气象数据自身特点以及实际业务应用出发，采用Hadoop、Impala、ＲDB的混搭架构组建数据平台，有针对性地对各类气象数据进行存储。将结构化数据存储到Kudu分布式存储结构中，非结构数据存储在HDFS与HBase中，其中小于10M的数据直接存储于HBase，大于10M的数据直接存储于HDFS，非结构化数据的索引数据及相关专题应用数据存储到Oracle中。主要介绍气象数据同步到大数据平台中的处理流程。

1采集过程

大数据平台中的数据包括CIMISS(Chinainte-gratedmeteorologicalinformationservicesystem)中的结构化数据和非结构化数据，行业外部系统数据，互联网数据。针对各类数据的采集，通过不同的采集方式将数据写为标准csv文件，然后以文件新增的方式触发数据的采集入库流程。

CIMISS结构化数据和非结构化数据都是采用FTP/SFTP方式进行数据采集。CIMISS数据经过简约流程处理后，生成标准的CSV文件，其中增量数据(周期批量新增)与更新数据(包含单记录新增、更新、删除)单独分目录存放。大数据平台通过新增文件扫描方式进行数据的采集，将新增文件采集到大数据平台接口机进行预处理。其中增量数据采用load的方式进行数据批量加载到相应集群;更新数据生成相应的更新语句(Oracle的更新语句、Kudu的更新操作语句)到相应集群执行。

行业外部系统数据按照协商接口进行数据的采集。采集后将数据生成标准csv文件，按照文件方式进行后续处理流程。可以使用以下几种方式。第一可以使用与外部网络互通的接口机进行数据的采集，第二可以使用FTP/SFTP方式接口按照文件新增方式进行采集，第三可以使用其他方式接口(如socket)通过定制化程序实现数据的采集。

互联网数据是以爬虫的方式对互联网数据进行采集的，通过文件新增的方式触发后续采集入库流程。爬取后内容解析成的结构化数据，将其写成标准的csv文件，文件命名要求至少包含数据接口名称、时间信息，文件命名以英文、数字为主。爬取后的非结构化文件以原有数据文件格式进行存储。

2处理过程

2．1结构化数据处理

针对结构化增量数据处理，以CIMISS系统中的结构化数据为例，其典型的数据处理流程如图1所示。根据配置的文件全路径规则表达式，实时监测有无数据从接口机服务器下载到ETL服务器。接口机根据配置的清洗、转换规则对数据进行处理。对小文件进行合并处理，并将数据文件的压缩成zip、gz、lzo等压缩格式，压缩完成后自动删除原有文件。

如图1所示，压缩后的数据文件会通过支持Ha-doop的加载接口和文件挂载方式加载到HDFS(ha-doopdistributedfilesystem)中。基础数据使用基于Kudu的Spark进行关联或汇总，最终将汇总数据同步到Oracle集群，并通过load方式加载到Impala集群。汇总完的基础数据、维度汇总数据及专题结论数据是从HDFS加载到Oracle中，并供上层应用使用。

结构化更新数据处理流程，主要实现对已采集数据的更新及重新汇总，其典型处理流程见图2(以CIMISS系统数据为例)。

根据配置的文件全路径规则表达式，实时监测有无新增文件，实现数据从接口机服务器下载到ETL服务器。根据更新数据及Oracle语法，生成insert/up-date/delete更新操作语句。连接Oracle，执行生成的更新语句，对采集的原始数据进行更新。根据更新数据及Kudu语法，生成insert/update/delete更新操作语句。连接Kudu，执行生成的更新语句，对采集的原始数据进行更新。对更新后原始数据根据相应汇总周期使用Spark进行数据的重新汇总。重新汇总的数据同步到Oracle临时表，并以Merger方式更新汇总数据。

图3是一个具体的可视化的结构化数据处理流程，展示了中国地面逐小时资料的处理过程。在此流程中，首先设定下载后文件存放的规则，然后将CSV文件下载到接口机，CSV文件经过规定的数据处理规则，存储在HDFS中hive设定的目录，通过hive将结构化的数据文件映射为一张临时数据库表，并将数据加载到Kudu，并将临时表删除，最终对于所有基于原始数据的长序列查询通过Impala实现支撑。

2．2非结构化数据处理

非结构化数据处理流程如图4所示，主要是CIMISS系统中的非结构化数据和互联网采集后的非结构化数据。根据配置的文件全路径规则表达式，实时监测有无新增文件，实现数据从接口机服务器下载到ETL服务器。根据非结构化数据的文件名时间信息，构建rowkey加载至Hbase，供应用查询。对大于10M的非结构化数据文件加载到Hadoop集群的HDFS中，支持两种加载方式:Hadoop的加载接口、文件挂接方式。对于非结构化数据的索引数据则写入Oracle中。

3结论

主要介绍了大数据平台中结构化数据和非结构化数据采用的不用的采集处理方式。通过可视化平台实现了数据的采集和处理。其中结构化基础数据存储在Kudu中，非结构化数据存储在HDFS或者HBase中，支撑非结构数据存储、查询及结构化数据的关联、处理。Oracle集群作为应用库，存储日常统计数据和应用专题数据，支撑固定查询及专题应用，满足了数据需求的及时性，也充分发挥了气象数据的公众服务的作用，为特色专题服务提供了数据支撑。

参考文献：

[1]李从英,王彪,金石声,等.气象大数据平台的数据采集与处理系统初探[J].成都信息工程大学学报,2018,33(05):536-539.
声明：本文所用图片、文字均为转载，如有涉及作品版权问题，请第一时间告知，我们将根据您提供的证明材料确认并立即删除内容。本文内容系作者个人观点，不代表物联网123观点或立场。

特别提醒：物联网专业交流群欢迎物联网行业相关的人群加入，同时群内欢迎各路社牛、大咖、前辈加入，群内除了不能发敏感内容、色情内容，以及不太建议多次发送推广内容，其他内容皆可畅聊~——交流QQ群724511126，进群的朋友请备注：姓名-单位-研究方向（无备注请恕不通过），由编辑审核后邀请入群！

		自动登录	找回密码
密码			立即注册

气象大数据平台的数据采集与处理系统初探

本帖子中包含更多资源

浏览过的版块