一种基于机器学习的自动气象观测站风向异常识别方法

admin · 发表于 2025-10-28 19:50:14

测风资料在气象监测预警、气象服务、气候统计分析、城市通风廊道规划、环境污染气象条件分析、港口大风航行管制等行业场景中发挥着至关重要的作用。由于自动气象观测站建设在城市绿地、高楼楼顶、山区、港口码头、海岛、高速公路等多样化的地理环境中，其分布点多，且多为无人值守站，给仪器的维护带来了不小的挑战。此外，风向传感器的安装高度要求、安装不规范等，进一步增加了常规维护工作的难度。这些客观条件导致仪器故障不能被及时发现、诊断和排除，进而使得自动气象观测站日常维护工作相对滞后，观测数据的质量受到影响。因此，部分站点可能存在数据异常或错误的情况。自动气象观测站数据风向异常检测与处理是气象数据分析处理过程中不可或缺的一环，通过实施有效的异常值检测与处理措施，可以排除异常风向值，提高数据的准确性和可靠性，为气象监测预报预警服务、气候分析和科学研究提供坚实的数据支撑。

风向异常检测方法研究较识别检测原理的不同可分为两类：基于观测仪器的硬件检测法和基于观测资料的间接异常表征分析法。观测仪器硬件检测法主要依赖于对格雷码盘风向传感器的故障检测装置（黄小静等，2019），将采集到的格雷码信号输出至处理器，检测到断风向传感器故障，该方法简单、直接有效、准确率高，其缺点是需要进行逐设备现场核查，耗费大量人力、物力和时间成本，且在某些情况下可能难以实施，特别是在偏远或难以到达的站点。间接异常表征分析法是在不检测观测仪器硬件的情况下，对风向资料缺失、内部一致性、样本分布等进行分析识别检测（郭启云等，2020；刘莹等，2015；杨国彬等，2021；王海军等，2007），该方法通过监控风向某一阈值参数、区间统计量的变化来间接推测数据潜在异常或问题，其实施便捷性、实时性好，可以及时发现自动气象观测站的风向异常情况，但无法有效检测出隐蔽性较高的错误风向数据，例如当风向传感器安装时没有正对正北，或者风向在所有区间均可出现但在某一区间表征不足时，这种方法可能无法准确识别此类隐蔽性的风向错误。Kaya et al(2023)基于物联网边缘数据处理提出了一种智能的异常检测方法，可实现对温度、压力、湿度等传感器数据缺失和异常的检测，该方法的不足是必须在仪器端部署数据处理模块，需对仪器进行模块升级，实施便利性差。

随着人工智能技术的发展，机器学习和深度学习方法已经广泛应用于各个领域。基于机器学习方法的数据异常识别在各行业均有成熟的应用案例，如DBSCAN(density-based spatial clustering of applications with noise)聚类方法在风电（封焊文等，2021）、地震（陈利军和王畅，2020）、交通（阮嘉强等，2019）、环境监测（潘渊洋等，2012）等行业开展数据异常识别，并取得了较好的应用成效。气象行业中，机器学习和深度学习方法在雷达地面波识别（李巧等，2024；魏鸣等，2019）、雷达数据异常检测及缺失补全(Gong et al, 2023; Li et al, 2019)、掩层反射信号识别（罗文杰等，2023)、灾害性天气识别（兰宇等，2023；李博勇等，2021；闫文辉等，2020)、天气预报误差订正（任萍等，2020）等方面得到应用，有效提高了大气探测资料数据质量、灾害性天气自动识别率和天气预报能力。

针对台风、冷空气等典型天气过程，地面自动气象观测站的风向数据通常呈现出较高的一致性，这为风向异常情况的识别提供了有利条件。现有风向异常检测方法在实际应用中仍存在一些不足，特别是在不依赖观测仪器硬件检测的情况下，基于机器学习建立自动气象观测站风向异常识别方法，其利用聚类分析中的 DBSCAN 对自动气象观测站的风向数据进行异常检测和分析，旨在及时发现风向异常的自动气象观测站，从而提高自动气象观测站风向数据的质量。

1 资料和方法1.1 数据资料

使用 2016—2023 年广州市区域自动气象观测站 10 min 平均风速和平均风向数据，数据时间分辨率为 5 min。业务使用的风向异常识别结果资料来源于广东省气象局的实时常规地面观测质量控制系统，资料时间为 2022 年 10 月 8 日至 2023 年 9 月 30 日，用于与本方法的识别结果进行对比。全文所用时间为北京时。

1.2 方法介绍

DBSCAN 是一种基于密度的空间聚类算法，该算法将具有足够密度的区域划分为簇，并在具有噪声的数据集中划分任意形状的簇，它将簇定义为密度（核心点邻域半径的最小点数）相连的点的最大集合，把样本空间中距离（邻域半径）相近的聚成一簇。算法基本概念定义（图 1）如下：

e 邻域：对于 wi∈Dwi∈D，其中 e 邻域包含样本集 D 中与样本 wjwj 的距离不大于 e 的子样本集，即：
Ne(wj)={wj∣dist(wi,wj)≤e}Ne(wj)={wj∣dist(wi,wj)≤e}
式中：函数 dist(x,y) 表示两个样本的直线距离，子样本集的样本数量表示为 ∣Ne(wi)∣∣Ne(wi)∣。
三种点类别：
(1) 核心点：对于任意一个样本 wi∈Dwi∈D，如果 ∣Ne(wi)∣≥MinPts∣Ne(wi)∣≥MinPts，则 wiwi 是一个核心点；
(2) 边界点：对于任意一个样本 wi∈Dwi∈D，如果 ∣Ne(wi)∣<MinPts∣Ne(wi)∣<MinPts，则 wiwi 是一个边界点；
(3) 噪声点：对于任意一个样本 wi∈Dwi∈D，既不是核心点也不是边界点，则 wiwi 是一个噪声点。
MinPts 为密度参数。
四种点关系：
(1) 密度直达：如果 [size=1.21em]wiwi 处于 [size=1.21em]wiwi 的 e 邻域中，且 [size=1.21em]wiwi 是核心点，则称 [size=1.21em]wiwi 密度直达 [size=1.21em]wjwj；
(2) 密度可达：对于样本 [size=1.21em]wiwi 和 [size=1.21em]wjwj，如果存在样本序列 [size=1.21em]x1,x2,⋯ ,xnx1,x2,⋯,xn，满足 [size=1.21em]x1=wi,xn=wjx1=wi,xn=wj 且 [size=1.21em]x1,x2,⋯ ,xn−1x1,x2,⋯,xn−1 为核心点，且 [size=1.21em]xn−1xn−1 到 [size=1.21em]xnxn 密度直达，则称 [size=1.21em]wiwi 密度可达 [size=1.21em]wjwj；
(3) 密度相连：对于样本 [size=1.21em]wiwi 和 [size=1.21em]wjwj，如果存在核心点样本 [size=1.21em]wone,wiwone,wi 和 [size=1.21em]wjwj 均从 [size=1.21em]wonewone 密度可达，则称 [size=1.21em]wiwi 和 [size=1.21em]wjwj 密度相连；
(4) 非密度相连：对于样本 [size=1.21em]wiwi 和 [size=1.21em]wjwj，[size=1.21em]wiwi 和 [size=1.21em]wjwj 不属于密度相连关系，则称 [size=1.21em]wiwi 和 [size=1.21em]wjwj 非密度相连。

1.3 技术思路

基于 DBSCAN 算法的聚类分析风向异常识别实现技术思路如图 2 所示。该技术思路主要包括两大核心环节：在地面环境风场风向一致性较好前提下（即存在明显主导风向），构建风向异常识别模型和开展风向异常识别。

在构建风向异常识别模型的过程中，首先利用历史台风、冷空气和寒潮等天气过程的风向数据，对DBSCAN算法进行细致的参数调整。通过多次试验和效果评估，确定最适合风向异常识别的参数组合。根据调查结果，构建高效的风向异常识别模型。

在开展风向异常识别的过程中，首先启动对典型天气过程的风向异常检测机制，获取自动气象观测站实时的风向数据，使用已构建好的DBSCAN算法对实时风向数据进行聚类分析，通过计算数据点之间的密度和可达性，将风向数据划分为不同的聚类，从而识别出潜在的异常风向。保存每次聚类分析的结果，以便后续进行对比和分析。接着，对每个自动气象观测站的风向聚类结果进行详细的统计，统计异常聚类的次数和比例。根据统计结果，准确识别出异常次数和比例较高的站点，即风向数据存在异常的站点。

在算法调试训练阶段，使用了2023年1月24—26日广州的冷空气过程以及2023年7月16—17日的台风过程风向数据，样本数据有1440时次共639361个风向数据，按时计算风向样本K-距离(K-距离是样本点w_1到除w_1点外所有点之间距离最近的距离)，统计K-距离的样本分布情况(图3a)，在K-距离为7时样本频率开始出现急剧下降拐点，根据 DBSCAN 算法的聚类原理，明显拐点位置附近对应较好的参数，因此邻域半径参数 e 设置为 8。MinPts 分别取值为 e 的 1 倍、2 倍和 3 倍，得出算法的异常识别结果如图 3b～3d 所示。取值等于 e 时，导致部分异常样本聚成一小簇（E1 标记处）；取值 3 倍 e 时，导致本应归属簇 1 的部分样本标记为异常样本（E2、E3 标记处）。当取值 2 倍 e 时，DBSCAN 算法的风向异常分类相对合理，最终确定算法的密度参数数为 16。

站点风向异常次数比例（PAWDPAWD）计算方法为算法识别出的风向异常总时次（NAWDNAWD）除以天气过程检测时段总时次（NTOTALNTOTAL），即：

PAWD=NAWDNTOTAL×100%PAWD=NTOTALNAWD×100%

在个别分析经验基础上，结合实际识别需求将 PAWD≥85%PAWD≥85% 作为站点风向异常判断标准。

将错误风向站点的识别准确率（PACPAC）定义为错误站点数量（NERRORNERROR）与可疑站点数量（NSUSPNSUSP）的比例，即：

PAC=NERRORNSUSP×100%PAC=NSUSPNERROR×100%

2 历史风向异常识别

选取 2016—2022 年广州台风、冷空气和寒潮天气等过程中例 16 个，对自动气象观测站历史风向数据进行异常检测（表 1）并分析发现，14 个天气过程有明显风向错误的站点，风向错误站点比例介于 0.25%～2.05%，其中风向错误站点较多的过程是 2016 年 1 月 22—25 日寒潮天气过程和 2021 年 12 月 25—28 日冷空气过程，风向错误站点数量分别为 6 个和 5 个。在 16 个不同天气过程中，0.46%～5.56% 的站点被识别为风向数据异常可疑。

为直观分析自动气象观测站的错误风向特征，选取过程个例前后时间长 1～3 个月的逐时风向序列进行分析，错误风向特征表现为：

（1）风向长期在 2 个值区间变化。以 G3162 自动气象观测站为例（图 4a），在 2017 年 8 月 1—30 日，风向始终在 230°～305°波动，8 月 31 日至 9 月 13 日，风向跳转至 0°～14°，风向不变化不符合正常的风向变化规律。

（2）风向长期在单个值区间变化。例如自动气象观测站 G1061（图 4b），在 2016 年 10 月 1 日至 11 月 30 日，风向始终局限于 0°～180°，而 180°～359°内则完全无风向分布，这种明显的风向长时间集中现象，与正常的风场变化规律极不相符。

（3）风向长期维持恒定值不变。如 G3147 自动气象观测站（图 4c），该站在 2017 年 8 月 1 日至 9 月 30 日的 2 个月内，风向始终维持恒定值 240°不变，这种恒定不变的风向数据，显然也与实际风向变化规律不符。

（4）大多数风向长期在单个值区间变化，仅转折天气过程出现极少数风向游离于值区间外。如 G3319 自动气象观测站（图 4d），在 2021 年 12 月 1—30 日，大多数风向一直处于180°～240°, 仅在冷空气天气过程期间出现极少数风向零散分布在0°～180°和240°～359°, 风向转变连续性特征不明显。

风向可疑自动气象观测站个例如图5所示，风向呈现可疑特征表现为站点风向长期与主导风向显著偏离，平均偏差超过120°。但风向转变连续，分析可能为观测环境影响形成该区域独特的风环境或风向传感器安装时没有指向正北方位等造成。由于历史风向数据无法进行现场核查，无法确定这些站点风向可疑的确切原因，故标志为风向可疑站点。

3 实时风向异常识别

第2309号台风苏拉影响期间，广州处于台风外围影响区域，绘制441个自动气象观测站6h整点时刻风玫瑰图(图6)。台风影响前期(图6a～6c)，中期(图6d,6e)和后期(图6f)，地面自动气象观测站风向一致性高，超过83%站点风向分布在小于90°的扇区，符合DBSCAN算法聚类分析异常识别条件。在“苏拉”影响前期，地面主导风向为北风，风速逐渐增大，9月1日15时开始出现12m·s⁻¹以上大风，说明台风对广州的影响开始逐渐加强；影响中期，地面主导风向发生了明显的变化，由北风转为东北风，出现12m·s⁻¹以上大风的站点比例增多；随着台风远离，地面风速开始减小，主导风向仍为东北风。

与逐6h风致观测站的风向异常识别结果如图7所示。DBSCAN算法将9月1日03时、09时、15时和9月2日03时、09时的风向序列划分为2簇，簇内的风向序列呈现出高密度分布的特点，而孤立分布在两簇之间的风向值则被识别为异常值。在9月1日21时，风向分布的高密度区间被算法划分为3簇，同时，那些孤立分布风向值也被识别为异常值。

在台风苏拉过程影响期间，识别出的风向异常自动气象观测站共15个（表2）。为检验识别结果的准确性，采用现场核查方法并对异常原因进行了深入分析。经现场核查，确认风向错误的自动气象观测站有3个，由风向传感器故障所致，故障的风向传感器无法准确捕捉风向变化，导致记录的风向数据与实际情况存在较大偏差。另外，受观测环境影响导致该站风向与地面主导风向不一致的站点有12个，这些站点位于复杂地形区域，建筑物密集区或受到其他遮挡物的干扰，导致测量站点风向与地面主导风向偏差显著。下文选取风向传感器故障和受站点观测环境影响个例进行详细分析。

3.1 传感器故障个例

对比风向异常自动气象观测站G9725与其附近自动气象观测站G9722的风速、风向、绘制台风影响期间逐小时风速、风向分布(图8)。通过对比，发现两者风速变化趋势基本一致，然而G9725站与G9722站风向存在显著差异。参考站G9722的风向为偏北风，与地面自动气象观测站主导风向一致，表明G9722站在台风影响期间能够较为准确地反映风向的变化情况。相比之下，G9725站的风向分布明显得异常，该站风向主要分布在南风一西风，与G9722站风向偏离较大甚至相反，故算法识别该站为异常站。

现场核查异常站G9725风向传感器，以正北为基准；按固定间隔10°顺时针旋转风向标，风向标所处位置为实际风向，记录旋转过程自动气象观测站采集器输出的风向数据，实际风向与输出风向对比如图9所示。采集器在90°~359°输出的风向与实际风向不一致，为此判断风向传感器存在故障。现场更换风向传感器后测试采集器输出风向与实际风向一致。

3.2 观测环境影响个例

分析异常自动气象观测站G3224，参考站G1053风向可知，G1053风向为偏北风，与地面自动气象观测站主导风向一致，而G3224风向一直处于偏南风，两者风向相反(图10a)。2023年9月2日11时，现场核查风向标示方位与采集器输出风向一致(图10b)，风向传感器运行正常。现场核查发现自动气象观测站G3224四周有建筑物、大树遮挡(图10c)，南边距离自动气象观测站约10m处为校园十字路口，风从南向街巷吹来，自动气象观测站观测的风向正确。由于周边建筑和植被等因素影响使风受到挤压、阻挡和引流，该处形成独特的街区风环境，导致局地风向与地面主导风向不一致；城市建筑物也迫使城市地面风速变化不均匀，该处风速与参考站相比偏小。

特殊下垫面影响易对识别方法造成误判，由于观测环境一般变化较小，在开展业务应用时可对受下垫面影响较大站点进行剔除标注。街区风场扰动现象提供一个重要启示，为体育赛事等重大活动(刘郁军等,2022)提供气象服务时，应充分考虑活动现场下垫面对风场的阻挡、拖曳、扰乱和绕流等影响效应(向杰勋等,2019)，必要条件下在活动现场(如开幕式体育馆)及附近开展精细化气象监测。

4 对比分析

对比当前业务在用的风向质量控制方法(以下简称传统方法),风向异常识别结果如图11所示。在台风尾格(图11a)过程中，传统方法识别出4个可疑站点，而基于DBSCAN算法则识别出13个，两种方法识别结果均为可疑的有1个站点；DBSCAN算法识别结果中有3个站点风向存在明显错误特征，而传统方法并未发现任何错误风向站点。2022年12月15—19日强冷空气(图11b)过程中，现用质量控制方法识别出6个可疑站点，但分析这些站点并未表现出明显的错误特征；DBSCAN算法同样识别出6个可疑站点，但其中有4个站点的风向存在明显的错误特征。此次过程中，两种方法识别的可疑站点并无交集。台风苏拉(图11c)过程中，传统方法成功识别出1个风向有明显错误特征的站点,但DBSCAN算法却未能识别出这一错误;DBSCAN算法识别出15个可疑站点,其中3个站点的风向存在明显错误。

分析传统方法未能识别的错误站点风向数据,其特征与上次分析得出的错误风向(1),(2),(4)特征相符合,站点风向存在变动,但这种变化并不符合正常的风向变化规律。分析DBSCAN方法未识别出的错误站点原因(图11所示),在8月31日至9月2日的短期内,异常站与参考站的风向分布呈现出高度的一致性;而在8月15日至9月15日的长期序列中,与参考站相比,异常站的风向一直维持在正北风向附近,其错误特征明显。由此可见,站点风向资料的时间窗口期对DBSCAN算法识别结果有一定影响。另外,DBSCAN算法识别时的站点均受到了站点观测环境的影响,其风向与主导风向的不一致性是导致误识别的主要原因。

由表3可见,传统方法在这三次过程中共识别出风向可疑站点11个,风向错误站点1个,计算得出的识别准确率为9.09%。相比之下,DBSCAN算法表现更为优异,共识别出风向可疑站点34个,其中确认的风向错误站点达到10个,识别准确率提升至29.41%。DBSCAN算法相关于传统方法在识别风向异常方面的显著提升,其识别准确率提高了20.32百分点。典型天气例中,DBSCAN算法在识别错误风向中相较于传统方法具有更高的准确性。

5 结论与讨论

基于DBSCAN聚类分析算法提出了一种自动气象观测站风向异常识别方法，在自动气象观测站历史风向数据和实时风向数据异常识别2个场景进行应用分析，并与业务现用的方法相对比，得出结论如下：

（1）在第2309号台风苏拉影响过程期间，方法成功识别出与主导风向偏离大的异常站点15个，错误站点识别准确率为20%，识别结果为自动气象观测站设备运行监控和现场核查提供有力的参考依据；有助于及时发现并解决仪器问题，提升气象数据的准确性和可靠性。

（2）历史风向数据异常识别应用表明，方法在历史台风、冷空气和寒潮过程中可有效识别出错误风向的自动气象观测站，16个过程例中，有87.5%的个别识别出错误风向的自动气象观测站，不同个例的风向错误站点比例介于0.25%~2.05%。该方法为自动气象观测站历史风向数据质量控制提供了一种新的有效思路和方法。

（3）与现用的方法相比较，该方法在风向异常识别方面表现更为出色，风向错误识别准确率提高了20.32百分点。

值得注意的是，本方法的使用具有一定的条件限制，它要求地面自动气象观测站风向一致性程度高。此外，选取时间窗长短也对识别结果有影响。虽然该方法在广州区域内的自动气象观测站风向异常识别研究取得了良好效果，但当区域面积扩大后，不同区域主导风向可能不一致，风向异常识别方法能否正确、有效划分风向簇，还需要进一步研究和分析。

参考文献：
[1]张志坚,张静,伍光胜.一种基于机器学习的自动气象观测站风向异常识别方法[J].气象,2025,51(04):460-472.
声明：本文所用图片、文字均为转载，如有涉及作品版权问题，请第一时间告知，我们将根据您提供的证明材料确认并立即删除内容。本文内容系作者个人观点，不代表物联网123观点或立场。

特别提醒：物联网专业交流群欢迎物联网行业相关的人群加入，同时群内欢迎各路社牛、大咖、前辈加入，群内除了不能发敏感内容、色情内容，以及不太建议多次发送推广内容，其他内容皆可畅聊~——交流QQ群724511126，进群的朋友请备注：姓名-单位-研究方向（无备注请恕不通过），由编辑审核后邀请入群！

		自动登录	找回密码
密码			立即注册

一种基于机器学习的自动气象观测站风向异常识别方法

本帖子中包含更多资源

浏览过的版块