水生所联合德国KIT研发基于大数据挖掘和深度学习的有害藻类水华预警系统
近日,中国科学院水生生物研究所毕永红团队联合德国卡尔斯鲁厄工学院(KIT)研发出基于大数据挖掘和深度学习的有害藻类水华预警系统。相关论文以封面文章形式发表在环境科学领域权威期刊Environmental Science & Technology。
该研究致力于创建高时间分辨率的水柱垂向维度有害藻华(HABs)早期预警系统,内容包括创建大数据平台、采集高时空分辨率的水生态环境大数据、开发自主学习并能跨时间点聚类捕获Chl a动态的先进聚类算法、设计专门处理复杂多变量时间序列的预测模型等。具体工作以太湖为研究水域,构建高频垂直剖面监测系统(VAMS)进行水生态大数据采集,基于大数据开发了具有深度学习功能的Bloomformer-2模型,通过“DeepDPM-光谱聚类”和Bloomformer-2模型优化建模策略,智能识别水柱分层并进行不同水深藻类生物量的精确预测,将预测结果与世界卫生组织的“警戒级别框架”有机结合,构建了有害藻类水华的预警系统。该系统不仅能及时预测有害藻华的发生,还能识别出藻华的主要驱动因子,提高了藻华的预测能力以及预测模型的环境适应性,为藻华预警及其防控提供了新的解决方案。
所开发的Bloomformer-2具有时空多头自注意力(MHSA)机制,该机制使用了时间和空间自注意力层的“查询”(query)、“关键词”(key)和“值”(value)输出,有效综合了时间和空间维度;通过优化该机制,可更好进行多变量时间序列预测(TSF)中的上下文学习。通过这种时空多头自注意力机制,充分识别和提取各种水生态环境参数间的时空相互关系,用于Chl a的精确预测。
不同于传统方法,该模型为特定时间框架内的每个变量设置了独特的上下文优先级;利用基于Transformer的编码器-解码器架构,处理由历史和目标数据生成的双时空序列,整个过程包括并行双序列输入、时空嵌入、时空注意力和效率优化。为了阐明Bloomformer-2性能稳健性,本研究使用了LSTM(long short-term memory)作为比较模型。为了帮助识别和优化模型,使其在短期和长期预测中都能提供准确预测结果,本研究进行了单步预测和多步预测,从而更全面地评估模型在不同时间尺度上的表现和适用性,为不同预测需求提供支持。
该研究证明了预测模型在单步和多步预测中的优越性,能准确识别藻华动态的主要驱动因素,为提前采取预防措施提供了依据。此外,该系统利用大数据的5Vs特性,显著提高了数据采集的体积、速度、多样性以及分析数据的价值,大幅增强了早期预警系统的性能可靠性。未来,将通过扩大VAMS监测网络和增加传感器进一步提升系统的大数据容量和应用范围,使其更广泛地应用于HABs监测和预警中。
图 Bloomformer-2模型的单步预测(A)和多步预测(B)结果及其与LSTM预测结果的比较
德国KIT与水生所联合培养博士生钱儆为论文第一作者,论文通讯作者为水生所毕永红。
论文连接:https://doi.org/10.1021/acs.est.3c03906