Flink 背压大数据 Flink 背压 问题排查 有比较多的任务都会受到反压导致任务延迟不断升高,造成反压的主要原因是计算任务处理不过来,如何根据指标定位到反压的具体原因对解决反压问题非常重要。Published On1 个月前Read more →
数据开发常用大数据 Hive Spark Flink 在进行数据开发的过程中,我们会经常使用到一些函数,针对 Spark 作业进行参数配置以及对作业的运维。Published On1 个月前Read more →
Paimon 数据湖Paimon 数据湖 流式计算 流批一体 Apache Paimon 是一个专门为CDC处理、流计算而生的实时数据湖存储,支持高速数据摄取、变化数据跟踪和高效实时分析。Published On4 个月前Read more →
滑动窗口算法 滑动窗口 滑动窗口算法是一种在数组或字符串等线性数据结构中,通过维护一个动态变化的 “窗口” 来高效解决子序列 / 子数组问题的技巧。Published On5 个月前Read more →
Hive大数据 Hive Hive 是基于 Hadoop 的一个数据仓库工具,主要用于处理大规模结构化和半结构化数据。它通过类 SQL 的查询语言(HQL,Hive Query Language)将数据查询任务转换为 MapReduce、Tez 或 Spark 等分布式计算框架的作业,让熟悉 SQL 的用户无需编写复杂的分布式程序就能高效分析海量数据。Hive 适合离线数据分析场景,支持数据的提取、转换、加载(ETL),以及数据存储、查询和分析,常被用于构建企业级数据仓库,帮助业务人员从海量数据中挖掘价值。Published On5 个月前Read more →