pyspark结构数据处理 - 中暑虚脱 - Powered by Discuz!NT Archiver

TUhjnbcbe - 2021/4/5 1:11:00

现在随着技术的更新，数据化实现越来越高效便捷，一整套大数据系统，至少需要从数据建模、技术选型、页面交互三方面实现。数据建模如水流，贯穿整个数据分析系统；技术选型是基础设施，支撑整个系统高效运转；页面交互是面向用户，用数据说话，对业务增长进行数据赋能，实现数据驱动。

在复杂的数据分析场景中，通常需要基于用户画像与用户行为，对用户进行OLAP多维自由交叉组合分析。因此，对于百万级以上的产品业务，使用MySQL是无法满足OLAP实时分析，需要尝试新的技术选型。

存储引擎上对于现在的很多半结构化或是非结构化数据，大多基于HDFS和HBASE，计算查询引擎多用impala、clickhouse、Druid和sparkSQL等，clickhouse查询速度较快，但是druid和clickhouse在join的多表关联上是短板，所以现在比较流行的是整合各个的优势，一种方案是spark结合clickhouse或是flink等，另外，Spark可以无缝访问HDFS中Hive表数据，无需重新导数据，应用效率高。比如使用HDFS存储历史全量用户标签与用户行为数据，使用Clickhouse存储近期用户标签与用户行为数据。

所以sparksql就是非常多用的数据处理工具，比如用户画像，推荐系统里。

Spark提供了一个Python_Shell，即pyspark，从而可以以交互的方式使用Python编写Spark程序。有关Spark的基本架构介绍参考