现在随着技术的更新,数据化实现越来越高效便捷,一整套大数据系统,至少需要从数据建模、技术选型、页面交互三方面实现。数据建模如水流,贯穿整个数据分析系统;技术选型是基础设施,支撑整个系统高效运转;页面交互是面向用户,用数据说话,对业务增长进行数据赋能,实现数据驱动。
在复杂的数据分析场景中,通常需要基于用户画像与用户行为,对用户进行OLAP多维自由交叉组合分析。因此,对于百万级以上的产品业务,使用MySQL是无法满足OLAP实时分析,需要尝试新的技术选型。
存储引擎上对于现在的很多半结构化或是非结构化数据,大多基于HDFS和HBASE,计算查询引擎多用impala、clickhouse、Druid和sparkSQL等,clickhouse查询速度较快,但是druid和clickhouse在join的多表关联上是短板,所以现在比较流行的是整合各个的优势,一种方案是spark结合clickhouse或是flink等,另外,Spark可以无缝访问HDFS中Hive表数据,无需重新导数据,应用效率高。比如使用HDFS存储历史全量用户标签与用户行为数据,使用Clickhouse存储近期用户标签与用户行为数据。
所以sparksql就是非常多用的数据处理工具,比如用户画像,推荐系统里。
Spark提供了一个Python_Shell,即pyspark,从而可以以交互的方式使用Python编写Spark程序。有关Spark的基本架构介绍参考