2023年7月

数据收集:ETL(Kettle)
数据存储:Hive,Hbase,HDFS,
数据分析:
数据展示:BI产品(Tableau/QlikView/Power BI/Fine BI)

计算框架:把任务分发成多个可执行任务,并合并任务,利用调度引擎去分配资源和下发计算(yarn)
Hadoop,Spark,Flink,Storm
框架就是将一个队伍分成若干份,yarn就是发号指令的军师和后勤补给

数据运维:任务管理,调度管理,日志管理,配置管理
大数据框架Hadoop:HDFS(存储),MapReduce(分布式计算框架),Yarn(调度)
计算框架Spark(优化版的MapReduce,因为它是在内存中读写)
计算框架Flink(跟spark差不多)

数据仓库(冗杂)Hive:主要解决数据处理和计算问题
基于Hadoop,依托于HDFS,可以对大量的数据进行统计与汇总,产生报表等;数据提取转化加载(ETL);方便的SQL查询;
数据库(比较精简)Hbase:实时数据查询

整体流程:通过ETL工具讲数据源抽取出来,放到HDFS上存储,通过HIVE清洗,计算原始数据,清洗后的数据存入Hbase

ELK:
ES:数据库,支持倒排搜索, “华为手机”:,hbase=“华为手机”,ES=“华为,手机,华为手机”

KUDU:解决方案的结合

KAFKA:消息队列(秒杀架构,开源中最强的一个)rabbitmq(阿里的)

容器(docker):
k8s:很多容器,容器之间进行通讯,服务多起来进行编排,一个容器坏了怎么办,k8s是一套服务解决方案,心跳机制,熔断机制

在工作中,我分析xx率,虽然今年和去年同期相比区别不大,但拆开原因看,区别还是挺大的,我也不太清楚这算不算辛普森悖论,但还是要回头复习一下。

首先,什么是辛普森悖论(Simpson's Paradox)?

有时候,两组数据合并起来和拆开来看,会得到不同的结果

如何避免这种情况?

  1. 思考变量设计是否合理
  2. 抽样是否科学

“小说被认为是民族的秘史”
这句话并不适用于所有小说,有时候他是一个人的秘史,有时候是一群人的。
我们还能在哪里瞥见两千年封建制度瓦解后半个多世纪里没有名字的那部分中国人最后一眼呢。他们只能在虚构的小说里留下最后的样子,时代更迭大浪褪去,被洗刷的海岸上,我们只能从一条晒干的鱼身上得知,这块泥潭里曾静有过这样的生命挣扎过。他们狰狞扭曲的样子,最后变成风干的标本。而标本是不会说话的,他们的形象最终在历史里,被统一成一场运动,被统一成一个阶级,被统一成一种思想,被统一成一个事件,被统一成一句口号,被统一成一样的命运。这些被统一的,我们已然在历史中看到,而那些被过滤掉的,不足以记下来的,作为个体不自知的,不被接纳的,他们最终在小说里得以秘密的呈现,他们并不汹涌如巨浪,更像埋在地底的黑色暗流,秘而不宣。