关于大数据
数据收集:ETL(Kettle)
数据存储:Hive,Hbase,HDFS,
数据分析:
数据展示:BI产品(Tableau/QlikView/Power BI/Fine BI)
计算框架:把任务分发成多个可执行任务,并合并任务,利用调度引擎去分配资源和下发计算(yarn)
Hadoop,Spark,Flink,Storm
框架就是将一个队伍分成若干份,yarn就是发号指令的军师和后勤补给
数据运维:任务管理,调度管理,日志管理,配置管理
大数据框架Hadoop:HDFS(存储),MapReduce(分布式计算框架),Yarn(调度)
计算框架Spark(优化版的MapReduce,因为它是在内存中读写)
计算框架Flink(跟spark差不多)
数据仓库(冗杂)Hive:主要解决数据处理和计算问题
基于Hadoop,依托于HDFS,可以对大量的数据进行统计与汇总,产生报表等;数据提取转化加载(ETL);方便的SQL查询;
数据库(比较精简)Hbase:实时数据查询
整体流程:通过ETL工具讲数据源抽取出来,放到HDFS上存储,通过HIVE清洗,计算原始数据,清洗后的数据存入Hbase
ELK:
ES:数据库,支持倒排搜索, “华为手机”:,hbase=“华为手机”,ES=“华为,手机,华为手机”
KUDU:解决方案的结合
KAFKA:消息队列(秒杀架构,开源中最强的一个)rabbitmq(阿里的)
容器(docker):
k8s:很多容器,容器之间进行通讯,服务多起来进行编排,一个容器坏了怎么办,k8s是一套服务解决方案,心跳机制,熔断机制