分类数据库笔记下的文章

数据收集：ETL（Kettle）
数据存储：Hive，Hbase，HDFS，
数据分析：
数据展示：BI产品（Tableau/QlikView/Power BI/Fine BI）

计算框架：把任务分发成多个可执行任务，并合并任务，利用调度引擎去分配资源和下发计算（yarn）
Hadoop，Spark，Flink，Storm
框架就是将一个队伍分成若干份，yarn就是发号指令的军师和后勤补给

数据运维：任务管理，调度管理，日志管理，配置管理
大数据框架Hadoop：HDFS（存储），MapReduce（分布式计算框架），Yarn（调度）
计算框架Spark（优化版的MapReduce，因为它是在内存中读写）
计算框架Flink（跟spark差不多）

数据仓库（冗杂）Hive：主要解决数据处理和计算问题
基于Hadoop，依托于HDFS，可以对大量的数据进行统计与汇总，产生报表等；数据提取转化加载(ETL)；方便的SQL查询；
数据库（比较精简）Hbase：实时数据查询

整体流程：通过ETL工具讲数据源抽取出来，放到HDFS上存储，通过HIVE清洗，计算原始数据，清洗后的数据存入Hbase

ELK：
ES：数据库，支持倒排搜索， “华为手机”：，hbase=“华为手机”，ES=“华为，手机，华为手机”

KUDU：解决方案的结合

KAFKA：消息队列（秒杀架构，开源中最强的一个）rabbitmq（阿里的）

容器（docker）：
k8s：很多容器，容器之间进行通讯，服务多起来进行编排，一个容器坏了怎么办，k8s是一套服务解决方案，心跳机制，熔断机制

关于大数据