python持续踩坑
groupby.size()和groupby.count()的区别
size包含null
count不包含null
groupby.size()和groupby.count()的区别
size包含null
count不包含null
数据收集:ETL(Kettle)
数据存储:Hive,Hbase,HDFS,
数据分析:
数据展示:BI产品(Tableau/QlikView/Power BI/Fine BI)
计算框架:把任务分发成多个可执行任务,并合并任务,利用调度引擎去分配资源和下发计算(yarn)
Hadoop,Spark,Flink,Storm
框架就是将一个队伍分成若干份,yarn就是发号指令的军师和后勤补给
数据运维:任务管理,调度管理,日志管理,配置管理
大数据框架Hadoop:HDFS(存储),MapReduce(分布式计算框架),Yarn(调度)
计算框架Spark(优化版的MapReduce,因为它是在内存中读写)
计算框架Flink(跟spark差不多)
数据仓库(冗杂)Hive:主要解决数据处理和计算问题
基于Hadoop,依托于HDFS,可以对大量的数据进行统计与汇总,产生报表等;数据提取转化加载(ETL);方便的SQL查询;
数据库(比较精简)Hbase:实时数据查询
整体流程:通过ETL工具讲数据源抽取出来,放到HDFS上存储,通过HIVE清洗,计算原始数据,清洗后的数据存入Hbase
ELK:
ES:数据库,支持倒排搜索, “华为手机”:,hbase=“华为手机”,ES=“华为,手机,华为手机”
KUDU:解决方案的结合
KAFKA:消息队列(秒杀架构,开源中最强的一个)rabbitmq(阿里的)
容器(docker):
k8s:很多容器,容器之间进行通讯,服务多起来进行编排,一个容器坏了怎么办,k8s是一套服务解决方案,心跳机制,熔断机制
在工作中,我分析xx率,虽然今年和去年同期相比区别不大,但拆开原因看,区别还是挺大的,我也不太清楚这算不算辛普森悖论,但还是要回头复习一下。
有时候,两组数据合并起来和拆开来看,会得到不同的结果
“小说被认为是民族的秘史”
这句话并不适用于所有小说,有时候他是一个人的秘史,有时候是一群人的。
我们还能在哪里瞥见两千年封建制度瓦解后半个多世纪里没有名字的那部分中国人最后一眼呢。他们只能在虚构的小说里留下最后的样子,时代更迭大浪褪去,被洗刷的海岸上,我们只能从一条晒干的鱼身上得知,这块泥潭里曾静有过这样的生命挣扎过。他们狰狞扭曲的样子,最后变成风干的标本。而标本是不会说话的,他们的形象最终在历史里,被统一成一场运动,被统一成一个阶级,被统一成一种思想,被统一成一个事件,被统一成一句口号,被统一成一样的命运。这些被统一的,我们已然在历史中看到,而那些被过滤掉的,不足以记下来的,作为个体不自知的,不被接纳的,他们最终在小说里得以秘密的呈现,他们并不汹涌如巨浪,更像埋在地底的黑色暗流,秘而不宣。
聊聊自己对经营分析师的思考吧
入行0.8年(2022.9.26-2023.7.6),刚毕业,在经历向社会人转变的阵痛期,感谢whd小姐的陪伴,给你比个芯!
随着我工作的时间增加,也算是比之前更为深入的了解这个行业。得出的结论是:【经营分析师这个岗位,或许真的比数据分析师,要走得更远。】
如何得出这个结论呢,来自于去青岛的毕业旅行,一次偶然的谈话,然我了解到原来在大环境不好的情况下,所有企业包括传统行业,都在做一件事,“降本增效”,而做这件事其实是离不开经营分析师的。
2023.11.1
我觉得“我的实习和工作真的好无聊”,我把一切程序写好,每天让电脑自动去跑一边数据,只需要五分钟,就完成了别人需要耗时一天的工作。帮别人看个数据,也只是停留在“看”的层面上,没想过数据背后发生了什么事情。
2023.12.6
我拿到了校招offer,没有开心,原因很简单,我不喜欢这条业务线,跟钱无关(但没人会跟钱过不去hhh),因为我还没入职就看到了我每天的工作内容,重复的取数,应对需求,永远是那几个指标。
2023.3.30
我听到了楼上的需求,楼上需要两个数据分析师实习生,机会来了,但我也有点进退两难,我不想也不能因为这个机会得罪我的老板,但我也真的很渴望做一个真正的数据分析师而不是运营,要不要找老板聊一下呢,如何开口才不让别人反感,我陷入焦虑。一夜失眠后,我还是在六点的时候给老板发了消息,约她谈谈。聊天过程倒是意外的平静,我以“我的发展应该是如何”平稳过渡到“楼上有个机会”这件事,这次谈话,让我对“经营分析师”和“数据分析师”这两个概念,有了一定的改观。
“数据分析师的工作重点是去证明老板说的话是对的,而经营分析师,他是一双手,负责捋顺这个部门或这个企业的命脉,你觉得哪个更重要”
好吧,我承认我被忽悠到了,而且出于对老板的信任(我一直觉得我老板是个很有格局的人,真话),我选择放弃楼上的机会。
2023.7.6
我见到了几件事,慢慢改变着我对这个职位的刻板印象,也重新构建起了我的职业发展路线。
1.产品化自己的运营流程,变成一个军师,调度每个人到合适的位置(人效&需求),实现1000人部门的平滑调度。
2.深入熟悉业务,了解每个指标的应用场景与“应用”(xxx通过率)。
3.实现业务量预测,提前预测下个周期的需求,设置风险预警机制,打通上层业务拿到更多信息,完善自己的运营链路。
4.改变整个公司的付薪逻辑。
5.运营产品化后,优化掉我的老板。(终极目标1)
6.优化掉我。(终极目标2)
2023.7.18
在进行分析时,一定注意问口径
另外,记得要注意比较的对象,基数要相同!
2023.8.9
在工作中持续问自己几个问题
1.及时止损的动作
2.哪个动作对解决问题有很大帮助
3.主要负责了什么,发现了什么问题,和谁对接,做了什么动作
4.最有成就感,应该和你的主要工作相关
2023.8.25
事情要落地(评级拒offer)
(未完待续)