数据处理包括哪些内容 关于数据分析常用算法


数据处理包括哪些内容 关于数据分析常用算法

文章插图
一、啥是数据处理
数据处理大致可以分成两大类:联机事务处理OLTP、联机分析处理OLAP 。OLTP是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易等 。OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果 。因此今天重点说说OLAP 。
二、啥是联机分析处理OLAP
一般做大数据的公司都有专门的数据处理或者数据分析人员 , 而数据产品经理针对OLAP基本都处于认知的情况,既然是认知状态就和大家聊聊数据产品经理对OLAP的认知 。
拥有数据中心 , 或者叫数据中台的企业往往都是比较大型的企业,我做过房产中介行业 , 就针对房产中介行业聊聊OLAP 。企业中管理人员或者分析人员,他们在分析业务时,会从不同的角度来审视业务的衡量指标,这也是一种很自然的思考方式 。例如分析公司存量房市场数据 , 会综合考虑到时间周期、业务类别(二手房、租赁房、新房) , 房源类别(普通住宅、商住两用、别墅等)、朝向、甚至会考虑客户的年龄段,会有很多种因素去考虑 。而这些分析通常状态下会以报表的形式存在 。每一种分析角度都会形成一张报表,这样就会有很多张报表 , 会使得报表分析人员或者IT人员产生大量的工作,与此同时又跟不上管理者的决策速度,最终就会觉得工作效率低下 。
OLAP,可以说是BI处理的一种工作和思路 。也就是说一种好的BI产品在联机分析处理时 , 主要的特点就是可以仿照用户的多角度思考方式,当然这就需要用户在数据中心,或者数据仓库中预先组建多维数据库 , 对于产品经理来维度指的就是分析的角度 。
例如对于分析中介行业的存量房市场数据就需要时间周期是一个维度,业务类别(二手房、租赁房、新房)、房源类别(普通住宅、商住两用、别墅等)、朝向分别是一个维度,一旦多维数据模型建立完成,用户就可以快速的从各个分析角度获取数据,也能动态的在各个角度之间切换或者进行多角度综合分析,具有极大的分析灵活性 。
说到这里大体上说了说OLAP分析是个什么意思,而很多BI产品,或者叫做BI工作都会提供常见的OLAP多维分析操作 。对于用户而言,可以对已有的报表通过切换维度来进行数据钻取分析 。同时要支持对数据的排序与过滤功能,按照自身需求对数据分析处理 。
这里面有个概念,叫数据钻取 , 那啥玩应叫数据钻取呢?首先要知道的是数据钻取是OLAP的一种操作,有上钻 , 下钻、切片、切块,旋转啥的,刚才提到多维度,想到多维度,就可以想到立体结构 。
例如:我们可以比如一个立方地,有三个维度,第一是时间维度(好比立方体的长),第二个维度是区域维度(好比立方地的宽),客户的年龄段(好比立方地的高),这样三个维度组成的一个三维立方体》
【数据处理包括哪些内容 关于数据分析常用算法】先说向上钻,就是某一个维度的数据由细节层次向上合并成汇总数据,比如说时间维度,比如2019年的房源销售数据按时间维度可以说成每个月卖出了多少 , 向上合并就是每个季度卖出了多少,在向上就是2019年卖出了多少 。
再说向下钻 , 就是和向上钻相反,比如把合并数据拆开,还是拿时间维度举例,将2019年的房源销售数据拆开到每个季度,再拆开到每个月 。
再说切片和切块,就是把某一个维度的数据选定,其他维度的变化,我们还是那刚才的那个例子来讲,将时间维度选定为1月(不可变化),另外的两个维度为区域维度和客户年龄段 。区域维度有整个中国、再到省份、再到城市、再到城市中的区域,一级一级向下 。客户年龄段可以分为全年龄端,向下可分为青年、中年、老年和儿童,在向下可以是具体的年龄,,这样形成的多维度报表1月份的房源销售数据,我们也可以说是按照时间维度进行切块的或者切片的数据 。
旋转,就更容易理解了,就是变化维度的方向,例如之前是按照时间维度 , 换成按照地域维度的,这就是旋转 。
好了,对于产品经理而言了解OLAP也就这个程度了,当然你也可以往深了理解,需要的可以找我,我给你讲,哈哈哈 。