难倒80%数据分析师的面试题!看看你能答上来几道?( 三 )


数据挖掘部分
1、数据库与数据仓库的区别
难倒80%数据分析师的面试题!看看你能答上来几道?
本文插图
答案
简单理解下数据仓库是多个数据库以一种方式组织起来 , 数据库强调范式 , 尽可能减少冗余;而数据仓库强调查询分析的速度 , 优化读取操作 , 主要目的是快速做大量数据的查询 。
数据仓库定期写入新数据 , 但不覆盖原有数据 , 而是给数据加上时间戳标签;数据库采用行存储 , 数据仓库一般采用列存储 。
数据仓库的特征是面向主题、集成、相对稳定、反映历史变化 , 存储数历史数据;数据库是面向事务的 , 存储在线交易数据 。
2、什么是聚类分析?
难倒80%数据分析师的面试题!看看你能答上来几道?
本文插图
答案
聚类分析是一种无监督的学习方法 , 根据一定条件将相对同质的样本归到一个类中 。
聚类方法主要有:a. 层次聚类b. 划分聚类:kmeansc. 密度聚类d. 网格聚类e. 模型聚类:高斯混合模型
11道题 , 你能答对几道呢?评论区看看谁是大神