数据分析实战案例 excel数据分析案例

excel数据分析案例,数据分析实战案例 。小编来告诉你更多相关信息 。
今天给大家分享一个真实的探究变量间关系的例子 。
为什么低质量的钻石反而更加贵ggplot(diamonds, aes(cut, price)) + geom_boxplot()
ggplot(diamonds, aes(color, price)) + geom_boxplot()
ggplot(diamonds, aes(clarity, price)) + geom_boxplot()
【数据分析实战案例 excel数据分析案例】

数据分析实战案例 excel数据分析案例

文章插图

数据分析实战案例 excel数据分析案例

文章插图

数据分析实战案例 excel数据分析案例

文章插图
钻石价格和重量的关系低质量的钻石价格反而高,是因为一个混杂变量:carat,carat对钻石来说是一个很重要的变量,低质量的钻石一般都要重一点 。我们可以做出了克拉和价格的关系:
ggplot(diamonds, aes(carat, price)) +
geom_hex(bins = 50)
数据分析实战案例 excel数据分析案例

文章插图
我们在探究其余的变量和因变量的关系时,需要控制混杂变量后再探究自变量与因变量的关系,也就是说在本例中探讨cuts, colours, clarity和price的关系时,需要控制掉,或者是抠掉carat对price的影响 。
在分析之前首先对数据进行变形,可以更好的看出变量的线性关系
diamonds2 %
filter(carat %
mutate(lprice = log2(price), lcarat = log2(carat))
然后再作图
ggplot(diamonds2, aes(lcarat, lprice)) +
geom_hex(bins = 50)
数据分析实战案例 excel数据分析案例

文章插图
可以清楚的看到carat和price线性关系,现在我们对转换后的变量进行线性拟合:
mod_diamond <- lm(lprice ~ lcarat, data = https://www.fajihao.com/i/diamonds2)
拟合过后,我们就相当于形成了carat对price的效应,此时我们看cuts, colours, clarity与模型残差的关系就是抠掉carat对price的效应之后cuts, colours, clarity与price的真正关系了 。
diamonds2 %
add_residuals(mod_diamond, \"lresid\")
ggplot(diamonds2, aes(cut, lresid)) + geom_boxplot()
ggplot(diamonds2, aes(color, lresid)) + geom_boxplot()
ggplot(diamonds2, aes(clarity, lresid)) + geom_boxplot()
数据分析实战案例 excel数据分析案例

文章插图

数据分析实战案例 excel数据分析案例

文章插图

数据分析实战案例 excel数据分析案例

文章插图
此时,从上面3个图中我们可以看出cuts, colours, clarity与price的关系就不再是文章开头所写的反常的关系了 。
小结 往期内容: