嘿科技在这里 现代BI系统有哪些问题?如何解决?,从Hadoop到ClickHouse( 二 )


根据一项调查 , 互联网用户通常都没有耐心 。 例如47%的消费者希望在2秒或更短的时间内完成网页加载 , 40%的人放弃了加载时间超过3秒的网站 , 而页面响应时间每延迟1秒就可以使转换率降低7% 。 实时应答、简单易用 , 已经是现代互联网系统的必备素质 。
SaaS模式的兴起 , 为传统企业软件系统的商业模式带来了新的思路 , 这是一次新的技术普惠 。 一方面 , SaaS模式将之前只服务于中大型企业的软件系统放到了互联网 , 扩展了它的受众;另一方面 , 由于互联网用户的基本特征和软件诉求 , 又倒逼了这些软件系统在方方面面进行革新与升级 。
技术普惠 , 导致现代BI系统在设计思路上发生了天翻地覆的变化 。
首先 , 它变得“很轻” , 不再需要强制捆绑于企业数据仓库这样的庞然大物之上 , 就算只根据简单的Excel文件也能进行数据分析 。
其次 , 它的受众变得更加多元化 , 几乎人人都可以成为数据分析师 。 现代BI系统不需要IT人员的深度参与 , 用户直接通过自助的形式 , 通过简单拖拽、搜索就能得到自己想要的分析结果 。
最后 , 由于经过互联网化的洗礼 , 即便现代BI系统仍然私有化地部署在企业内部 , 只服务于企业客户 , 但它也必须具有快速应答、简单易用的使用体验 。 从某种角度来看 , 经过SaaS化这波技术普惠的洗礼 , 互联网帮助传统企业系统在易用性和用户体验上进行了革命性提升 。
如果说SaaS化这波技术普惠为现代BI系统带来了新的思路与契机 , 那么背后的技术创新则保障了其思想的落地 。 在传统BI系统的体系中 , 背后是传统的关系型数据库技术(OLTP数据库) 。
为了能够解决海量数据下分析查询的性能问题 , 人们绞尽脑汁 , 在数据仓库的基础上衍生出众多概念 , 例如:对数据进行分层 , 通过层层递进形成数据集市 , 从而减少最终查询的数据体量;提出数据立方体的概念 , 通过对数据进行预先处理 , 以空间换时间 , 提升查询性能 。
然而无论如何努力 , 设计的局限始终是无法突破的瓶颈 。 OLTP技术由诞生的那一刻起就注定不是为数据分析而生的 , 于是很多人将目光投向了新的方向 。
Google于2003~2006年相继发表了三篇论文“GoogleFileSystem”“GoogleMapReduce”和“GoogleBigtable” , 将大数据的处理技术带进了大众视野 。 三篇论文开启了大数据的技术普惠 , Hadoop生态由此开始一发不可收拾 , 数据分析开启了新纪元 。
嘿科技在这里 现代BI系统有哪些问题?如何解决?,从Hadoop到ClickHouse
文章图片
2006年开源项目Hadoop的出现 , 标志着大数据技术普及的开始 , 大数据技术真正开始走向普罗大众 。 长期以来受限于数据库处理能力而苦不堪言的各路豪杰们 , 仿佛发现了新大陆 , 于是一轮波澜壮阔的技术革新浪潮席卷而来 。
从某种角度来看 , 以使用Hadoop生态为代表的这类非传统关系型数据库技术所实现的BI系统 , 可以称为现代BI系统 。 换装了大马力发动机的现代BI系统在面对海量数据分析的场景时 , 显得更加游刃有余 。
然而Hadoop技术也不是银弹 , 在现代BI系统的构建中仍然面临诸多挑战 。 在海量数据下要实现多维分析的实时应答 , 仍旧困难重重 。 (现代BI系统的典型应用场景是多维分析 , 某些时候可以直接使用OLAP指代这类场景 。 )
Hadoop最初指代的是分布式文件系统HDFS和MapReduce计算框架 , 但是它一路高歌猛进 , 在此基础之上像搭积木一般快速发展成为一个庞大的生态(包括Yarn、Hive、HBase、Spark等数十种之多) 。 在大量数据分析场景的解决方案中 , 传统关系型数据库很快就被Hadoop生态所取代 , 我所处的BI领域就是其中之一 。
传统关系型数据库所构建的数据仓库 , 被以Hive为代表的大数据技术所取代 , 数据查询分析的手段也层出不穷 , Spark、Impala、Kylin等百花齐放 。 Hadoop发展至今 , 早已上升成为大数据的代名词 , 仿佛一提到海量数据分析场景下的技术选型 , 就非Hadoop生态莫属 。