云原生数据湖解决方案打破数据孤岛,大数据驱动互娱行业发展

行业综述全民娱乐时代 , 网络互娱市场持续保持高速增长
随着互联网的普及以及技术的发展 , 互联网娱乐行业的发展也日渐成熟 。 从早期单一门户网站 , 到个人博客的流行 , 再到视频网站的壮大 。 以及这两年层出不穷的短视频、直播、资讯平台等 , 网络娱乐行业的发展也正在从内容为王 , 开始往大数据驱动内容创新与推广的方向进行发展 。
随着生活条件的变好 , 人们进入了娱乐即生活 , 生活即娱乐的时代 。 如同互联网时代到来引爆信息爆炸一样 , 互联网娱乐的兴起和发展同样有爆发力 。 据统计 , 截至2019年6月 , 我国网络直播用户规模达4.33亿 , 较2018年底增长3646万 。 而网络视频的用户更是达到7.59亿 , 较2018年底增长3391万 。
尤其是在15年前后 , 随着4G的普及以及智能机的大众化 , 互联网娱乐行业迎来了一次流量红利时期 , 在这个时期 , 各种资讯、视频、直播、社交等软件如雨后春笋般冒出 , 大量的用户开始涌入 。 在当时只要是有稍微优质的内容输出 , 就能为作者或是整个平台带来巨大的流量 。
行业发展方向流量红利消失 , 用户增长陷入瓶颈
但是到了2020年 , 流量红利的时代已经过去许久 , 虽然内容还是主要的内核 , 但是内容同质化严重 , 用户逐渐进入疲劳期 。 同时由于整体市场格局的明朗化 , 各家企业之间的竞争与压力也逐渐变大 。
云原生数据湖解决方案打破数据孤岛,大数据驱动互娱行业发展文章插图
流量红利的消失 , 企业增长放缓 , 企业整体拉新成本变高 , 留存客户难度变大 。 同时由于国家对于内容审核的条件逐渐收紧与明细化 , 单靠人工已经无法应对大规模的内容审核 , 只能通过机器 , 依赖技术来达到监管合规的要求 , 但如此操作势必会增加企业的运营成本 , 造成更大资源的投入 。
面临的痛点大数据驱动行业发展 , 但如何利用好数据成难题
相信大家都会有过这种体验 , 在我们浏览某些短视频网站时 , 若是随手点赞或评论了某几个相同类型的视频后 , 之后你刷到该类型视频的次数会大大增加 。 其实这就是企业通过大数据来推测并匹配我们的兴趣爱好 , 针对每个不同个体的用户 , 为其定制个性化的内容推荐 。
云原生数据湖解决方案打破数据孤岛,大数据驱动互娱行业发展文章插图
在大数据的驱动下 , 企业可以精确地对相关用户进行筛选 , 为其定制个性化的内容推荐 , 但是在大数据系统构建的时候 , 很多企业又遇到各种各样的技术挑战 。
由于数据源采集的方式和存储方式的不同 , 往往会形成数据孤岛的现象 , 同一用户的数据可能会有好几种表现和存储的方式 , 如果企业要将这部分的数据进行分析 , 就需要将数据进行转换并在多个数据孤岛之间反复拷贝 。
同时由于互联网具备高时效性与高度开放性 , 可能会出现大量用户在某个时间段内同时涌入某个软件 , 尤其是一些社会性的热点出现时 , 对于企业的服务器将会是一个巨大的考验 。 按照传统的处理方法 , 企业往往需要预留大量的空间来应对不同时期的流量 , 但是该种模式还是太过于缺乏灵活性 , 大多数服务器空间在非热点时期只能白白闲置 , 极易引起IT资源的浪费增加企业运营成本 。
数据湖解决方案阿里云数据湖解决方案打破数据孤岛 , 全面提升资源利用率
云原生数据湖解决方案打破数据孤岛,大数据驱动互娱行业发展文章插图
数据湖是以集中、统一方式存储各种类型数据 , 数据湖可以与多种计算引擎直接对接 , 我们使用OSS作为数据湖底座 , 数据统一存储在OSS中 , 有效消除了数据孤岛现象 , 多种计算与处理分析引擎能够直接对存储在数据湖中的数据进行处理与分析 , 避免数据在不同引擎中反复复制 , 减少了不必要的资源损耗 。
数据湖的存储基座OSS提供了高可用性和可靠性保障 , 端到端的解决了海量数据的存储、管理问题 。 直接对接多种数据输入源 , 数据可以按照最原始形态直接写入到OSS , 无须在终端做任何处理 , 减轻终端设备负载 。 OSS提供的互联网直接访问特性 , 极大简化数据传输的通路 , 无须经过各种代理 , 就可以实现数据的直接存取 。
数据湖采用存储与计算解耦合架构 , 让计算、存储资源具备更好的扩展性 , 极大降低运维管理难度、提升资源利用率 。
无论是点播、直播录制、日志分析、资讯分发等典型的互娱场景 , 采用数据湖方案 , 相关数据都可以按照统一方式存储在OSS , 并通过阿里云的计算引擎 , 比如EMR 、Max Compute等产品与对象存储OSS结合 , 直接对存储的数据进行处理 , 处理后的结果数据有可以持久化存储到数据湖中 , 再比如DLA提供的Serverless 化的SQL(Presto)和Serverless 化的Spark引擎 , 提供job级别的弹性计算能力 , 用户成本零浪费 , 帮助用户集中精力专注于业务实现逻辑 , 快速实现数据变现 。 阿里云数据湖解决方案 , 帮助企业释放最大的数据价值 , 让大数据的沉淀、存储、处理、分析更加简便快捷 , 帮助企业快速完成现有业务的迭代升级与重构 , 让企业在行业占有一席之地 。