开源平台赋能技术革新,数据分析深入业务场景 | 易观开发者深圳站「回放」

11月14日 , 易观开发者日深圳站在航天科技广场成功举行 。 作为今年易观A10数据智能峰会的最后一场 , 本次活动吸引了来自深圳数据领域的技术爱好者参与演讲互动 , 共同分享讨论数据技术发展前沿及行业实践应用 。
开源平台赋能技术革新,数据分析深入业务场景 | 易观开发者深圳站「回放」文章插图
开发者日深圳站活动现场
在本次技术开发者日活动上 , 易观CTO郭炜、易观方舟首席架构师&易观 Argo发起人江振兴、易观数科大数据平台部总监&Apache DolphinScheduler PPMC代立冬、唯修汇技术总监夏彬以及联易融数字科技大数据开发工程师孙朝和等大数据领域的行业专家和一线实践者 , 共同分享各自基于大数据技术发展的洞察认知和实践方法论 。
云原生时代下的技术与数据洞察
近两年 , 云原生能力开始在云上充分显露 。 作为已经大规模普及且高度数据化的领域 , 云原生的发展正在影响着云的走向 。 易观CTO郭炜在开场致辞中指出 , 未来5年 , 大数据中心即将被重构 , 云原生的大数据时代即将来临 。
现在很多业务都需要能够尽快地将结果反馈给用户 , 因此后台对于数据查询的实时性以及自定义性的需求也越来越高 。 在云原生的趋势下 , 大数据的计算、存储、调度、分析等能力也正在逐步向云原生迈进 , 这一点从各领域之下的所诞生的工具就可以得到印证 , 因为有需求才会有工具 。
最后郭炜认为 , 『大数据集群费用只需要一半 , 挖掘算法和查询可以提速 100 倍 , 存储可以跨云、跨平台任意选择计算引擎调用 , 大数据计算任务调度随需而定』这样的大数据计算环境 , 在数据中心即将被重构的今天 , 已经近在眼前 。
海豚调度:Apache DolphinScheduler RoadMap
Apache DolphinScheduler(以下简称为“海豚调度”)自 2019 年 3 月开源 , 8 月进入Apache孵化器后 , 目前已累计有400+公司在生产上使用 。 经过了一年多的发展、开源共建之后 , 海豚调度目前已经发展到了一个新的阶段 。 现场 , 易观数科大数据平台部总监&Apache DolphinScheduler PPMC代立冬分享了近期海豚调度的发展路径 。
代立冬在分享中提到 , 经过社区开发者的反馈 , 目前已经在规划海豚调度的中短期内发展计划 。 首先云原生和容器化的大趋势 , 海豚调度将支持官方Docker版本以及云原生环境下的数据调度;其次在可扩展性方面将向SPI化靠拢 , 实现邮件告警、注册中心、资源存储、全局队列、任务插件、日志存储等多功能的SPI化 , 使整体架构设计保持简洁 , 并实现各个功能与插件之间的相对独立性;第三 , 海豚调度将通过重构Master 的形式减少数据库轮询和线程的使用 , 从而进一步提高性能;最后 , 近期海豚调度将上线任务结果参数传递、任务并发数控制、降低列表依赖性、工作流版本管理等新功能 , 以期能够更好地为开发者服务 。
目前随着社区的发展和设计的迭代 , 海豚调度性能越来越好 , 可靠性越来越高 。 最后代立冬也展望了一下未来社区的发展 , 希望能够有更多的用户和开发者能参与到海豚调度的发展中来 , 一起让它变得更好 。
社区共建 , 让海豚调度发展路线越来越明确
“调度选得好 , 下班回家早;调度用得对 , 半夜安心睡” , 简单的20个字浓缩了海豚调度的能力和愿景 。 社区模式正在使海豚调度的发展路线更加明晰 , 目前海豚调度社区中已经聚集了数千名工程师和400多家使用者 , 其中不乏许多积极贡献者 , 联易融数字科技集团有限公司的大数据开发工程师孙朝和就是其中之一 。
开源平台赋能技术革新,数据分析深入业务场景 | 易观开发者深圳站「回放」文章插图
联易融数字科技集团有限公司的大数据开发工程师孙朝和
为了更好地贴合业务 , 针对实际应用场景的改造是必不可少的 。 越来越多的社区贡献者加入进来 , 从多方面不断优化海豚调度 。 当然 , 技术的发展是无止境的 , 对海豚调度的优化也还在持续进行中 。 孙朝和提到 , 他们团队目前还在基于事件的工作流调度、易用的ClientSDK 这两个方向上努力 , 以便能够满足不同粒度的工作流环境下更加灵活的触发方式的需求 。
迭代更新:新一代用户行为分析产品Argo
易观 Argo 作为易观方舟智能分析组件的免费版 , 一经发布就收获了一大批拥趸者 。 经过了一年的不断优化 , 易观 Argo 的能力又迈上了新台阶 。 开发者日现场 , 易观方舟首席架构师江振兴对 Argo 最新的能力进行了全面阐述 。
Argo目前紧随商业版高效迭代 , 以帮助用户节支提效 。 易观Argo目前已经具备多种丰富的数据分析能力 , 如:每分钟自动更新生成数据报表、多分析模型优化智能路径、基于用户行为等属性自定义创建分群和个性化触达、新版本的可视化埋点能力、留存分析以及多渠道触达的能力等 。