数据分析不是个事儿

2024-10-16 07:26

先说个行业背景。最近几年,企业都在搞数字化建设、数字化转型,进行的可以说是如火如荼。产出的方案和数据架构倒是不少,却殊不知都隐藏着诸多痛点,其中的一个比较突出的问题就是数据的敏捷服务问题。

数据的敏捷服务有哪些问题呢?首先,数据库架构太复杂,数据库供应商更是五花八门,简直就是一个数据的“大杂烩”。面对如此复杂的情况,企业就不得不开高薪找一些不同开发语言的工程师进行开发。

开发本身没问题,但开发之后就引发了一系列棘手的问题。就拿调用 API 接口来说吧,API的稳定性可以说是最难保证的,此外,数据的获取也是比较麻烦,需要开发团队开发数据接口,业务需求不同,数据接口不同,这工作量就可想而知了。

所以痛点怎么解决呢?数据服务这个概念就出来了。什么是数据服务?数据为谁服务?数据怎么服务?今天这篇文章就和大家一起深入探讨数据服务这一概念,希望能对大家有所帮助!

一、数据服务的概念

数据服务其实是个跨界概念,它与几个领域像数据集成、全生命周期API管理、DaaS、EiPaaS(后续研究分析)都有关联。说实话,数据服务的一个核心点就是将数据作为一种商品提供给不同的系统和用户,而且这种商品是按需获取的。

再说白一点,数据服务=数据即服务,这种服务应该属于是SVIP的高规格服务,不问来源,不问服务的类型,像聚合、数据质量管理、数据清洗等等完全没问题。对于提供商来说,不管和消费者在地理上或者组织上有没有分离,只要用户有需求,就根据具体的需求把数据提供给他们。

那数据服务这个炫酷、高大上的概念为什么能落地呢?其实主要有两个原因:面向服务的架构(SOA)和广泛应用的 API。

二、数据服务的子场景

1. 数据发布

在过去,数据部门产出了海量数据,但是如何能方便高效地开放出去,是一个难题。在没有数据服务的年代,数据开放的方式都是非常简单、粗暴的,一般是直接将数据导出给对方。这种方式不仅低效,还带来了安全隐患等诸多问题。现在有了数据服务,直接实现内部业务系统开放数据,对于平台开发的标准数据,用户可以通过简单配置封装为 API 资产进行统一管理和发布。更为重要的是,用户仅仅使用单一的数据开发工具,就可以完成数据开发场景的闭环,这里的闭环是指在企业内从数据采集到数据加工,再到数据分享的一整条链路。这就好比搭建了一条数据流通的高速公路,让数据在企业内顺畅地流动,可以说是非常方便。

2. 数据写入

Gartner提出了一个重要观点,所有集成挑战都可以分解为三种集成模式的某种组合。

  • 模式一:数据一致性集成
  • 模式二:多步骤流程集成
  • 模式三:创建组合服务

这三种模式都比较简单,就不给大家过多解释了。这里为什么讲数据集成呢?因为数据服务通过 API 接口实时接入数据,可以说是进一步丰富了数据采集的方式,解决了大部分的上述的问题。

此外,当数据服务与流式ETL相结合时,能够实现解析处理逻辑和写入目标端的灵活自定义。这意味着什么呢?换句话说就是企业说了算。企业可以根据自身的业务需求,灵活地设定数据的解析规则和写入目标。

然而,这种结合方式并非十全十美,它存在一定的局限性,它的局限性就体现在依赖于流式ETL(实时计算)模块。这就如同一辆高性能的汽车,虽然具备强大的行驶能力,但必须依赖特定的燃料才能正常运转。如果流式ETL模块出现问题或者性能不足,可能会影响整个数据服务与实时数据接入的效果,进而对企业的数据处理和业务运营产生不利影响。

3. 数据编排

用户可以通过可视化开发,实现云上云下少量数据实时灵活编排和流程应用的构建。从产品融合角度来看,在体验数据开发服务的同时,还可以搭配一些无代码应用搭建平台(如简道云)一起使用,实时接收数据进行自定义处理。

4. 数据订阅推送

大家要明确的一点是用户或者说数据的消费者的数据消费需求是多样化的,对于数据消费者而言,数据服务的优势就在于一个词:便捷性。通过数据服务的简单配置就能满足自己的需求,而对于数据提供者来说,数据发布的时机完全由数据提供者主导。这种机制可以看作是一种对于数据的有效管控。同时,如果用户有实时数据的需求,同样可以通过数据服务的简单配置满足大屏等业务系统的需求。

还搞不懂数据服务是什么?这个数据服务工具要收藏好!

然而,值得注意的一点是在实时数据推送服务方面,灵活的推送方式还是依赖于流式 ETL(实时计算)模块的开发。换句话说,如果流式 ETL 模块的开发不够完善,可能会导致一系列问题,包括实时数据推送的延迟、数据丢失或者推送不准确等等,自然而然,就会影响到数据消费者对实时数据的使用和业务系统的正常运行。

总之,数据服务的这四个子场景相互关联、相互补充,共同构成了数据服务的完整体系。

三、数据服务工具推荐

市面上与数据服务相关的工具其实也不少,像FineDataLink、Tableau、Informatica PowerCenter等等,今天这篇文章就不给各位上盘点了,先重点给大家介绍我平时常用的一款工具——FineDataLink,其实FineDataLink的应用场景不外乎是2种:

  • 企业安全规范要求,不允许直连业务库,代码开发接口效率低,人工传输易出错。
  • 缺乏安全的数据共享机制,随着数据消费端增加,IT 出现重复造轮子的倾向。

而FDL的数据服务提供了数据的共享能力,将加工、融合后的数据封装发布为规范化 API 接口数据,供外部系统调用

FDL使用链接:「链接」

那么下面我们以数据提供商的视角给大家演示一下如何使用FineDataLink 调用已发布的 API:

1. 准备工作

准备工作就是调用者需要获得 API 的使用权限。首先你要有权限才能调用。

2. FDL 中调用生成的 API

1)点击「数据开发」,新建一个定时任务。

2)由于 2.3 节创建的 API 中,是从 demotest 数据库的「S订单数据」表中,取出货主地区为参数 area 的数据,所以我们需要先给 area 赋值。

点击「参数列表」,生成参数 area ,值为「华东」。如下图所示:

3)拖入「数据同步」节点,输入 API 相关信息,调用接口。如下图所示:

Body 内容可直接复制本文 2.3.3 节中的 Body 内容,area 的值改为${area}即可。

点击「数据预览」,如下图所示:

若在响应体处理中输入data,可解析 data 字段。如下图所示:

用户也可以拖入「数据转换」节点,拖入「API输入」算子获取API数据,再拖入「JSON解析」算子解析 data 字段。

通过对数据服务的概念的相关解析和数据服务工具的演示,相信大家对于数据服务的概念有了更深层次的理解,如果大家还有关于数据服务的相关疑问或者寻求数据服务的解决方案,可以点击下方卡片进行咨询!
https://s./ieied 帆软通行证登录