加入收藏 | 设为首页 | 会员中心 | 我要投稿 济宁站长网 (https://www.0537zz.cn/)- 行业智能、边缘计算、专有云、AI硬件、5G!
当前位置: 首页 > 站长资讯 > 外闻 > 正文

我被“非结构化数据包围了”

发布时间:2021-03-23 09:50:27 所属栏目:外闻 来源:互联网
导读:当前,数据技术及产品部对结构化数据处理和应用已经具备了成熟的技术以及产品方案。为了应对日益增长的非结构化数据诉求,非结构化数据体系通过覆盖非结构化数据规范、数据设计、算法能力、服务能力等来解决这一问题,该体系是对OneData体系的非结构化数据的

当前,数据技术及产品部对结构化数据处理和应用已经具备了成熟的技术以及产品方案。为了应对日益增长的非结构化数据诉求,非结构化数据体系通过覆盖非结构化数据规范、数据设计、算法能力、服务能力等来解决这一问题,该体系是对OneData体系的非结构化数据的补充和完善。已经赋能了集团内很多业务取得了非常好的效果,而这只是刚刚开始。

非结构化数据概述

“非结构化数据”是什么?相较于记录了生产、业务、交易和客户信息等的结构化数据,非结构化的信息涵盖了更为广泛的内容。非结构化数据指的是:数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片、XML、 HTML、各类报表、图像和音频/视频信息等。

相对于结构化数据,非结构化数据具有以下特点:数据存储占比高、数据格式多样、结构不标准且复杂、信息量丰富、处理门槛高。

当前行业公认:非结构化数据占数据总量的80%以上。结构化数据仅占到全部数据量的20%,其余80%都是以文件形式存在的非结构化和半结构化数据,非结构化数据包含各种办公文档、图片、视频、音频、设计文档、日志文件、机器数据等。


 

结构化数据没有预定义的数据模型,不方便用数据库二维逻辑表来表现。 下面对比一下结构化数据和非结构化数据的区别:

结构化数据,是指由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理。

结构化数据格式形式如图下:

(编辑:济宁站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读