一文读懂元数据管理!(定义、类型、用途和示例)

文 | 商业智能BI相关文章 阅读次数:752 次浏览
2023-03-14 15:49:09

作者:Chiradeep BasuMallick

编译:帆软数据应用研究院-grace

全文共4457字,建议阅读12分钟

01什么是元数据?

元数据是关于数据的数据,它实质上封装了高度结构化字段中有关数据资产的不同属性、历史记录、来源、版本和其他信息,主要用于跟踪、分类和分析。

大致定义元数据为提供有关其他内容的信息的数据,但不提供有关数据实质的信息,例如图片本身或文本消息的内容。它可以帮助用户理解数据的含义,对于确保遵守法规和数据治理计划至关重要。

元数据提供数据的来源、含义、位置、所有权和创建等信息。例如,数字图像中的元数据可能包含其大小、分辨率、创建时间和颜色深度等信息。它有助于数据的分类、组织、标记、排序和搜索。

元数据存储库是存储和管理元数据的数据库。应向数据库提供内容,以确保按预期使用并适当识别内容,例如,数字图像集合的数据库。

以下是元数据的功能:

组织和描述:元数据描述和排序存储库中的数据资源。存储库中的信息根据其受众或主题进行组织。它还通过使用数据库存储的信息动态构造页面来分层组织。专家可以通过注册、编目和索引程序生成新的元数据。

搜索和检索:适当的描述性元数据简化了用户查找和获取必要的元数据和数据资源信息的过程。它允许对相似的资源进行分组,并区分不同的资源。

利用率和保留:元数据有助于跟踪数据资源的生命周期。它监视修改、权限管理和版本管理。为了保证其持续可用性,数据资源应公开给持续保存制度,并进行刷新、迁移和完整性检查等操作。

信息创建、多版本控制和重用:可以开发资源的各种迭代,用于保存、研究或产品开发。数字化仪应包括资源的管理和描述性元数据。元数据对于保存和使材料在未来可访问至关重要。资源的保存和维护需要独特的方面来追踪数字对象的来源并描述其物理特性。

促进互操作性:使用已建立的元数据方案、标准化的传输机制以及方案和 API 之间的交叉走道,可以轻松共享元数据收集和跨系统搜索等资源。

但是,元数据确实带来了一些挑战。组织可能报告几乎没有投资回报,因此更愿意坚持使用电子表格等传统方法,而不是适当的数据库管理系统(DBMS)。此外,它分散在大型组织中难以使用的形式中,例如数据库和Excel工作表。以这种形式存储的元数据很难跟踪;有时,它甚至没有更新。

02元数据管理的优势

以下是使用专用软件集中元数据的好处:

集中式存储库可能包含报告和配置等信息。此数据可能存储在受安全密钥保护的文件或文件夹中。安全密钥的存在可确保对文件的访问受到限制,并为数据提供更高的安全性。

存储库提高了运营效率和管理效率。用户可以在一个位置检索、访问和分析来自多个来源的数据,从而提高工作效率。

集中式元数据还可以节省成本和时间。执行维护的时间和精力更少,便于更准确的数据分析和跟踪。

它提供了一个支持模型数据库,多个用户可以在其中提供他们的见解。

03 6种类型的元数据

元数据有很多类型的,具体取决于其功能和来源。需要注意的六种关键元数据类型包括:

1、结构元数据

结构元数据提供了有价值的信息,有助于建立对象之间的关系。这使用户能够有效地理解和利用数据资源。结构元数据还提供有关不同数据资源之间的层次结构的信息。这可能包括目录、页面、章节和章节编号。

其主要目的是增强所收集数据的显示和导航,这可以通过指定页面图形顺序的翻页程序来促进。它受到如何将照片提供给用户并保存在存储库中的影响。

2、描述性元数据

描述性元数据为发现和标识数据资源提供了有用的信息。它描述了资源的内容、时间、地点和人员。它由有关数据的内容和上下文的信息组成。它是有组织的,并且通常遵循一个或多个公认的标准方案,如都柏林核心或 MARC。它还可以定义资源的物理特征,例如其介质类型和维度。

它可以帮助用户在系统级别搜索和检索信息。在 Web 级别,它使用户能够发现资源,例如,通过超链接文档。

3、保存元数据

保存元数据是指与馆藏和信息资源的保藏管理相关的信息。它涉及保存资源的物理和数字版本的过程的文档,并包含随着时间的推移管理和保护数字资产的所有必要信息。

在数字存储库中,保存元数据可能涉及权利管理,并包含授权此类行动的权利持有人的信息。它借鉴了其他结构,例如结构和管理元数据。它主要与资源提交到存储库后对资源执行的分析和操作相关联。

4、管理元数据

管理元数据提供在管理资源时有用的信息。它提供与治理、访问控制和安全性相关的信息。它包括有关版权信息、权利管理和许可协议的技术数据。它可能包括有关作品创作和质量控制、权利管理、访问控制、用户要求和保存行动信息的技术数据

它受基于项目当地要求的项目特定程序的约束,可能包含合同协议和付款信息。它包括保存和技术知识。可以使用管理元数据的存档策略对资源进行内部管理。

5、来源元数据

来源元数据提供有关数据资源来源的有用信息。它包括有关所有权、数据可能已经历的任何转换、数据的使用情况以及数据资源的存档的信息。此信息有助于跟踪资源的生命周期。

每当创建数据集的新版本时,都会生成来源元数据,并指示不同版本数据对象之间的关系。这允许用户查询版本之间的关系,并包括数据资源上的细粒度或粗粒度来源数据。

6、定义元数据

定义元数据是指提供通用词汇的元数据,该词汇表有助于对数据含义的共同理解。数据的含义包括有关数据定义、控制数据上下文的规则和计算的信息。它还可能包括有关创建派生数据时使用的逻辑的信息,以完全理解其含义。

定义元数据分为语义和示意图。您可以使用文本描述或词汇表在语义上描述结构化和非结构化数据集。数据库架构可以呈现结构化数据集。

04 6种元数据的使用

人们可以以各种方式使用各种形式的元数据。以下是元数据在组织中的主要应用:

1、数据库管理

数据库管理系统 (DBMS) 中的元数据由列名和附加到数据片段的行号组成。SQL 标准提供了一种标准化的方法来访问称为模式的元数据;但是,并非所有数据库都实现此方法。元数据使组织、解释和请求数据变得容易。

元数据可以是数据库中的目录,允许用户轻松地按类型对数据进行排序和过滤,并在不同数据集之间建立关系。DBMS 目录与数据收集相关联,并包含定义数据库项目的信息。

2、网站搜索

网站嵌入了元数据,这会显着影响其排名和成功。构建网页时,包含元数据详细信息(例如元标题和元描述)非常重要。元标题简要描述了页面的主题,让读者预览预期内容。

元描述提供了有关页面内容的更多信息,尽管它很简短。元标记仅显示在网页代码中,可帮助搜索引擎对网页进行分类。搜索引擎读取此元数据以确定关键字并使用它来对网站进行分类

3、社交媒体

社交媒体中的元数据允许用户更好地控制他们希望在Facebook或Twitter等平台上共享内容的方式。当用户优化他们的内容时,他们从他们的帖子中获得的互动比从没有优化的帖子中获得的更多。

例如,当用户在Facebook上发布链接时,它会提取元数据,例如帖子标题,帖子和特色图片的简要描述,帖子的URL以及网站的名称。用户可以利用Facebook上的Open Graph和Twitter上的Twitter Cards来优化和确定他们的帖子的显示方式。

4、标记语言

标记语言允许用户识别文档的各个元素,例如段落或页眉。它们包括标准的通用标记语言 (SGML) 或可扩展标记语言 (XML)。SGML允许共享机器可读的文档。XML 由标准化规则组成,用于将信息附加到文本以使其可读。

它的工作原理是将文本块(如单词、句子或段落)包装在描述它们之间内容的标签中。标记内容允许用户在许多不同的文档中搜索关键字。

5、消费者跟踪应用

零售和在线购物网站通常使用元数据来跟踪消费者的习惯和活动。他们收集法律允许的任何数据,例如消费者的设备类型、位置、购买、点击次数和访问网站的时间。

利用这些信息,他们创建消费者的偏好、联想和习惯的图片,并将其用于向他们推销他们的产品。这些信息还可以细分消费者并向他们发送有针对性的广告。同样,政府可以使用网页和电子邮件中的元数据来监控网络活动。这些信息可用于大规模监测。

6、信息分类

分类涉及逻辑排列信息,以便在需要时找到它。将此信息放入类或类别称为分类,与项目关联的数据是元数据。用户可以将此信息嵌入到内容或外部内容管理系统中。

了解元数据对于创建有效的内容管理系统 (CMS) 至关重要。在分类法中,受控词汇表可以促进对预期目的的理解。元数据标记可以帮助资源发现并改进资源组织。正确分类的信息使用户能够轻松分析和与数据交互。

04 6种元数据示例

现在我们已经了解了元数据的关键用途,这里有几个例子来进一步说明它的应用。

1、文档元数据

文档元数据提供有关文档的其他信息,以获取其他上下文。此信息在分类、搜索和检索中很有用。元数据包括文档作者、大小和标题等详细信息。

标签使用户能够快速对文档进行分类和分类。信息标记在文档上提供附加注释,而安全标记允许受限访问。文档版本的元数据使用户能够跟踪更改并查看有关文档创建和上次修改日期的信息。

可靠的内容管理系统和文档管理系统支持文档链接。这些链接可以在一个或多个文档之间建立关系。

2、社交元数据

社交元数据是指除内容创建者之外的其他人添加到内容中的数据,例如标签、评级和评论。

Open Graph 上的 Facebook 元标记由帖子标题、帖子和特色图片的简要描述、帖子的 URL 和网站名称等信息组成。Twitter 卡片上的 Twitter 元标记由标题、帖子的简要描述、图像缩略图和 Twitter 帐户归属等信息组成。这些标记嵌入在 HTML 代码中。

3、HTML 中的元数据

HTML代码嵌入到网站中,为网站提供额外的基本信息。元标记用于提供此附加信息。元标记放置在文档的标题内。他们可以拥有网站标题和作者等信息。

元标记可用于指定与文档相关的重要关键字。关键字在为网页编制索引以进行搜索时对搜索引擎很有用。还可以使用元标记来提供文档的简短描述。同样,它们可用于提供有关上次更新文档的时间的信息。

4、关系数据库中的元数据

关系数据库用于在称为数据字典的结构中存储和提供对元数据的访问。数据字典保存有关表、列、数据类型、约束、表关系、视图和索引的元数据信息

列保存数据的属性,而行表示具有唯一 ID 的记录(称为键)。每条记录都由相应的属性值组成,这使得在数据点之间建立关系变得容易。外键允许在数据库之间进行数据搜索和操作。

5、电子邮件中的元数据

发送或接收的电子邮件的邮件头由在邮件客户端中不可见的元数据字段组成。电子邮件由元数据组成,例如收到电子邮件的日期和时间——这方面的示例包括发件人、收件人的电子邮件地址、他们的姓名、标题和电子邮件的主题。

它们还可能包含有关文档完整内容的信息,包括和排除 HTML 格式。此外,它还可能包括原始文档上的元数据,包括内容类型、文件大小和下载 URL。还可以包含附加到电子邮件的所有文档的列表以及用于检索它们的 URL,此元数据在电子邮件安全中起着至关重要的作用。

6、地理空间元数据

地理空间元数据描述地理对象,例如地图和数据集。它通常描述地理信息系统 (GIS) 文件的人员、时间、地点、内容、原因和方式。

地理空间元数据的示例包括详细信息,例如数据的创建日期、作者的联系信息、地图投影和坐标系、用于数据的比例、数据上的任何错误以及包含所用各种符号和属性说明的键。它还可能包括用于数据系统的数据库架构、数据复制和许可证信息。

很显然在目前的信息时代,借助类似于FineBI的这些工具,可以让企业加速融入企业数据分析的趋势。备受市场认可的软件其实有很多,选择时必须要结合实际的情况。一般的情况下,都建议选择市面上较主流的产品,比较容易达到好的效果,目前企业数据分析BI软件市场占有率前列的,就是帆软BI软件——FineBI。

定义元数据,数据资源,数据库管理

商业智能BI产品更多介绍: www.finebi.com

相关内容

立即体验 立即体验

在线客服

电话咨询

技术问题

投诉入口

返回顶部