Atlas元数据管理工具

24 Mar 2021

数据仓库元数据管理

元数据(MetaData)狭义的解释是用来描述数据的数据。广义的来看,除了业务逻 辑直接读写处理的那些业务数据,所有其它用来维持整个系统运转所需的信息/数据 都可以叫作元数据。如数据库中表的Schema信息,任务的血缘关系,用户和脚本/ 任务的权限映射关系信息等。

管理元数据的目的,是为了让用户能够更高效的使用数据,也是为了让平台管理人员能更加有效的做好数据的维护管理工作。

但通常这些元数据信息是散落在平台的各个系统,各种流程之中的,它们的管理也可能或多或少可以通过各种子系统自身的工具,方案或流程逻辑来实现。

元数据管理平台很重要的一个功能就是信息的收集,至于收集哪些信息,取决于业务的需求和需要解决的目标问题。

应该收集那些信息,没有绝对的标准,但是对大数据开发平台来说,常见的元数据信息包括:

Atlas简介

Atlas是Hadoop平台元数据框架;
Atlas是一组可扩展的核心基础治理服务,使企业能够有效,高效地满足Hadoop中的 合规性要求,并能与整个企业数据生态系统集成;

Apache Atlas为组织提供了开放的元数据管理和治理功能,以建立数据资产的目录, 对这些资产进行分类和治理,并为IT团队、数据分析团队提供围绕这些数据资产的协 作功能。

Atlas由元数据的收集,存储和查询展示三部分核心组件组成。此外,还会有一个管 理后台对整体元数据的采集流程以及元数据格式定义和服务的部署等各项内容进行配 置管理。

安装配置

Hive血缘关系导入