DEV Community

Atsumi
Atsumi

Posted on

Data Catalog Tagについて調べた(2020/04/10)

調査の意図

  • カラムの統計値など、メタデータの拡充と管理がしたい
  • LyftのamundsenやLinkedinのdatahubのようなものはデカすぎるかつ、将来的にはGCPのData Catalogが同等の機能を有するので、できれば避けたい
    • コチラ に詳しくまとめられていた。ありがたい
  • data catalogのtagを使うと任意のメタデータを設定できそうなので調べてみる

Tag

  • 型ありのメタデータをテーブルやカラムに付与可能
  • tag templateを設定しないと付与できない

Tag template

  • templateを作った上で、tableもしくはcolumnに付与する
  • 複数のテンプレートを付与できる
  • テンプレートはあとでフィールド追加・削除可能
  • テンプレートはあとでREQUIRED制約を外すことが可能
    • 逆は不可能
  • 削除は、テンプレート付与済みのテーブル・カラムにも影響を与える
  • 設定した値は、catalogの対象テーブル上でのみ閲覧可能。グラフ化などもないので、可視化はかなり弱い
  • APIで操作可能

一旦の結論

  • Data Catalogを、LyftのamundsenやLinkedinのdatahubのような本格的なメタデータ管理として使うのはまだ難しそう。
  • Data Catalogにメタデータを集中しつつ、メタデータクローラーとビューアを簡易なもので別建てで作るのが妥当か

Top comments (0)