調査の意図
- カラムの統計値など、メタデータの拡充と管理がしたい
- LyftのamundsenやLinkedinのdatahubのようなものはデカすぎるかつ、将来的にはGCPのData Catalogが同等の機能を有するので、できれば避けたい
- コチラ に詳しくまとめられていた。ありがたい
- data catalogのtagを使うと任意のメタデータを設定できそうなので調べてみる
Tag
- 型ありのメタデータをテーブルやカラムに付与可能
- tag templateを設定しないと付与できない
Tag template
- templateを作った上で、tableもしくはcolumnに付与する
- 複数のテンプレートを付与できる
- テンプレートはあとでフィールド追加・削除可能
- テンプレートはあとでREQUIRED制約を外すことが可能
- 逆は不可能
- 削除は、テンプレート付与済みのテーブル・カラムにも影響を与える
- 設定した値は、catalogの対象テーブル上でのみ閲覧可能。グラフ化などもないので、可視化はかなり弱い
- APIで操作可能
一旦の結論
- Data Catalogを、LyftのamundsenやLinkedinのdatahubのような本格的なメタデータ管理として使うのはまだ難しそう。
- Data Catalogにメタデータを集中しつつ、メタデータクローラーとビューアを簡易なもので別建てで作るのが妥当か
Top comments (0)