Athenaとは

 一言メモ

S3上のオブジェクトに対して、直接クエリを投入できるサービス。


利点

  • 即時性
    • サーバレスのためすぐにデータのクエリを実行できる。サーバーやDWHの設定や管理が不要。
    • GlueのデータカタログにS3上のデータをテーブルとして登録していたら、すぐにクエリを実行できる

  • 高速性
    • 並列分散処理による高速なクエリ実行が可能。

  • オープン
    • 内部でOSSのPrestoというエンジンを使用しているため、CSV、JSON、ORC、Parquet などのさまざまな標準データフォーマットに対応可能。

  • シンプルな課金体系
    • クエリごとにスキャンされたデータ量に応じた金額が掛かる。クエリを投入しなければ課金は発生しない。
    • 2022年現在、課金は 1 テラバイトごとに 5 USD。
    • データの圧縮、分割、列形式への変換を行うことにより、クエリに対するコストを 30%~90% 削減することが可能。


用途

  • アドホック/ディスカバリー的な分析のように、ワークロードに波があるような(非定常的な)業務。


コメント

このブログの人気の投稿

【論文メモ】A systematic literature review on source code similarity measurement and clone detection: techniques, applications, and challenges

【論文メモ】<2022>コードクローン検索手法の調査

【論文】A Survey on Causal Inference<2021>