Apache Airflow でタスクスケジューリングしてみた ~ログを退避させる~
外部データベースに切り替えて負荷分散とリスク回避を行う 前回までは実際に開発した経験からAirflowのジョブ作成について説明しました。暫くしてから運用関係のご報告を...っと考えていたのですが、本番稼働してまだ1ヵ月ちょっとですが早くも...
外部データベースに切り替えて負荷分散とリスク回避を行う 前回までは実際に開発した経験からAirflowのジョブ作成について説明しました。暫くしてから運用関係のご報告を...っと考えていたのですが、本番稼働してまだ1ヵ月ちょっとですが早くも...
Airflowのタスク処理はPythonで開発すると便利 前回までは簡単なジョブ処理の作成・実行まででしたが、今回はちょっと応用編です。そのため、Pythonの基礎的なスキルが必要になりますが、Pythonを使うことで「やれること」も多くな...
Airflow公式ドキュメントは難解。重要ポイントから先に読み解こう 前回、タスクスケジューラーの必要性とAirflowの概要やメリットについてご紹介しました。しかし、「とりあえず触ってみよう!」っと思ってもAirflow公式ドキュメント...
分析の試行錯誤フェーズではRedshift。分析の”型”が決まったらBigQuery。 ビッグデータ分析においてデータベースは必要不可欠であることは言うまでもありません。これらのビックデータ向けデータベースの代表格としてオンプレミスではO...
Airflowを導入することでエンジニアは処理本体の開発に集中できる 分析業務に限らず定常的な処理はバッチ処理として纏めることは多いと思います。そして、バッチ処理も実行するタイミングが決まったら、自動化システムとしてバッチ処理をスケジュー...
RDSの機能を使えばRedshiftのデータを使用したGIS環境も構築できる クラウド上のデータベース(クラウドデータベース)は、非常に高性能、かつ安定していながら、費用的や技術的にも容易に環境構築することが可能です。しかし、これらの利点...
本記事は、株式会社ギックスの運営していた分析情報サイト graffe/グラーフ より移設されました(2019/7/1) データベースに求める処理性能は大量アクセス? それとも大量データ? データベースと言っても様々な種類があり、表形式のテー...
フルマネージドのシンプルな Azure Database for PostgreSQL Microsoftのデータベースと言えば”SQL Server”です。そして、SQL Server はオンプレミスだけではなく、Azureクラウドサー...
本記事は、株式会社ギックスの運営していた分析情報サイト graffe/グラーフ より移設されました(2019/7/1) 効率的な試験をしてますか? 数でごまかしていませんか? システム開発やデータ分析結果などでは、できた”成果物”が求められ...
AWS Glue がフルマージドしているのはETLのプロセスではなく動作環境 データ分析ではデータベースを使うことが多く、そのデータベースにデータを入れるためにはETL処理は必要不可欠な処理です。ETL処理をフルスクラッチでプログラミング...