Tech & Science 2017.12.25 12:07 Apache Airflow でタスクスケジューリングしてみた ~Airflowによって開発負荷が変わる~ Airflowを導入することでエンジニアは処理本体の開発に集中できる 分析業務に限らず定常的な処理はバッチ処理として纏めることは多いと思います。そして、バッチ処理も実行するタイミングが決まったら、自動化システムとしてバッチ処理をスケジュー...
Tech & Science 2018.02.07 14:56 Apache Airflow でタスクスケジューリングしてみた ~タスク開発のポイント~ Airflowのタスク処理はPythonで開発すると便利 前回までは簡単なジョブ処理の作成・実行まででしたが、今回はちょっと応用編です。そのため、Pythonの基礎的なスキルが必要になりますが、Pythonを使うことで「やれること」も多くな...
Tech & Science 2018.02.24 13:36 Apache Airflow でタスクスケジューリングしてみた ~ログを退避させる~ 外部データベースに切り替えて負荷分散とリスク回避を行う 前回までは実際に開発した経験からAirflowのジョブ作成について説明しました。暫くしてから運用関係のご報告を...っと考えていたのですが、本番稼働してまだ1ヵ月ちょっとですが早くも...
Tech & Science 2020.02.10 09:06 Cloud Composer と GKE を活用して機械学習のワークフローを構築する GKE を効率的に使うために 弊社の機械学習基盤では、ワークフロー管理ツールとして Cloud Composer (Airflow) を利用しており、機械学習タスクは別の Google Kubernetes Engine (以下、 ...
Tech & Science 2020.04.13 08:07 機械学習基盤における Cloud Dataflow の活用 Cloud Dataflow の使い所 Cloud Dataflow は GCP で提供されているサービスの一つで、フルマネージドな環境で ETL 処理を実行することができます。バッチ処理とストリーミング処理を統一的に扱うことのでき...
Tech & Science 2015.02.03 09:01 決定木のCARTアルゴリズム|プロ野球データで決定木(Decision Tree) with R 第2回 プロ野球データで決定木を行った結果を公開していきます 本連載では、3回にわたり、プロ野球のデータで実際に決定木を行った事例を紹介していきます。第2回目の今回は、理論編として、決定木とは何かと、決定木の代表的なアルゴリズムであるCARTアル...
Tech & Science 2015.02.17 09:10 火事場泥棒・焼け石に水な打者(セ・リーグ)|プロ野球データでクロス集計 with Tableau 第6回 2014年のプロ野球全打席データをクロス集計していきます 2014年のプロ野球の打席データを全量(約6.6万件)手元に置き、さまざまな切り口でクロス集計して、プロ野球全体の打席の傾向を見ていく「プロ野球データでクロス集計 with Tab...
Tech & Science 2015.04.03 09:08 カラムナー、キューブ、インメモリ…ビックデータ分析におけるデータベースのまとめ|いまさら訊けないビッグデータ分析 データベースの「タイプ」を知ってますか? こんにちは、ギックス技術チームの岩谷です。 先日とある方より「ビッグデータ分析処理で、Tableauはキューブを作成しないからシステムの運用がしやすいって聞いたんだけど、どういう事なのかな?...
Tech & Science 2015.05.19 09:04 「フルマネージド」クラウドサービス~第一回・「フルマネージド(Fully Managed)」とは何か?~ クラウドのサービスは大きく二つに分けられる みなさんは「フルマネージド(Fully Managed)」という言葉を耳にしたことはありますか?今回から計五回の連載で、この言葉の意味とこれからのクラウドサービスについて考えていきたいと思います...
Tech & Science 2015.07.27 08:51 継承によってコードを再利用する|オブジェクト指向プログラミング(OOP)をおさらいしよう(2) 「継承」とは「プログラムコードを再利用する方法」の一つ こんにちは。技術チームの岩谷です。前回からオブジェクト指向プログラミング(OOP)をおさらいする連載をはじめました。今回は第二回としてOOP言語が持つ機能の一つである「継承」について...