Tech & Science 2017.12.25 12:07 Apache Airflow でタスクスケジューリングしてみた ~Airflowによって開発負荷が変わる~ Airflowを導入することでエンジニアは処理本体の開発に集中できる 分析業務に限らず定常的な処理はバッチ処理として纏めることは多いと思います。そして、バッチ処理も実行するタイミングが決まったら、自動化システムとしてバッチ処理をスケジュー...
Tech & Science 2018.01.30 22:33 Apache Airflow でタスクスケジューリングしてみた ~公式ドキュメントの読み解き方~ Airflow公式ドキュメントは難解。重要ポイントから先に読み解こう 前回、タスクスケジューラーの必要性とAirflowの概要やメリットについてご紹介しました。しかし、「とりあえず触ってみよう!」っと思ってもAirflow公式ドキュメント...
Tech & Science 2018.02.24 13:36 Apache Airflow でタスクスケジューリングしてみた ~ログを退避させる~ 外部データベースに切り替えて負荷分散とリスク回避を行う 前回までは実際に開発した経験からAirflowのジョブ作成について説明しました。暫くしてから運用関係のご報告を...っと考えていたのですが、本番稼働してまだ1ヵ月ちょっとですが早くも...
Tech & Science 2020.02.10 09:06 Cloud Composer と GKE を活用して機械学習のワークフローを構築する GKE を効率的に使うために 弊社の機械学習基盤では、ワークフロー管理ツールとして Cloud Composer (Airflow) を利用しており、機械学習タスクは別の Google Kubernetes Engine (以下、 ...
Tech & Science 2020.04.13 08:07 機械学習基盤における Cloud Dataflow の活用 Cloud Dataflow の使い所 Cloud Dataflow は GCP で提供されているサービスの一つで、フルマネージドな環境で ETL 処理を実行することができます。バッチ処理とストリーミング処理を統一的に扱うことのでき...
Tech & Science 2014.12.23 09:04 Python+Anaconda+Eclipseのインストール手順/PythonとRのビッグデータ統計分析の比較 第2回 AnacondaとEclipseの導入・連携の手順 前回の記事では、統計モデルを構築する上でRの他にPythonを利用する方法があることや、その環境を構築する上で必要となるモジュール群の概要を説明しました。今回は、AnacondaとEcl...
Tech & Science 2015.02.18 09:10 火事場泥棒・焼け石に水な打者(パ・リーグ)|プロ野球データでクロス集計 with Tableau 第7回 2014年のプロ野球全打席データをクロス集計していきます 2014年のプロ野球の打席データを全量(約6.6万件)手元に置き、さまざまな切り口でクロス集計して、プロ野球全体の打席の傾向を見ていく「プロ野球データでクロス集計 with Tab...
Tech & Science 2015.10.01 08:50 Talendの無償版(TOS)と有償版(Enterprise)の違い|Talend Open Studio によるビッグデータ分析(第9回) 基本的なバッチ処理の開発なら無償版で十分。チーム開発や処理速度を求めるなら有償版が必要 今回まで様々なTalendの機能について、ご紹介してきました。これらの機能は、全て無償のTalend Open Studio(略称:TOS)のBig ...
Tech & Science 2017.06.12 08:35 データレイクとクラウドサービス ~②クラウドサービスが支えるこれからのデータレイク~ クラウドサービス進化によってデータレイクの運命が決まる 前回、データレイクとはどういうものか、データベースと何が違うかについて触れました。今回はクラウドサービスがデータレイクにどの様に影響しているか、そして、今後、データレイクはどの様に変...
Biz 2020.04.06 09:55 【トチカチ】フロントエンド開発の概要 トチカチのフロントエンド開発について紹介 先月にオープン β を迎えた弊社プロダクトのトチカチについて、フロントエンドのエンジニアがどんなことをやっているのか・どんなことをやっていくのか、これから少しずつ記事で紹介していきたいと思い...