Tech & Science 2017.12.25 12:07 Apache Airflow でタスクスケジューリングしてみた ~Airflowによって開発負荷が変わる~ Airflowを導入することでエンジニアは処理本体の開発に集中できる 分析業務に限らず定常的な処理はバッチ処理として纏めることは多いと思います。そして、バッチ処理も実行するタイミングが決まったら、自動化システムとしてバッチ処理をスケジュー...
Tech & Science 2018.02.07 14:56 Apache Airflow でタスクスケジューリングしてみた ~タスク開発のポイント~ Airflowのタスク処理はPythonで開発すると便利 前回までは簡単なジョブ処理の作成・実行まででしたが、今回はちょっと応用編です。そのため、Pythonの基礎的なスキルが必要になりますが、Pythonを使うことで「やれること」も多くな...
Tech & Science 2018.02.24 13:36 Apache Airflow でタスクスケジューリングしてみた ~ログを退避させる~ 外部データベースに切り替えて負荷分散とリスク回避を行う 前回までは実際に開発した経験からAirflowのジョブ作成について説明しました。暫くしてから運用関係のご報告を...っと考えていたのですが、本番稼働してまだ1ヵ月ちょっとですが早くも...
Tech & Science 2020.02.10 09:06 Cloud Composer と GKE を活用して機械学習のワークフローを構築する GKE を効率的に使うために 弊社の機械学習基盤では、ワークフロー管理ツールとして Cloud Composer (Airflow) を利用しており、機械学習タスクは別の Google Kubernetes Engine (以下、 ...
Tech & Science 2020.04.13 08:07 機械学習基盤における Cloud Dataflow の活用 Cloud Dataflow の使い所 Cloud Dataflow は GCP で提供されているサービスの一つで、フルマネージドな環境で ETL 処理を実行することができます。バッチ処理とストリーミング処理を統一的に扱うことのでき...
Tech & Science 2014.02.10 08:59 ビッグデータ活用事例(9)マーケティング・販売領域-認知系/会社を強くするビッグデータ活用 この連載では「会社を強くする ビッグデータ活用入門 -基本知識から分析の実践まで-」で取り上げたビッグデータやアナリティクスの活用事例を抜粋し、ご紹介していきます。 書籍の中では大きく2つの場合で事例を区分しており、合計8回にわたり、...
Others 2014.12.24 08:59 第12回:小さなPD(CA)∞ってなんだろう?/「会社を強くするビッグデータ活用入門」を振り返る ビューカードの取り組みで成果をあげた小さなPD(CA)∞サイクルのCheck-Act活動 私は2013年の11月下旬に著書「会社を強くするビッグデータ活用入門」を出版致しました。準実用書と言う位置づけで出版しており、商業的...
Tech & Science 2015.03.04 08:49 計算フィールドの利用|プロ野球データでクロス集計with Tableau 第8回 2014年のプロ野球全打席データをクロス集計していきます 2014年のプロ野球の打席データを全量(約6.6万件)手元に置き、さまざまな切り口でクロス集計して、プロ野球全体の打席の傾向を見ていく「プロ野球データでクロス集計 with Tab...
Tech & Science 2015.04.24 15:55 ブラウザで動く新Power BIを使ってみた ブラウザで利用できる新Power BIが提供されている ブラウザで動くPower BIの新バージョンが利用可能になっています。英語版のサイトから新バージョンのPower BIが利用できましたので、試しに使ってみて感じたことをお伝えしていき...
Tech & Science 2015.06.20 09:40 Talendのインストールと初期設定(Windows 8.1編) ~Javaのバージョンに気を付けろ~|Talend Open Studio によるビッグデータ分析(第2回) Talend 5.6は、Java SE 7(JDK7)でないと起動しない! ダウンロードするJavaに気を付けよう 前回は、Talend Open Studio(以下、Talend)とRapidMiner Studioを比較を行い、Tal...