NASDAQ上場したTalend社とは? ~これからのビッグデータをリードする企業~/ニュースななめ斬りbyギックス

AUTHOR :   ギックス

Talend社はGartner社のマジック・クアドラントでデータ統合のリーダーに選ばれる企業

クラウドサービスやビッグデータ分析などの業界では、オープンソースコミュニティなどの非営利団体はありますが、各分野をリードする企業の存在は必要不可欠になっています。老舗のMicrosoft社やORACLE社、システム会社としての歴史は10年程度ですがクラウドサービストップのAmazon社など様々あります。その中で最近、日本では馴染みのないTalend社が急速に成長しています。Talend社の製品については、過去に何回か技術的なブログでご紹介しましたが、今回は視点を変えて「企業としてのTalend社」についてご紹介したいと思います。

Talend社とは?

Talend社は2006年に仏国で創業した米国に本社がある企業です。企業名と同じTalendと呼ばれるデータ統合・変換を行うバッチ処理を開発・実行するためのツールを提供している企業です。

Talend社は2016年7月29日にNASDAQ上場にし、先日発表された2016年のGartner(ガートナー)社のマジック・クアドラントでデータ統合のリーダーに位置付けられました。(Gartner社は、IT分野の調査・助言を行う米国の企業であり、ビジョンの完全性(Completeness of Vision)と実行能力(Ability to Execute)の2軸で評価しています)303221_0001

パートナー企業としては富士通やNECなど日本企業もあり、弊社ギックスもオープンソース版のTalend製品のTOSパートナーになっています。

ノンプログラミングでバッチ処理を作れる手軽さ

Talend社が提供するTalendツールには複数の種類がありますが、主力となっているのが「Talend for Data Integration(データ統合)」と「Talend for Big Data(ビッグデータ統合)」の2種類です。また、Talend for Big Data Integration は、Talend for Data Integration の上位機能になっており、Talend for Data Integration の機能は全て Talend for Big Data に含まれています。これから、これらのTalendのデータ統合系ツールについて、今までブログで連載してきた内容を要約してご紹介します。

コンポーネントを設定して繋げるだけでバッチ処理が作れる

データ分析業務では、データを抽出(Extract)し・変換・加工(Transform)し、データベースなどにデータを投入(Load)する場面が頻繁に発生します。これら一連の作業はETL処理と呼ばれ、簡単な処理の場合は、Excelなどを使ってデータ加工することも可能ですが、複雑、または大規模なデータの場合はプログラミングによるバッチ処理開発が行われる場合があります。

しかし、バッチ処理開発のために何人ものプログラマーを常に確保することは企業にとって難しい事ですし、日々、変わっていくデータや分析要件にクイックに対応するのは、プログラミングによるバッチ処理開発には限界があります。これらの問題を解決するのが、ノンプログラミングでバッチ処理開発が行えるETLツールと呼ばれるツールになり、TalendツールもETLツールの1つとして認識されています。

現在、Talend for Big Data は、900以上のコンポーネントと呼ばれるアイコン状の機能をTalendの画面上に配置・設定し、それらを複数のコンポーネントを繋げることで複雑なETL処理をノンプログラミングで開発・実行することが可能です。そして、実行ファイルとしてTalendから独立した形で抜き出すことも可能ですので、Talendが入っていないWindows PC や Linux PC などでもバッチ処理を実行できます。そのため、Talendで開発されたバッチ処理は、サーバーだけでなく、IoTデバイスなどのロースペックな機器にも導入することが可能です。talend6_1

最新のビッグデータテクノロジーに対応するコンポーネント

常に新しいテクノロジが発表され、特にビッグデータ分野のテクノロジーの進歩は非常に早いです。数年前までは不可能だった事が、クラウドサービスや最新のテクノロジーを使うことで早く、安くできる事が多くなってきました。そのため、ETL処理などのバッチ開発ツールも最新のテクノロジーを常に取り入れている必要があります。

Talendは、トレンドとなっている最新のテクノロジーを多く取り入れていて、Apache Hadoop や Apache Spark などの分散処理フレームワーク、Amazon Web Services(通称、AWS)や Google Cloud Platform などのクラウドサービスの機能を多くサポートしています。そのため、Talendの利用者は、最新のテクノロジーをプログラミングスキルなしで使用できるため、非常に導入のハードルを低くすることが可能です。talend6_2

プログラミングによる拡張性

世界にはTalendの競合となるETLツールが多くあります。これらのETLツールとTalendの決定的な違いとして「プログラミングによる拡張性」があります。

どんなに多機能なETLツールであっても万能ではありません。コンポーネントなどのパーツの機能と種類数が有限である以上、「コンポーネント種類 = ツール」の呪縛からは逃げることはできません。しかし、Talendは、内部にプログラムを直接記述することができるため、Talendのコンポーネント以上の機能を実現することが可能です。記述するプログラムは、プログラミング言語ではメジャーなJava言語であるため、技術者の確保も容易です。また、多くの処理をTalendで行えるため、コーディング量もさほど多いものにはなりません。talendsystem

ツールは無償版と有償版の2種類

Talendが提供するツールには、無償版(オープンソース)と有償版の2種類があり、Talend for Data Integration と Talend for Big Data には、それぞれ、Talend Open Studio for Data Integration と Talend Open Studio for Big Data という無償版のTalendがあります。

一般的には、無償版と有償版の2種類のツールを提供している場合、差別化を行うために試用期間として1ヵ月程度の使用期限を設けたり、ダウングレードを行い使える機能や処理できるデータ量に制限を設ける場合が多いです。しかし、Talendの無償版の Talend Open Studio(以下、TOS)は、使用期限や機能制限などはなく、今までご紹介した機能をフルで使用することができ、かつ、実用に十分な機能を持っています。

Talendの有償版は、TOSの機能にチーム開発や大規模なデータを早く処理できる並列分散処理など大規模なシステム開発で需要が出てくる機能が追加されているため、TOSで小規模なバッチ処理開発を行い、生産性の高さを十分理解してから、Talendの有償版の導入を行えると思います。

日本での課題とこれから

Talendは、日本ではあまり導入事例がないように見えますが、クラウドサービスでシステム開発を行っているベンチャー企業ではTOSを中心に多くの導入事例があります。しかし、大手企業を中心に実績があるJP1(日立)や DataSpider のようなバッチ処理開発・実行システムが根付いているため、なかなか、新規の導入が難しいと思います。

また、Talendの日本での導入事例があまり表に出ていないため、「そもそも何ができるか」が分かりにくいところがあると思います。そのため、日本ではAWSなどと協力して、セミナーなどを開催して、技術者にTalendの良さを知ってもらう活動をしているようです。(私もAWS開催のセミナーでTalendを知りました)

これから、クラウドサービスやビッグデータ、IoTの進歩によって、ETLツールの需要が高くなることは間違いありません。そんな時、クイック、かつ、柔軟にバッチ処理開発が行えるTalendが日本でも脚光を浴びる日がすぐそこまでやって来ているかもしれません。

【連載、Talend Open Studio によるビッグデータ分析】
  1. ”Talend”と”RapidMiner Studio”、2つのETLツールを比較してみた
  2. Talendのインストールと初期設定(Windows 8.1編) ~Javaのバージョンに気を付けろ~
  3. Talendで簡単なジョブの作成
  4. フォルダ中のファイルを変換して1つにまとめる
  5. フィルタリングと文字列置換とプログラムによる変換方法
  6. DB間のデータコピーを2つのコンポーネントだけで行う
  7. Amazon Redshiftへのデータインポートを2つのコンポーネントだけで行う
  8. Talendがバッチ処理の開発方法を変える ~スマートな開発を行おう~
  9. Talendの無償版(TOS)と有償版(Enterprise)の違い
  10. TOSを使ってMicrosoft Azure SQL Data Warehouseを操作する
  11. TOSでギガ単位の適切なテストデータを作成する
  12. Web API からの取得結果をデータベースに登録する処理をノンプログラミングで実現する
【関連記事】
SERVICE