データ転送ミドルウェア勉強会参加メモ

キャンセル待ち25番目で絶対無理だろうと思っていたら当日の午前10時過ぎに繰り上げで参加できることになったので、

データ転送ミドルウェア勉強会 - dots.[ドッツ]

に急遽参加したのでメモ。 まさか参加できると思わなかったのでノートPCを持っておらず、nexus7でひたすらメモ取ったのでフリッカー入力のレベル向上につながった2時間であった。

『バルクデータロードツール「Embulk」リリース 〜 fluentdの柔軟性と堅牢性をバルクでも』

Embulk, an open-source plugin-based parallel bulk data loader

話者はトレジャーデータ創設者かつ多数のOSSに関する活動でも著名な古橋さん。

embulk/embulk · GitHub

コードはこちら。デザインについては、fluentdのバッチ版という感じ。 SIerをしていると壮大な構成のIFサーバ群&お手製データローダーというものを多数見てきていて問題意識をもっていたのでうまく成長するといいなぁと思った。

  • Input
  • Decode
  • クレンジング
  • エラーハンドリング(リトライ)
  • 転送処理の並列度
  • 転送処理に使うプロセッシング機構
  • Encode
  • Output

等のデータ転送にありがちなさまざまな要素をうまく抽象化して自由に組み合わせるようにしよう、という思想のようだ。

どのあたりの用途に最初に挿すといいのかなぁ。

個人的には Apache Kafka -> HDFS への書き込みを行う Camus という Hadoop distcpのKafka版みたいなツール(というかMRv1ジョブ)が使いにくかったので、そこがうまく動いたらすぐに飛びつきたいかも..。 (distcpを完全にembulkで代替実装してみるのも面白いかも。)

ただ、リストに乗ってるサイト全てからFTPでデータとって失敗したところだけResumeできるセットとかの方が嬉しい気もする。

エンタープライズレベルの送達管理とか言い出すとOutputとInput両方から仕掛り管理みたいなことをしないといけないとか色々と難しそう。

しかし、一昔前までメッセージングのシステムだと思っていたものが次々とプロセッシング機能をもったり、永続化機構を持ったりしてきてややこしいなぁ。

なお、embulkはembark((荷物等を)乗船させる)にbulkロードのbulkをかけた造語とのこと。

実装言語がJavaなのは個人的には嬉しい。あと、guess機能とかで自動的にスキーマ抽出したりDecodeしてくれたりと導入を容易にしてあるのとか、やり方うまいなと感じた。

『世界で利用されるファイル転送ツールHULFT

資料の公開はまだされていないみたい。話者はセゾン情報システムズの方(当初発表予定の方が病欠ということで代理でこられたそう。)

fluentdやembulkが柔軟な粘土のようなフレームワークとしたらHULFTは硬質的な一枚岩を目指したようなガチンコエンタープライズミドルウェアという印象。

20年間、さまざまな逡巡を繰り返しながら「ファイル転送」という部分のみを追い続けたという話にはある種の畏怖を感じざるを得なかった。

作ってる人たちはどのような破壊的イノベーションを持ってすれば、HULFTのような鉄壁の防御を崩せるかとか逆に考えたりしているのだろうか。

Fluentd 2015 - v1に向けて

Fluentd - road to v1 -

話者はトレジャーデータの中川さん。 FluentdのAPIを変更することの困難さであるとか、0.10以降に追加された新機能の話等。

(ちょっとこのあたりから気力が尽きていてフリッカー入力したメモの内容が薄い..。)

Fluentdのフィルター機能などがかなりこなれてきており、at-least-onceセマンティクスと組み合わせてうまく制御できるようになっている話など地味に重要な情報が多かった印象。 (matchをたくさん作らずにフィルター処理をパイプラインで実行させられるらしい。)

td-agentも最新版を使ってほしいとのことだった。なお、googleナノ秒間隔でのデータ転送を求めていてどうしようか悩んでいるのだとか。ナノ秒とか高級言語でどこまで追求できるのだろう。

『H2O - HTTPを、より便利に、より速く』

H2O - making HTTP better

話者はディー・エヌ・エーの奥一穂さん。

非常に多種多様な用途で使われているHTTPの2.0が普及した先の未来を分かりやすく感じることができる講演だった。

現時点でnginxより2倍近い性能を出していたり、SSL周りの機能がやたらいっぱいあったりと勢いを感じるプロダクトという印象。

個人的には設定がYAMLでかけるのが最高と感じた。 WAN側を流れるデータはIoT向けの軽量プロトコル以外はHTTPのみみたいな世界になるのだろうか。

懇親会

これでもかというくらいのビールとピザがトレジャーデータからのスポンサードで振舞われた!ビールも発泡酒とかじゃなくて恵比寿とか一番しぼりとか。すごい。会場もピッカピカだし、ソフトドリンクも無料だし。

関係者の方々どうもありがとうございました。