研究テーマ

主にデータ工学分野の研究に取り組んでいます.現在は大量データのマイニングに興味を持っています.

2006年7月−現在      データストリームからの知識発見
2003年6月−2006年3月  IP-SANを利用した遠隔ストレージアクセスの性能向上

データストリームからの知識発見

データストリームとは,ネットワークから大量に流れてくるデータを指します. ネットワークの高速化やストレージの大容量化に伴い,様々な分野で大量のデータが 発生するようになりました.例えば,Webサイトを訪問するたびにWebサーバに蓄積される アクセスログ,これもデータストリームです.リアルタイムアプリケーションなどの登場により, データストリームを到着と同時に即座に分析し,情報を抽出する需要が高まり, これらを研究するストリームマイニングが発展してきました. ストリームマイニングでは,データストリームをリアルタイムに処理することが求められるため, データをディスクに保存するのではなく,メモリ上で処理を行ないます. そのため,いかに省メモリで高速に処理できるか,また,蓄積されたデータを処理する時のように 精度を保つことができるか,が大きな課題となります.本テーマでは,複数のデータストリームに 共通するパターン(類似部分シーケンス)を検出する研究に取り組んできます. これは,Webのクリックストリームでは同じアクセスパターンを持つユーザを見つけることで ユーザをクラスタリングする,また,センサネットワークにおいては同じ挙動を示すセンサを 見つけることでセンサのタグ付けを行なう,といったことに利用することができます.

IP-SANを利用したストレージアクセスにおける性能向上

近年のストレージの進歩は目覚しく,大容量のストレージが低価格で入手できるようになりました. これまでストレージはサーバと直接接続するDAS(Direct Attached Strage)という形態で 管理されてきました.しかし,システム規模が拡大すれば必要な情報がどこにあるかが正確に 把握できず,効率的な管理が困難になります.そこで,増加し続けるデータの効率的な管理を 実現する手段としてSAN(Storage Area Network)が注目されるようになりました. SANはサーバとストレージを結ぶ専用のネットワークのことで,分散されたサーバごとに占有されている ストレージ機器をネットワーク上で統合,集約し,一元的に管理することが可能となります. このSANの中で,既存のTCP/IPネットワークを用いて構築されるSANはIP-SANと呼ばれ, その代表的な通信プロトコルにiSCSIがあります.iSCSIはSCSIプロトコルをTCP/IPパケット内に カプセル化してネットワークに転送する技術であり,iSCSIを用いることで広域IP-SANが 用意に構築できるため,ディザスタリカバリやデータバックアップのためのストレージ管理手段として 利用されることが期待されます.しかし,iSCSIは複雑なプロトコルスタックを構成することによる 性能劣化が指摘されています.本テーマでは,iSCSIを用いたストレージアクセスの性能を 向上させるため,通信においてEnd-to-Endの通信を保証するTCP層の振舞を把握し, パラメータを調節することで効率的な通信を実現する研究に取り組みました.

matico's website MENU