現在地
  1. トップページ
  2. 理工ミニレクチャー
  3. 大規模データを対象にした推定問題における高速処理

大規模データを対象にした推定問題における高速処理

加藤 剛(情報理工学科・准教授)

2013年
出典: ソフィアサイテック vol,24

加藤 剛(情報理工学科・准教授)


 スマートフォンやタブレット型コンピュータの普及、および、通信速度の大幅な向上に伴い、インターネットを介した商取引が急速に増えています。インターネット商取引のデータ解析において、異なり数の推定問題と呼ばれるものがあります。異なり数とは、データを構成している異なる要素の数のことです。例えば、羽田発新千歳行きの時刻表で、朝の始発便から7時台までに出発する便を航空会社名ですべて取り出すと、次のような集合ができます。

 出発便は要素の数で10 便ありますが、運行している会社の数は4 社です。したがって、この集合の異なり数は4 になります。

 インターネット商取引では、セキュリティ確保や優良顧客の特定などの観点から、例えば1 日間の総アクセス数について、異なるIP アドレスの数を推定する必要があります。1 日間の総アクセスが、すべて異なるIP アドレスによるものであることはまずありません。お気に入りの商品があるので1 日に何回もアクセスする人のIP アドレスもあり、一見さんのIP アドレスもあるわけです。

 私が上智大学理工学部情報理工学科に着任してから2ヶ月ほど経った2011 年の6 月、上智大学理工学部旧数学科を卒業された方から、大規模なアクセス記録からIPアドレスの異なり数を高速に推定できる方法はないだろうかという打診がありました。この方は、現在、コンサルティング会社の経営をされています。もともと、別の問題で異なり数を効率的に推定する方法を考案されていて、その方法をIP アドレスの異なり数の推定に利用しようというお考えだったようです。ところが、人気のあるインターネット商店では、1 日あたりの総アクセス数が10 億に達することもあるそうです。日単位の時間をかければ、その方が考案された方法でもデータを上手に処理してIP アドレスの異なり数を効率的に推定することができます。けれども、インターネット商取引に関するデータ処理は、速さがとても重要です。もしも頻繁な不正アクセスの攻撃にさらされたとしたならば、異なり数を手がかりにして不正アクセスをするIP アドレスの一群を特定し、一刻も早くそれらのアドレスからのアクセスを遮断しなければならないからです。そこで、すでに考案していた方法を、さらに速度を上げて処理できるようにすることはできないだろうかという問題提起だったのです。

 諸般の事情により、詳しいことをここに書くことはできませんが、その方との共同研究により、処理速度を劇的に向上させる高速近似計算方法を新たに考案することができました。10 億のデータの処理に少なくともまる1 日はかかっていた計算を、8 秒を切る速さで処理できる方法です。商業利用に十分対応できる近似精度も確保しています。まる1 日かかる計算が8 秒に短縮できる高速化とはどのようなものかをロケットの速さを例にして説明すると、次のようになります。

 これまでの計算方法の速度のロケットで地球から月まで行っている間に新しい高速近似計算方法の速度のロケットでは、海王星よりも遠くまで進んでいます

 スマートフォンの爆発的な普及に伴い、インターネット商取引で飛び交うIP アドレスは、今後も急増していくことは間違いありません。これまでの研究で考案した高速近似計算方法の設計仕様は、1 日あたりのアクセス数が10 億であることを前提にしていました。数年先のことを見越して、兆の単位のアクセス数でも秒の単位で処理できる方法を考えておく必要があります。そこで、さらなる高速処理の方法を、現在も共同研究として進めています。

理工ミニレクチャー