sorry, your ‘magazine’ won’t be here til Caturday!
クラウドコンピューティングのインフラには、必然的に大量のデータが集まってきます。その大量のデータを扱うために、スケーラビリティに優れた分散システムは、今後有力な選択肢になっていくと思われます。
一方で、分散技術を使ったデータベースは、「トランザクション処理に耐えるほどのデータ一貫性の保証は期待できない」という問題もあります。そのため、従来型のRDBMSも使われ続けることになるでしょう。
MapReduceは、大きく分けて、データを抽出するmapフェーズと、mapされた情報を集約するreduceフェーズの 2つのフェーズにわかれます(図1)。
MapReduceの処理単位をジョブと言いますが、1つのジョブは多数のmapタスクとreduceタスクに分解され、できるかぎり別々のノードで並列に実行されます。dddでは、第3回の説明(http://thinkit.jp/article/1030/2/)の通り、ストレージ部分は分散キーバリューストアとなっています。MapReduceジョブはキー単位にmapタスクに分解され、各mapタスクはキーに対応するデータを保持しているノードに対して割り当てられます。
まず、mapフェーズでは、分散ストレージのデータの中から必要な情報を抽出し、後の処理がしやすい形に変換します。
各mapタスクの結果は、一定の規則に基づいてreduceを実行するノードに振り分けられ、reduceタスクはその結果を集約します。集約した結果は分散ストレージに書き出すか、またはジョブをリクエストしたクライアントに返します。
この流れは、分散処理であることを除けばUnixでのフィルタやパイプラインによる処理に似ています。mapフェーズは、入力データからgrepやcutコマンドなどで抽出することに相当し、reduceフェーズはそれをパイプライン経由で受け取って、sortしてuniq -cすることなどに例えることができるでしょう。
MapReduceはもともとGoogleで考案された、大規模分散データ処理のためのフレームワークで、データをmapとreduceの二段階に分けて処理することからその名前がついています。
GoogleのMapReduceのソースコードは公開されていませんが、仕組みに関する論文が発表されています(P3参考文献[1])。今では、その論文を元にHadoop MapReduce[2]など類似の機能を持ったオープンソースの実装がいくつか出てきています。
なお、MapReduce自体は分散処理フレームワークであり、データベースそのものではありません。しかし、GreenplumやAster Dataのように、データベースにMapReduceの機能を搭載するところも現れてきており、今後はデータベースの重要な機能の一部になっていく可能性があります。
会計検査院は2日、経済産業省所管の独立行政法人「産業技術総合研究所」が導入していた電子申請システムについて、平成17年の導入から4年間、1件も利用されず、開発費など8754万円余が無駄になっていた、と発表した。
検査院によると、同研究所は17年3月、微生物の特許出願に必要な証明書などの申請を、従来の書面だけでなくインターネットでもできる電子申請システムを導入した。
しかし、実際には申請に必要な微生物を提出しなければならないなど書面での手続きと手間が変わらない上、新たな必要経費がかかることなどから、導入後の4年間で申請が4万件以上あったのに、電子申請はゼロ。経産省も全く利用されていない実態に気付いていたのに指導せず、見直しが行われなかった。
検査院の指摘を受け、同研究所は今年3月、運用を中止した。
国が進める行政手続きの電子申請システムの利用があまりに低調で、申請1件あたりのコストが350万円を超えるなど、コストに見合っていない一部の申請システムについて、会計検査院は18日、廃止などを含めて抜本的に改善するよう各府省庁に求めた。
検査院が各府省庁の電子申請システムについて調査したところ、全体の申請に対して電子申請を利用した割合が1%以下で、ほとんど利用されていないものが6府省庁7システムにのぼった。
特に総務省の政治資金・政党助成関係申請・届出オンラインシステムは平成17~20年度の4年間すべてが0・0%の利用率だった。この総務省のシステムは4年間の約2万5000件の申請に対し、電子申請システムの利用はわずか2件だった。
ほかにも警察庁の電子申請・届出システムが全体の約8千件に対し、4年間で53件、全体の約65万件の申請に対し、農水省の電子申請システムの利用が109件(17~20年度のすべてで利用率0・0%)、国税庁の電子開示請求システムが平成20年度、約13万4千件の申請に対し、61件(0・0%)財務省の電子申請システムも17~20年度のすべての年で利用率が0・0%だった。
電子申請システムの整備・運用経費に最も税金を費やしたのは、国税庁が約353億6千万円、財務省が約269億5千万円、厚生労働省が約65億7千万円(いずれも17~20年度の総計)、全省庁でも約1080億円もの整備・運用経費をかけている。このため内閣府の汎用受付等システムが電子申請1件あたり約357万円、国税庁の電子情報開示システムが約58万1千円、財務省の電子申請システムが約33万2千円の経費がかかるなど、異常なコスト高となっている。
会計検査院は政府の方針を受けた省庁が一律にオンライン化したこと、電子申請のほかに手書きの申請書が必要など使い勝手が悪いシステムがあることなどが低利用率の背景にあると指摘し、システムの停止を含めた抜本的な改善を求めた。


