最新記事

ビッグデータ

「パナマ文書」解析の技術的側面

2016年4月12日(火)18時25分
大野圭一朗

テキストデータへの変換

 この記事によれば、画像の多くは紙の書類をスキャンしたものだったようで、そこから文字情報を引き出そうとする場合、OCRという技術が必要になります。OCRとは要するに画像から文字を認識して切り出す技術です。日本でもユーザーの多いEvernoteなどでも利用されている技術です。写真に写った飲み物のラベルの文字が文字列検索で引っかかることがあると思いますが、あの技術のことです。最近はラップトップと家庭用スキャナの組み合わせでも行うことができる、広く普及した技術です。ただし今回は画像の数が膨大なため、時間を短縮するために、商用クラウドコンピューティングサービス(要するに計算機の時間貸し屋さんです)であるAmazon Web ServiceのEC2を使ったようです。どのインスタンスタイプかまでは確認できませんでしたが、30台から40台のEC2インスタンスを用いて、ひたすら画像データを文字情報に変換する作業をまず行いました。

データのグラフ化

 OCRによるテキスト化を行うと、ひとまず計算機上での扱いは容易になります。極端な事を言えば、テキストで保存してある限り、それをエディタで開いて文字列検索することでも、ある程度は何が書いてあるかを読めるようになります。しかし詳細な調査には最終的にはスキャンされた書類や会計報告などを専門家が読み込む必要があり、人や企業のネットワークから、キーワード検索でさらに詳細を調べられるようにしなくてはなりません。それを構築するために用いられるのが全文検索エンジンと呼ばれるものです。実際に使われたものはApache Solrで、メタデータやテキストの切り出しにはTikaが使われました。これらを利用し、彼らはまずファイルの集合からメタデータを切り出しました。ここでいうメタデータとは、ファイルタイプやタイムスタンプなどで、これをインデックス化することにより大量のファイルがより検索しやすくなります。

 しかし、今回のデータにはおよそ215,000もの会社(おそらく多くがペーパーカンパニー)が含まれており、そこを流れるカネを分析するためにはもう一工夫が必要です。ある会社の会計報告や登記簿を読んでいる場合、その会社の関係者、そしてその会社に関連する他の企業などのつながりを見られるようになれば、カネの流れを把握するのに大いに役立ちます。もちろんこれは文章でも表現できます。例えば専門家は今回の文書を実際に読むことにより以下のような情報を得たとします:

・A社の現在の社長はx氏
・A社はB社の取締役であるY氏によって設立された
・Y氏は『A社』というキーワードが大量にヒットするメールをZ氏に頻繁に送っている
・αという住所にA社があり、B社の所在地はβである
・αとβはグランドケイマン島の、γビル内の同じフロアに存在する
・Z氏はγビルのオーナーである

 このレベルのつながりならば、ここから


 X氏とY氏にはA社の創業者とその後継者という繋がりがあり、B社はA社と何らかの繋がりがある。そして会社の登記には名前がないが、Z氏とA社にはY氏を介しておそらく何らかの関係性が存在する。そして両社の所在地から、これらは同一ブローカーが関与して設立されたペーパーカンパニーの可能性がある。そのブローカーはZ氏の可能性がある。


 というような推論が人間にも可能です。ところがこのような繋がりが数十万、数百万というレベルで存在するとどうでしょう。もはやその全体像を人間がこのように文章に書き下して一つづつ把握するのは不可能です。そのために彼らはデータのグラフ化を選択しました。

今、あなたにオススメ
ニュース速報

ワールド

湾岸諸国の航空会社、アジア路線の優位低下へ=ルフト

ビジネス

豪中銀、連続利上げ僅差で決定 方向性の見解は全員一

ビジネス

日経平均は4日続落、朝高後に軟化 原油高が重し

ビジネス

スイス中銀、25年に外貨購入拡大 米関税でフラン高
今、あなたにオススメ
MAGAZINE
特集:イラン革命防衛隊
特集:イラン革命防衛隊
2026年3月24日号(3/17発売)

イスラム神権国家を裏からコントロールする謎の軍隊の歴史と知られざる実力

メールマガジンのご登録はこちらから。
人気ランキング
  • 1
    温暖化で増えた? サンマやサケ減少の裏で激増する「安価で栄養価の高い魚」の正体
  • 2
    住宅建設予定地に眠っていた「大量の埋蔵金」...現在の価値でどれくらい? 誰が何のために埋めた?
  • 3
    「ネタニヤフの指が6本」はなぜ死亡説につながったのか?
  • 4
    米軍も防ぎきれないイランのドローン攻撃──イラン製…
  • 5
    ロシア政府、痛恨のミス...プーチンの「健康不安説」…
  • 6
    「筋肉はモッツァレラと同じ」...なぜウォーミングア…
  • 7
    「映画賞の世界は、はっきり言って地獄だ」――ショー…
  • 8
    幼い子供たちの「おぞましい変化」を克明に記録...「…
  • 9
    「危険な距離まで...」豪ヘリに中国海軍ヘリが異常接…
  • 10
    世界の視線は中東から日本へ...企業主導で築くインド…
  • 1
    温暖化で増えた? サンマやサケ減少の裏で激増する「安価で栄養価の高い魚」の正体
  • 2
    ロシア政府、痛恨のミス...プーチンの「健康不安説」を裏付けるような動画を公式に投稿してしまう
  • 3
    「日本より、自分の国(フランス)を心配すれば?」と言われる外国特派員の私が思うこと
  • 4
    米軍も防ぎきれないイランのドローン攻撃──イラン製…
  • 5
    メーガン妃、娘リリベット王女との新ショット公開...…
  • 6
    「このままよりはマシだ」――なぜイランで米軍の攻撃…
  • 7
    職業別の収入に大変動......タクシー運転手・自動車…
  • 8
    キャサリン皇太子妃、英連邦デー式典に出席...公開さ…
  • 9
    ズボンを穿き忘れてる! 米セレブ、下を穿かず「目の…
  • 10
    世界の視線は中東から日本へ...企業主導で築くインド…
  • 1
    温暖化で増えた? サンマやサケ減少の裏で激増する「安価で栄養価の高い魚」の正体
  • 2
    ロシア政府、痛恨のミス...プーチンの「健康不安説」を裏付けるような動画を公式に投稿してしまう
  • 3
    メーガン妃、娘リリベット王女との新ショット公開...撮影はパパ
  • 4
    見事なカンフーを見せた中国ヒト型ロボットのからく…
  • 5
    アルコールは血糖値を下げる...「脳と血管を守る」医…
  • 6
    「日本より、自分の国(フランス)を心配すれば?」…
  • 7
    「ヘル・コリア」から日本へ7万人 ── 大企業の高給より…
  • 8
    日本の若者「韓国就職」憧れと現実のギャップ ── ビ…
  • 9
    命は長し、働け女たち――88歳「働くばあさん」が説く…
  • 10
    「水道水」が筋トレの成果を左右する...私たちの体に…
トランプ2.0記事まとめ
Real
CHALLENGING INNOVATOR
Wonderful Story
MOOK
ニューズウィーク日本版別冊
ニューズウィーク日本版別冊

好評発売中