最新記事

ビッグデータ

「パナマ文書」解析の技術的側面

2016年4月12日(火)18時25分
大野圭一朗

テキストデータへの変換

 この記事によれば、画像の多くは紙の書類をスキャンしたものだったようで、そこから文字情報を引き出そうとする場合、OCRという技術が必要になります。OCRとは要するに画像から文字を認識して切り出す技術です。日本でもユーザーの多いEvernoteなどでも利用されている技術です。写真に写った飲み物のラベルの文字が文字列検索で引っかかることがあると思いますが、あの技術のことです。最近はラップトップと家庭用スキャナの組み合わせでも行うことができる、広く普及した技術です。ただし今回は画像の数が膨大なため、時間を短縮するために、商用クラウドコンピューティングサービス(要するに計算機の時間貸し屋さんです)であるAmazon Web ServiceのEC2を使ったようです。どのインスタンスタイプかまでは確認できませんでしたが、30台から40台のEC2インスタンスを用いて、ひたすら画像データを文字情報に変換する作業をまず行いました。

データのグラフ化

 OCRによるテキスト化を行うと、ひとまず計算機上での扱いは容易になります。極端な事を言えば、テキストで保存してある限り、それをエディタで開いて文字列検索することでも、ある程度は何が書いてあるかを読めるようになります。しかし詳細な調査には最終的にはスキャンされた書類や会計報告などを専門家が読み込む必要があり、人や企業のネットワークから、キーワード検索でさらに詳細を調べられるようにしなくてはなりません。それを構築するために用いられるのが全文検索エンジンと呼ばれるものです。実際に使われたものはApache Solrで、メタデータやテキストの切り出しにはTikaが使われました。これらを利用し、彼らはまずファイルの集合からメタデータを切り出しました。ここでいうメタデータとは、ファイルタイプやタイムスタンプなどで、これをインデックス化することにより大量のファイルがより検索しやすくなります。

 しかし、今回のデータにはおよそ215,000もの会社(おそらく多くがペーパーカンパニー)が含まれており、そこを流れるカネを分析するためにはもう一工夫が必要です。ある会社の会計報告や登記簿を読んでいる場合、その会社の関係者、そしてその会社に関連する他の企業などのつながりを見られるようになれば、カネの流れを把握するのに大いに役立ちます。もちろんこれは文章でも表現できます。例えば専門家は今回の文書を実際に読むことにより以下のような情報を得たとします:

・A社の現在の社長はx氏
・A社はB社の取締役であるY氏によって設立された
・Y氏は『A社』というキーワードが大量にヒットするメールをZ氏に頻繁に送っている
・αという住所にA社があり、B社の所在地はβである
・αとβはグランドケイマン島の、γビル内の同じフロアに存在する
・Z氏はγビルのオーナーである

 このレベルのつながりならば、ここから


 X氏とY氏にはA社の創業者とその後継者という繋がりがあり、B社はA社と何らかの繋がりがある。そして会社の登記には名前がないが、Z氏とA社にはY氏を介しておそらく何らかの関係性が存在する。そして両社の所在地から、これらは同一ブローカーが関与して設立されたペーパーカンパニーの可能性がある。そのブローカーはZ氏の可能性がある。


 というような推論が人間にも可能です。ところがこのような繋がりが数十万、数百万というレベルで存在するとどうでしょう。もはやその全体像を人間がこのように文章に書き下して一つづつ把握するのは不可能です。そのために彼らはデータのグラフ化を選択しました。

今、あなたにオススメ
ニュース速報

ビジネス

トランプ氏、FRB議長候補のウォラー理事と面会 「

ビジネス

長期金利が2%に上昇、19年半ぶり高水準 国債先物

ビジネス

日銀が利上げ決定、政策金利は30年ぶり高水準に 賃

ビジネス

フェデックス、MD-11運航停止で最大1.75億ド
今、あなたにオススメ
MAGAZINE
特集:教養としてのBL入門
特集:教養としてのBL入門
2025年12月23日号(12/16発売)

実写ドラマのヒットで高まるBL(ボーイズラブ)人気。長きにわたるその歴史と深い背景をひもとく

メールマガジンのご登録はこちらから。
人気ランキング
  • 1
    「最低だ」「ひど過ぎる」...マクドナルドが公開したAI生成のクリスマス広告に批判殺到
  • 2
    自国で好き勝手していた「元独裁者」の哀れすぎる末路が発覚...プーチンは保護したのにこの仕打ち
  • 3
    「勇気ある選択」をと、IMFも警告...中国、輸出入ともに拡大する「持続可能な」貿易促進へ
  • 4
    日本がゲームチェンジャーの高出力レーザー兵器を艦…
  • 5
    ゆっくりと傾いて、崩壊は一瞬...高さ35mの「自由の…
  • 6
    中国の次世代ステルス無人機「CH-7」が初飛行。偵察…
  • 7
    身に覚えのない妊娠? 10代の少女、みるみる膨らむお…
  • 8
    おこめ券、なぜここまで評判悪い? 「利益誘導」「ム…
  • 9
    9歳の娘が「一晩で別人に」...母娘が送った「地獄の…
  • 10
    円安と円高、日本経済に有利なのはどっち?
  • 1
    日本がゲームチェンジャーの高出力レーザー兵器を艦載、海上での実戦試験へ
  • 2
    人口減少が止まらない中国で、政府が少子化対策の切り札として「あるもの」に課税
  • 3
    「勇気ある選択」をと、IMFも警告...中国、輸出入ともに拡大する「持続可能な」貿易促進へ
  • 4
    デンマーク国防情報局、初めて米国を「安全保障上の…
  • 5
    【衛星画像】南西諸島の日米新軍事拠点 中国の進出…
  • 6
    【実話】学校の管理教育を批判し、生徒のため校則を…
  • 7
    ミトコンドリア刷新で細胞が若返る可能性...老化関連…
  • 8
    「最低だ」「ひど過ぎる」...マクドナルドが公開した…
  • 9
    自国で好き勝手していた「元独裁者」の哀れすぎる末…
  • 10
    【銘柄】資生堂が巨額赤字に転落...その要因と今後の…
  • 1
    日本がゲームチェンジャーの高出力レーザー兵器を艦載、海上での実戦試験へ
  • 2
    人口減少が止まらない中国で、政府が少子化対策の切り札として「あるもの」に課税
  • 3
    高速で回転しながら「地上に落下」...トルコの軍用輸送機「C-130」謎の墜落を捉えた「衝撃映像」が拡散
  • 4
    日本人には「当たり前」? 外国人が富士山で目にした…
  • 5
    【銘柄】オリエンタルランドが急落...日中対立が株価…
  • 6
    「髪形がおかしい...」実写版『モアナ』予告編に批判…
  • 7
    日本の「クマ問題」、ドイツの「問題クマ」比較...だ…
  • 8
    膝が痛くても足腰が弱くても、一生ぐんぐん歩けるよ…
  • 9
    インド国産戦闘機に一体何が? ドバイ航空ショーで…
  • 10
    ポルノ依存症になるメカニズムが判明! 絶対やって…
トランプ2.0記事まとめ
Real
CHALLENGING INNOVATOR
Wonderful Story
MOOK
ニューズウィーク日本版別冊
ニューズウィーク日本版別冊

好評発売中