「ネット言論のダークサイド」を計算機で解析する ── データ分析による報道の技術とその再現性 ──
欧米メディアのGitHubレポジトリ
・The Guardian
・The New York Times
・ProPublica
・ICIJ
・Los Angeles Times
調査報道と再現性
科学の世界では当たり前なのですが、ジャーナリズムの世界でも、このようなデータ解析を使った報道というものの出現に伴い、そのプロセスの透明性と再現性といった点が話題になっています。英語ですが、興味のある方はこのあたりの記事を読んでみてください。
・The Need for Openness in Data Journalism
・The Rise of Transparent Data Journalism
解析の再現性には幾つかのレベルがあります:
1.機械可読な形でのデータの公開
2.解析に使った手法とそのソースコードの公開
3.解析に使った環境の公開
1はともかく、2と3はかつては技術的になかなか難しい面もありました。しかし、現在では公開されたソースコードの事実上の標準レポジトリであるGitHubがありますし、解析の規模にもよりますが、解析環境をコンテナ技術(Dockerというソフトウェアがもっとも普及しています)を用いて第三者が再現可能な形で残すこともできます。このように、技術的に解決出来る面も増えてきていますので、調査報道の分野を中心に、今後はこういった方向を目指すメディアも増えるのではないかと思います。
また、こういった話題で必ずと言っていいほど出てくるJupyter Notebookというツールですが、これは人間のための文章や図表と、計算機で実行できるコードを混在させて、実際にそれを実行しながら動作を確認できるという非常に強力なツールです。報道では、解析に使ったコードを読者に実際に手元のマシンで実行させながら読んでもらうということが可能になります。これについてもいずれ最近の傾向をまとめたいと思いますが、使うこと自体は決して難しくないので、少しでもプログラミングのできる方はぜひ試してみてください。
余談: 日本のメディアの方へのささやかな要望
GitHubにウェブ版の紙面で使ったコードを公開することで問題が発生するケースはまず無いと思います。報道機関のパフォーマンスはあくまでその内容で競われるべきものなので、ソースコードの質ではないはずです。したがって、こういった競う必要性が低い部分での横の協力が進めば、日本の報道機関全体の技術的な面での底上げにつながるのではないでしょうか。第一歩として、まずはGitHubのレポジトリをプライベートからパブリックに移行するところから始めてはどうでしょう?
報道への機械学習と自然言語処理の応用
今回の解説記事の最後にこんな一文があります。
In the future, we would like to explore the words used in the comments, using standard and bespoke natural language processing algorithms.
将来的には、我々は標準的なものからカスタムのものまで、各種自然言語処理アルゴリズムを用いて、コメントの内容そのものを調査してみたい。
コメント欄というのは自然言語(英語)で書かれています。つまり今回見たような単純な手法ではその傾向を分析するのは困難です。ここをさらに深く掘り下げるには、自然言語処理、もっと言えば人工知能関連の技術の応用が必要になります。人工知能に関しては驚くほどのハイプが出回っていますが、少なくとも現時点での人工知能関連技術というのは非常に便利な道具に過ぎません。しかし適切に使えばデータ分析に大変な力を発揮します。
簡単な例ですと、今回の記事では男女の差に着目して解析を行っていましたが、これがもし人種だったらどうでしょう? プロフィールにいちいち人種を書くということはまずありえないので、何らかの推測に基づいた判別が必要になります。仮に元のデータに著者の近影が存在した場合、適切にトレーニングした分類器を用いれば、東アジア系、中東系、アフリカ系、ヨーロッパ系などに大雑把な分類するのは、今の機械には決して不可能ではありません。
今後そういった技術を持った人々が報道の世界で働くということも十分に考えられるシナリオだと思います。
まとめ
このように、実際のデータ解析作業というのは、かなり地道な作業が多く、メディアを賑わす数々のバズワードのイメージとは若干ズレがあると思いませんか? 一方、様々な技術が導入されている今日の報道ですが、まだまだ改善の余地があります。特にデータの高度な分析には統計解析の専門家の力が欠かせませんし、ソーシャルメディアでの言論などを大規模に解析するには、自然言語処理の専門家などが必要です。他の多くの分野と同じく、ジャーナリズムの世界にも最新技術による革新を起こせる可能性が広がっています。道具は揃ってきました。あとはやるかやらないかだけです。
私はジャーナリズムとは全く関係のない完全なアウトサイダーですが、科学分野に関わる仕事をしておりますので、データの分析やそのプロセスの透明性といった部分で、新たなスタイルの報道と科学の類似性を感じています。すなわち、最新技術を特定分野に応用するための分野を超えた協力関係です。これらに関連する諸問題は、技術的な面と人的な面の両面からアプローチしないとなかなか解決できません。このような複雑な問題に向かい合う場合、分野を超えた交流が重要だと考えており、少しでもこういった分野に目を向ける人が多くなり、新たなコラボレーションが生まれてくれれば、と願っております。
Keiichiro Ono (大野圭一朗)
4/17/2016
CC BY 4.0
質問などはkono at ucsd eduまでお願いいたします。