最新記事

ネット

「ネット言論のダークサイド」を計算機で解析する ── データ分析による報道の技術とその再現性 ──

2016年5月10日(火)22時31分
大野圭一朗


著者の性別の判定

 今回、最終的に検証したい仮説が性別に基づくバイアスなので、著者の性別がわかっていないとどうにもなりません。この問題を解決するために彼らが行ったのは、ある意味とても原始的な作業でした。しかし技術的には高度でないにもかかわらず、この類の作業というのがデータ解析を行うときに最も面倒で時間のかかる作業であるケースも非常に多いです。つまり、一定のエラーを含みながらも必要な結果を得られる程度には正確な、形成されたデータを作るという作業です。

gardians09.jpg

名前から性別を判定するワークフロー (Cytoscape 3.3にて作成)


 今回の具体的な作業は上の図のようになります。まず12,000人の著者名を、無償で公開されている男女別の人名リストと比較するスクリプトを実行します。おそらくここではファーストネームの完全一致による単純な判別を行っていると思われます。これにより、11,098人分のデータが男女別に分類され、1,268人が性別不明として残りました。性別不明になる原因は色々と考えられるのですが、そもそも名前がリストにない場合はわかりませんし、名前の英語表記の揺れなども原因になります。例えば、下のスクリーンショットは今回使われた名前のリストからの抜粋ですが、日本人名の「ケンイチ」という名前は、正しく男性名に分類されていますが、表記がKEN'ICHIであるため、KENICHIという表記との単純一致だと取りこぼしてしまいます。このような名前や住所といったものの表記ゆれは厄介な問題で、バラバラにデータベース化された情報を統合する時に様々な問題を引き起こします。

gardians10.png

names.csv. KENという語で検索をかけた例

 さて、この時点で不明の1,268人分のデータの性別を判定するために、今度は以下の人名判定サービスにPerlスクリプト(この場合は、Perlというプログラミング言語で作業工程を記述した小さなプログラムのことです)で送信します:

genderize.io: Determine the gender of a first name

 このサービスを利用した後の時点で何名ぐらいが性別不明だったかはわかりませんが、なんとか人力で判定、つまり人名辞典やネット検索で人間が一つ一つ判定するのも不可能ではない程度の量にまで不明の数が減っていたので、残りは実際にそういう作業で仕分けされています。「データサイエンス」という言葉の響きとは対極にあるような作業ですが、現実はこんなものです。

 ともあれ、この作業で一定のエラーは含まれているが、それなりに大きい数の男女別著者リストが得られたので、そのファイル(CSV)をAWSのS3というストレージサービスにアップロードしました。ここからはAWS上の計算機での作業になります。

今、あなたにオススメ
ニュース速報

ビジネス

S&P、ステーブルコインのテザーを格下げ 情報開示

ビジネス

アサヒGHD、12月期決算発表を延期 来年2月まで

ビジネス

午前の日経平均は続伸、5万円を回復 米早期利下げ思

ワールド

日米首脳電話会談の内容、これまで説明した以上の詳細
今、あなたにオススメ
MAGAZINE
特集:ガザの叫びを聞け
特集:ガザの叫びを聞け
2025年12月 2日号(11/26発売)

「天井なき監獄」を生きるパレスチナ自治区ガザの若者たちが世界に向けて発信した10年の記録

メールマガジンのご登録はこちらから。
人気ランキング
  • 1
    インド国産戦闘機に一体何が? ドバイ航空ショーで墜落事故、浮き彫りになるインド空軍の課題
  • 2
    【最先端戦闘機】ミラージュ、F16、グリペン、ラファール勢ぞろい ウクライナ空軍は戦闘機の「見本市」状態
  • 3
    膝が痛くても足腰が弱くても、一生ぐんぐん歩けるようになる!筋トレよりもずっと効果的な「たった30秒の体操」〈注目記事〉
  • 4
    【クイズ】次のうち、マウスウォッシュと同じ効果の…
  • 5
    7歳の娘の「スマホの検索履歴」で見つかった「衝撃の…
  • 6
    がん患者の歯のX線画像に映った「真っ黒な空洞」...…
  • 7
    ミッキーマウスの著作権は切れている...それでも企業…
  • 8
    あなたは何歳?...医師が警告する「感情の老化」、簡…
  • 9
    ウクライナ降伏にも等しい「28項目の和平案」の裏に…
  • 10
    【クイズ】世界で1番「がん」になる人の割合が高い国…
  • 1
    「髪形がおかしい...」実写版『モアナ』予告編に批判殺到、そもそも「実写化が早すぎる」との声も
  • 2
    膝が痛くても足腰が弱くても、一生ぐんぐん歩けるようになる!筋トレよりもずっと効果的な「たった30秒の体操」〈注目記事〉
  • 3
    高速で回転しながら「地上に落下」...トルコの軍用輸送機「C-130」謎の墜落を捉えた「衝撃映像」が拡散
  • 4
    ポルノ依存症になるメカニズムが判明! 絶対やって…
  • 5
    インド国産戦闘機に一体何が? ドバイ航空ショーで…
  • 6
    マムダニの次は「この男」?...イケメンすぎる「ケネ…
  • 7
    AIの浸透で「ブルーカラー」の賃金が上がり、「ホワ…
  • 8
    海外の空港でトイレに入った女性が見た、驚きの「ナ…
  • 9
    【銘柄】イオンの株価が2倍に。かつての優待株はなぜ…
  • 10
    「まじかよ...」母親にヘアカットを頼んだ25歳女性、…
  • 1
    【クイズ】本州で唯一「クマが生息していない県」はどこ?
  • 2
    東京がニューヨークを上回り「世界最大の経済都市」に...日本からは、もう1都市圏がトップ10入り
  • 3
    一瞬にして「巨大な橋が消えた」...中国・「完成直後」の橋が崩落する瞬間を捉えた「衝撃映像」に広がる疑念
  • 4
    「不気味すぎる...」カップルの写真に映り込んだ「謎…
  • 5
    【写真・動画】世界最大のクモの巣
  • 6
    高速で回転しながら「地上に落下」...トルコの軍用輸…
  • 7
    「999段の階段」を落下...中国・自動車メーカーがPR…
  • 8
    【クイズ】クマ被害が相次ぐが...「熊害」の正しい読…
  • 9
    まるで老人...ロシア初の「AIヒト型ロボット」がお披…
  • 10
    【クイズ】ヒグマの生息数が「世界で最も多い国」は…
トランプ2.0記事まとめ
日本再発見 シーズン2
CHALLENGING INNOVATOR
Wonderful Story
MOOK
ニューズウィーク日本版別冊
ニューズウィーク日本版別冊

好評発売中