コラム

ビッグデータ統計は、中立や客観性を保証せず、しばしば偏りを生む

2021年10月26日(火)16時59分

他のわかりやすい例もあげてみよう。性別というのは基本属性のひとつだが、カナダでは生まれた時の性別(男と女のふたつの選択肢)と現在の性別(男女以外の複数の選択肢が用意されている)を訊ねることが多い。データ取得時あるいは分類時において、男女の2つに分けるか、それともそれ以上の分類を考慮するかでデータの取り方や解釈は変わってくる可能性がある。

性別に限らず、属性や行動や嗜好は研究者がどれだけ対象について幅広い知識を持っているかによって想定できる内容が異なるし、後述するように研究チームの構成によっても変わってくる。たとえばチーム全員が国立大学を卒業した男性で実家が富裕層であった場合は偏ったものになる可能性がある。実家が富裕層で国立大学を卒業した男性がいけないということではなく、同質の集団では対象について持ちうる知識や価値観の幅と多様性が乏しくなるということである。

なぜリベラルの声は中間層に届かないのか?」(2021年10月5日)および記事の元となった論文では、「安倍支持」を「保守」、「反安倍」を「リベラル」として分類していた。私を含めてこの分類に違和感を抱いた人がいた。分類は解析の結果として出てくるが、抽象度が高くなると分類の解釈に幅が出てくる。幅があるということは偏りが入り込む余地があることになる。抽象度を低めてよりデータそのものに近い「安倍支持」と「反安倍」に分けておくと幅は狭められる。社会に関わることでは抽象度の高い言葉(保守やリベラルなど)を使うと、解釈の幅が広がるだけでなく、政治的な意味合いが強くなったり、意味合いが変化したり、意図があいまいになったりしがちなので注意が必要だ。

・研究チームの構成の問題

研究チームの構成がAIの偏りを生むことが指摘されている。コロンビア大学で約400人のAIエンジニアに学習用のデータやインセンティブなどの条件を変えてアルゴリズムを作らせる実験が行われた。その結果、アルゴリズムの予測精度にもっとも影響が大きかったのは学習用データの正確さだったが、チームの構成特に人種と性別が影響していることもわかった。同質のチームよりも多様性のあるチームの精度が高かった。ひとつの調査結果だけで研究チームの構成が結果に影響を及ぼすと言い切れるわけではない。しかし、その可能性には留意する必要があるだろう。

日本の計算社会学者の方を全て存じあげているわけではないが、私が目にする日本の記事や論文の執筆者のほとんどは日本人かつ男性だった。データ分析がその人物の価値観や社会的環境に影響を受けることは少なからずある。多様なメンバーがいた方が、特定の価値観や社会的環境による偏りを避けることができる。

統計調査の設計や解釈でも同じ問題は起こる。たとえば『ネットは社会を分断しない』(角川新書、2019年10月10日)という本では10万人のアンケート調査をもとにネットが社会を分断していないことを説明している。この本ではネットの影響を直接の影響に限定しており、まとめサイトなどのミドルメディを介して既存の大手メディアに取り上げられるフェイクニュース・パイプラインについては触れていない。意図的に外す理由は見当たらないし、外した理由の説明もないのでこの調査のメンバーにはミドルメディアやフェイクニュース・パイプラインについて知っている人がいなかったのであろう。アンケート調査の設計の時点から漏れているので、ミドルメディアやフェイクニュース・パイプラインの影響については考慮されない分析が行われている。

・思い込み、事実、仮説、解釈の問題

事実と思い込みの境目は曖昧で難しい。特定の新聞のニュースをよく見ているなら信用していると考えるのは当たり前だと思うかもしれないが、実は信頼していないメディアでも利用することがわかっている

SNS上のつながりに関する思い込みもある。たとえばSNSで高頻度にやりとりをしているならば親密だと考えて、頻度を親密度の尺度にすることもある。親密なほど相手のために費す時間が増え、頻度もあがるというと、もっともらしく聞こえるが、この基準だと職場の同僚が兄弟や親よりもはるかに親密な存在になってしまう人は多い(Big Data: Opportunities for Computational and Social Sciences)。

人間の感情や嗜好と、SNSデータで計測できる項目の間を結びつける際には思い込みが入り込みやすい。たとえば、「いいね!は同意や共感のあらわれ」、「リツイートは賛意」である想定することがあるが、そうとは限らない。「コロナ時代のソーシャルメディアの動向と課題 科学技術に関する調査プロジェクト報告書」の中の「データから見るデマ拡散の構造」では「興味深かったから」真偽とは無関係に拡散したものが32.7%あったことがわかっており、エンターテインメントとしての拡散もあったとしている。もちろん、共感や賛意を示すこともあるだろう。つまり、いいね!やリツイートの意図の解釈には幅があるため、分析者が想定する文脈に合わせて解釈できる余地があり、思い込みが入り込みやすい。

解釈においても同様に思い込みから飛躍した結論を導いてしまう危険性がある。また、最後にあげる研究サプライチェーンの問題もあるので、じゅうぶんに注意が必要である。

プロフィール

一田和樹

複数のIT企業の経営にたずさわった後、2011年にカナダの永住権を取得しバンクーバーに移住。同時に小説家としてデビュー。リアルに起こり得るサイバー犯罪をテーマにした小説とネット世論操作に関する著作や評論を多数発表している。『原発サイバートラップ』(集英社)『天才ハッカー安部響子と五分間の相棒』(集英社)『フェイクニュース 新しい戦略的戦争兵器』(角川新書)『ネット世論操作とデジタル影響工作』(共著、原書房)など著作多数。X(旧ツイッター)。明治大学サイバーセキュリティ研究所客員研究員。新領域安全保障研究所。

あわせて読みたい
ニュース速報

ワールド

米英首脳、両国間の投資拡大を歓迎 「特別な関係」の

ワールド

トランプ氏、パレスチナ国家承認巡り「英と見解相違」

ワールド

訂正-米政権、政治暴力やヘイトスピーチ規制の大統領

ビジネス

英中銀が金利据え置き、量的引き締めペース縮小 長期
あわせて読みたい
MAGAZINE
特集:世界が尊敬する日本の小説36
特集:世界が尊敬する日本の小説36
2025年9月16日/2025年9月23日号(9/ 9発売)

優れた翻訳を味方に人気と評価が急上昇中。21世紀に起きた世界文学の大変化とは

メールマガジンのご登録はこちらから。
人気ランキング
  • 1
    「何だこれは...」クルーズ船の客室に出現した「謎の物体」にSNS大爆笑、「深海魚」説に「カニ」説も?
  • 2
    燃え上がる「ロシア最大級の製油所」...ウクライナ軍、夜間に大規模ドローン攻撃 国境から約1300キロ
  • 3
    1年で1000万人が死亡の可能性...迫る「スーパーバグ」感染爆発に対抗できる「100年前に忘れられた」治療法とは?
  • 4
    「日本を見習え!」米セブンイレブンが刷新を発表、…
  • 5
    「最悪」「悪夢だ」 飛行機内で眠っていた女性が撮影…
  • 6
    アジア作品に日本人はいない? 伊坂幸太郎原作『ブ…
  • 7
    ケージを掃除中の飼い主にジャーマンシェパードがま…
  • 8
    中国山東省の住民が、「軍のミサイルが謎の物体を撃…
  • 9
    中国経済をむしばむ「内巻」現象とは?
  • 10
    「ゾンビに襲われてるのかと...」荒野で車が立ち往生…
  • 1
    「最悪」「悪夢だ」 飛行機内で眠っていた女性が撮影...目覚めた時の「信じがたい光景」に驚きの声
  • 2
    「中野サンプラザ再開発」の計画断念、「考えてみれば当然」の理由...再開発ブーム終焉で起きること
  • 3
    【クイズ】次のうち、飲むと「蚊に刺されやすくなる」飲み物はどれ?
  • 4
    科学が解き明かす「長寿の謎」...100歳まで生きる人…
  • 5
    「二度見した」「小石のよう...」マッチョ俳優ドウェ…
  • 6
    「我々は嘘をつかれている...」UFOらしき物体にミサ…
  • 7
    【クイズ】世界で唯一「蚊のいない国」はどこ?
  • 8
    【クイズ】世界で1番「島の数」が多い国はどこ?
  • 9
    「何だこれは...」クルーズ船の客室に出現した「謎の…
  • 10
    電車内で「ウクライナ難民の女性」が襲われた驚愕シ…
  • 1
    「4針ですかね、縫いました」日本の若者を食い物にする「豪ワーホリのリアル」...アジア出身者を意図的にターゲットに
  • 2
    【クイズ】世界で唯一「蚊のいない国」はどこ?
  • 3
    「まさかの真犯人」にネット爆笑...大家から再三「果物泥棒」と疑われた女性が無実を証明した「証拠映像」が話題に
  • 4
    信じられない...「洗濯物を干しておいて」夫に頼んだ…
  • 5
    「最悪」「悪夢だ」 飛行機内で眠っていた女性が撮影…
  • 6
    「中野サンプラザ再開発」の計画断念、「考えてみれ…
  • 7
    「我々は嘘をつかれている...」UFOらしき物体にミサ…
  • 8
    プール後の20代女性の素肌に「無数の発疹」...ネット…
  • 9
    【クイズ】次のうち、飲むと「蚊に刺されやすくなる…
  • 10
    「怖すぎる」「速く走って!」夜中に一人ランニング…
トランプ2.0記事まとめ
日本再発見 シーズン2
CHALLENGING INNOVATOR
Wonderful Story