収録日:20210221
発表者:@masa_kazama
聞き手:@yohei_kikuta
内容:
- 計算社会科学おもしろい
- 計算社会科学入門について
- The Geometry of Cultureという研究の紹介
- Google Colab上でのコードの実装
- 人間の相互関係によって成り立つ社会をデータに基づいて解明していく学問である
- 「We live life in the network」
- 個人と社会は「作りつつ作られ、作られつつ作る」相互依存的で動的な共進化の関係にある
- 社会的ネットワークと社会的相互作用の理解が本質的
- グラノヴェッターによる弱い紐帯の強み
- 家族や親友などの社会的に強いつながりを持つ人々よりも、知人や友達の友達のような社会的なつながりの弱い人々の方が、自分にとって新しく価値の高い情報をもたらしてくれ、転職するときのきっかけになっている
- 肥満の感染
- 肥満遺伝子の有無よりも、その人が持つネットワークのほうが、肥満の予測因子として大きい
- 複雑ネットワーク
- 1998年Duncan Wattsによるスモールワールド・ネットワークの研究
- 1967年のミルグラムにスモールワールド実験
- スモールワールド
- 小さい平均距離
- 高いクラスター性
- 1999年Barabasiによるスケールフリーネットワークの研究
- スケールフリー
- 次数分布がベキ則
- スケールフリー
- スケールフリーであれば大体の場合スモールワールド
- スモールワールドであっても必ずしもスケールフリーでない
- 1998年Duncan Wattsによるスモールワールド・ネットワークの研究
- 社会望遠鏡による行動観察
- TwitterやFacebookなどのSNSによって、人々の行動が正確かつ継続的に記録されるようになった
- ソーシャルメディアは社会を俯瞰するための巨大な観測装置「社会望遠鏡(Socioscope)」としての役割を果たす
- 84ヵ国の計2400万人のTwitterへの2年分の投稿5億900万件を分析し、人々の気分の変動を測定
- 人々の気分には世界中で共通した一定の周期がある
- ポジティブな感情は朝がピークで、日中徐々に低下し、1日の終わりに再上昇する
- 平日よりも週末のほうがポジティブな感情の度合いが高い。ピークは2時間程度後ろにずれている
- 天文学者のブラーエが天体望遠鏡を使って、惑星運動に関する正確な観測データを大量に記録し、それが後世のケプラーの法則の発見に繋がった
- Google Ngram Viewer
- 書籍をデジタル化し、単語の出現頻度の変化を調べることができる
- 言語の歴史的変化、名声の定量化、言語弾圧の痕跡、集合的記憶と忘却などの、様々な文化現象を定量化している
- ビッグデータに基づく文化の網羅的解析を「カルチャロミクス」という
- 計算社会学の方法論
- 観察分析:オンライン相互作用のデジタルトレースの分析
- FacebookやTwitterなどのソーシャルメディアのデータ
- ウェアラブルデバイス
- MITのペントランドは、顔の表情や体の動き、声などに現れる無意識的な行動を記録するソシオメータという電子バッチを開発
- 無意識的な行動の分析
- 企業内での生産性の向上に貢献
- 実験調査:バーチャルラボ
- Amazon Mechanical Turk(MTurk)などのクラウドソーシング
- 例:ヒット現象と社会的影響
- 誰でも無料で曲をダウンロードできる実験用のWebサイト
- A:曲名がランダムな順番で表示
- B:ダウンロード回数の多い順に曲名が表示
- さらに8つの実験グループに分ける
- 「みんながどのくらいダウンロードしたかを見ることができるか」ということの効果検証
- 多くの人にダウンロードされた曲はますますダウンロードされ、逆に、ほとんどダウンロードされなかった曲はまったく注目されなくなっていった
- 8つの実験グループで、人気の曲は異なった。最初の微小な差異が、最終結果に大きな影響を与えた
- いい曲が著しく不人気になったり、悪い曲が一番人気になったりといった極端なことは起こらなかった
- 誰でも無料で曲をダウンロードできる実験用のWebサイト
- Facebookによる情動感染の実験
- Faebookのニュースフィード(友人や知人が投稿した記事)を操作して投稿内容に含まれる感情がユーザーに与える影響を実験
- 69万人を対象に2012年1月11日から1週間、ニュースフィードに表示する記事を調整する介入実験
- ポジティブな印象を与える投稿の表示を減らしたところ、ユーザーの投稿はネガティブな内容が増え、逆にネガティブな印象を与える投稿をニュースフィードから減らすと、ユーザーの投稿はポジティブな内容が増えた
- 対象になったユーザーには、事前に実験内容が知らされておらず、倫理の観点から物議を醸した
- モデル化:計算モデルとシミュレーション
- ノーベル賞受賞者のトーマス・シェリングによる「住み分けモデル」
- アメリカの都市において、なぜ黒人や白人、アジアンやヒスパニックの人たちが人種ごとに分かれて居住するのかという分断の仕組みを説明
- 自分の周りに同種のエージェントが3分の1未満のときは誰も住んでない場所をランダムに選択して移住するということを繰り返す
- 個々人の小さな偏見が積み重なると社会全体としては大きな分断を生み出す
- ノーベル賞受賞者のトーマス・シェリングによる「住み分けモデル」
- 観察分析:オンライン相互作用のデジタルトレースの分析
- 様々な社会現象の「文化的次元」を明らかにすることは重要な課題の1つ
- Kozlowskiは、「The Geometry of Culture: Analyzing Meaning through Word Embeddings」という論文の中で、単語埋め込みモデルを応用し、社会現象の文化的次元を分析した
- Google Colab上で簡単に実装してみた
- 単語埋め込みモデルが文化社会学的問いに有効に答えることができるか
- word2vecを用いて、ベクトル空間の中にある種の文化的次元を表現するベクトルを張る
- woman - manというベクトルが、ジェンダーを表す文化的次元を表す
- そのベクトルにとある単語を射影すると、manまたはwomanのどちらの影響をうけているかの定量的な値となる
- ある特定の文化的次元を構成すると思われる対義語ペアのベクトル表現を用いることで、空間上に該当文化的次元に対応するベクトルを構成することができる
- 具体例:各種スポーツの貧富と結びついた文化イメージ
- 貧富を表す次元を、"rich-poor", "poverty-affluence"などの対義語を用いて計算する
- その貧富次元に各種スポーツを射影する
- すると、golfは金持ち、boxingは貧困、baseballは中立的イメージなどの貧富のイメージと結びついている
- 結果の妥当性を検証するために、Amazon Mechanical Turkで検証した
- 各単語に対して、「0点が極めて労働者階級的、100点が極めて上流階級的として、ステーキには何点をつけますか」というような質問を行う
- その結果と、word2vecを用いて計算された値との相関を調べる
- 階級、ジェンダー、人種の3つの文化的次元について妥当性の検証がされた(↓相関係数)
- 階級次元:0.56
- ジェンダー次元:0.76
- 人種次元:0.27
- 相関係数は、word2vecの学習に使ったデータによって異なる。Google Newsのデータを用いたword2vecでは人種次元においても0.75であった。
- 単語埋め込みモデルを用いて、文化やバイアスについて分析する研究が多数発表されている
- Gender Gaps Correlate with Gender Bias in Social Media Word Embeddings
- 単語埋め込みモデルを利用して計算されたジェンダーバイアス値と実際の女性の社会進出率に高い相関があることを示した論文
- Semantics derived automatically from language corpora necessarily contain human biases
- Scienceに発表された論文
- Implicit Association Testという人々が潜在的に持っているバイアスを明らかにするテスト方法を単語埋め込みモデルに適用できるように拡張
- 単語の持っているバイアスを明らかに
- Gender Gaps Correlate with Gender Bias in Social Media Word Embeddings
- (メモ)word2vecにおいて足し算引き算がなぜ可能なのかを数学的に証明する研究がいくつかあるので、これらを活用するのも面白そう
- Analogies Explained: Towards Understanding Word Embeddings (2019 ICML)
- word2vecは点相互情報量(PMI)の行列分解
- とある単語wのPMIベクトルを低次元ベクトルに射影する関数をfとすると、f(w_i + w_j) ≒ f(w_i) + f(w_j)
- Analogies Explained: Towards Understanding Word Embeddings (2019 ICML)
- (メモ)word2vecにおいて、対義語は同じ文脈で出ることが多く、それ故に似たベクトルになってしまうという問題がある。それを解決する研究も活用するのも面白そう
- Retrofitting Word Vectors to Semantic Lexicons (ACL 2015)
- 学習したword2vecに対して、wordnetなどの同義語データを活用して、よりよい単語埋め込みを獲得する
- Retrofitting Word Vectors to Semantic Lexicons (ACL 2015)