最終更新日:
世界的に流行している新型コロナウイルスに関して、アメリカでは2月末頃から急激に感染者数が増えて今日に至っています。こうしたなか、同氏はアメリカの各ニュースメディアが新型コロナに関して客観的かつ冷静に報道しているのかどうか疑問に思い、データサイエンス的に考察することにしました。
考察を行うにあたって、同氏が実行したのがニュース記事を自然言語処理と統計分析を使ってその特徴を抽出することでした。具体的には、センチメント分析とKS検定を使いました。なお、考察対象としたニュース記事はCNNとニューヨークタイムズから収集しました。
こうした考察の要点をまとめると、以下のようになります。
- CNNとニューヨークタイムズの記事は、同じ程度に客観的であった。
- しかし、ニューヨークタイムズは、アメリカで新型コロナウイルスの感染者が急増しはじめた2月23日以降、明らかに主観的な記事も掲載するようになった。
- 上記のふたつのメディアが公開した記事における(ポジティブあるいはネガティブの度合いを意味する)極性も、同じ程度であった。
- しかし、ニューヨークタイムズは、2月23日以降、明らかにポジティブな傾向の記事も掲載するようになった。
以上の要点から、ニューヨークタイムズはCNNより新型コロナウイルスの動向に敏感に反応した、と結論づけることができます。この結論から、ニューヨークタイムズは2月23日以降、新型コロナウイルスに怯えている読者を鼓舞するような記事を掲載するようになったのではないか、と推測することもできるでしょう。
Sharp氏が実行したニュースメディアの分析は、当然ながら、日本のメディアに対しても実行可能です。真贋の区別が難しいニュースが濫造される昨今において、データサイエンスにもとづいたメディア評価を試みるのは非常に価値があるのではないでしょうか。
なお、以下の記事本文はTom Sharp氏に直接コンタクトをとり、翻訳許可を頂いたうえで翻訳したものです。
目次
5,000以上のニュース記事をスクレイプして調べてみた
コロナウイルス(COVID-19)の発症に伴い、多くの人々が状況の深刻さを評価するためにメディアに目を向けている。ある人は、メディアが過剰反応して、現実よりもはるかに悪い状況を描いていると言っている。また、メディアは事実を厳密に描写している、つまり私たちをあの手この手で丸め込もうとはしていないと考える人もいる。どちらが実際に起こっているのか、どうしたら見極めることができるのだろうか?
データ駆動型の人間として、私は過去数ヶ月間のメディアの反応を評価することを使命と定めた。一週間前、私はいくつかの異なるウェブスクレーパーを構築し、コロナウイルスに言及した記事へのリンクを収集し、それらの記事の内容をデータベースに集めた。これらの記事を使って、メディアがCOVID-19に過剰反応しているかどうか、そしてどれくらい反応しているかを分析することができた。
・・・
記事データの分析を始める前に、私は実際に何を探しているのかを見極める必要があった。記事テキストの本文が状況にどの程度反応しているかを、どのようにして定量化するのだろうか。そのために、私は自然言語処理(Natural Language Processing:略して「NLP」)の技術のひとつであるセンチメント分析に実行することに行き着いた。センチメント分析では、特定の状況に対するテキスト本文の見方、態度、感情を推測することができる。
センチメント分析のために私が選んだPythonライブラリは、TextBlobである。TextBlobはNLPパッケージで、シンプルでありながら豊かなセンチメント分析ができることで高く評価されている。TextBlobはテキスト本文を分析し、そのテキストに関する主観性と極性のスコアを出力する。コロナウイルスの記事に対してこれらの指標で評価することで、その記事がどの程度主観的であるか、あるいは否定的であるかを判断することができる。こうした判断によって、テキストの著者が状況に「過剰に反応している」ことが示される可能性があるのだ。
それでは、いくつかの記事を分析してみよう。
データ
Pythonを使って、2つの異なるニュースサイトからコロナウイルスの記事を引き出すことができた。これらの記事は、ウイルスが主要メディアで議論され始めた2020年1月の初めからのものである。
それぞれの記事について、実際のテキストと同様にメタデータ(著者、日付、リンク、サイトなど)をSQLiteデータベースに保存した。毎朝最新の記事を取り込むことで、私はこのデータベースを毎日更新した。この記事を書いている時点で、CNNとニューヨークタイムズからコロナウイルスに関連する5,451件の記事を取得した。
・・・
センチメント分析:主観性
ニュースの読者であると同時にニュースの視聴者として、私たちが消費しているコンテンツがオピニオン的なものよりも事実に基づいたものであることを確認したい。主観性は事実性を測るのに最適な指標である ― 意見が多い記事はスケールの上限方向の端に(1に向かって)に置かれ、事実に基づいて現実をより詳しく描写している記事はスケールの下限の方(0に向かって)に置かれる。
以上をふまえて、ここで私が主観性分析を使って答えたいいくつかの質問がある。
- 主観性分析されたコロナウイルスのニュース記事はどのように主観的なのか?
- ニュースソースによって主観性は異なるのか?
- 状況が進むにつれて(時間が経つにつれて)主観性は変化するのか?
主観性分析されたコロナウイルスのニュース記事はどのように主観的なのか?
5,000件の記事全体の主観度を簡単に見てみよう。
記事数 | 5,451 |
---|---|
主観度の平均 | 0.393 |
標準偏差 | 0.092 |
上のヒストグラムは、すべての記事の主観度の分布を示している。分布からわかる主要な指標は、灰色のボックス(翻訳記事では表)に示されている。つまり、平均主観度は0.39で、主観度の標準偏差(std:”standard deviation”の略称)は0.09だ(※訳註1)。繰り返しになるが、主観度=1が完全に主観的な記事に相当することを考えると、これらの記事は平均して40%主観的だと言える。
こうした結果は悪くない!分析結果は、平均的な記事は主観的なものよりも客観的なものである、ということを意味している。これらのサイトから得られるコンテンツには価値がありそうだ。しかし、「記事全体の平均は40%だが、ニュースソースによって平均は違うのか」と疑問に思うかもしれない。
統計学の基礎知識を分かりやすく解説しているAVILENが、分散と標準偏差の意味と算出方法をまとめている。
ニュースソースによって主観性は異なるのか?
上記の分析は、記事の全体像を把握するのには優れているが、ニュースソースの区別はしていない。明らかに、ニュースのサイトや局によって政治的観点やスタイルが異なるので、コロナウイルスの状況に対する解釈がメディアごとに異なるのは理にかなっているのではないだろうか。
センチメントの分布を再プロットしてみよう。今回の分析では2つのニュースサイトをハイライトして、2つの間に何か違いがあるかどうかを見てみよう。
記事数 | 主観度の平均 | 標準偏差 | |
---|---|---|---|
CNN | 1,208 | 0.401 | 0.071 |
ニューヨークタイムズ | 4,243 | 0.391 | 0.097 |
何か違いに気づいただろうか。違いを見分けるのは難しいかも知れない。参考になる指標を見てみよう。
両サイトの平均値は40%とほぼ同じだ。しかし、標準偏差はかなり異なっていることがわかる。これらの指標からは、(平均は似ているが標準偏差は異なるという)相反する結果が得られているように見える。この2つの分布がどれくらい似ているかを定量化する別の方法はあるだろうか。
Kolmogorov-Smirnov (KS)検定は、2つの分布が異なるかどうかをそれぞれから標本を引き出して決定するノンパラメトリック検定だ(※訳註2)。私たちのケースでは,この検定の実施は次のことを意味する:1つのサイトの分布が他のサイトと同じか。
KS検定における帰無仮説は次の通りとなる。(帰無仮定を表す数学記号である)H0は、1つのサイトから得られた記事センチメントの分布が他のサイトと同じ、とする。
KS検定を使用してd=0.089の検定統計量を得てから、パーミュテーションテストからp値を0に決定した。 こうして帰無仮説を棄却できると結論付けることができる(※訳註3):ゆえに最初のサイトの分布は、2番目のサイトの分布とは異なる。これは、標準偏差の違いによるものである可能性が高い(また、分布の他のニュアンスの可能性もある)。
2つの分布は異なっているが、その理由を確かめるのはまだ少し難しい。データを別の方法で切り出してみて、何か興味深いことがわかるかどうか見てみよう。
帰無仮説を棄却する推論過程については、前出のAVILENが『仮説検定とは?初心者にもわかりやすく解説!』という記事でわかりやすく解説している。
状況が進むにつれて主観性は変化するのか?
主観性の分布を見ることは素晴らしい出発点だったが、それは私たちの誰もが知っている何かを表してはいない:状況は日々進展している。アメリカでのCOVID-19の症例数は1月初旬には0だったが、ここ数日は特に急速に進行している。記事の主観性はこの傾向に追随しているのだろうか。
ニュース記事がコロナウイルス感染の進展を反映しているかどうかを確かめるために、過去数ヶ月間の平均主観度を1日毎にプロットして、状況が進むにつれて変化があったかどうかを見てみよう。1日毎の平均主観度とは、その日に公開されたすべての記事の主観度の平均値のことである。結果は以下のようになる。
以上のグラフが示しているように、2月末から新型コロナの感染確認件数が増え始めても、主観度はかなり一定している。どちらのサイトでも、1日の平均主観度は0.40前後で推移しており、ヒストグラムで表した前述の分布に見られる40%の主観度と一致している。あまり刺激的ではない分析結果ではあるが…。
もう少し分析の粒度を上げてみよう。対応する日付のすべての記事の主観度をプロットして、任意の日の主観度の広がりを見てみよう。
以上のグラフで見れることは、かなり驚くべきものだ。2月23日以降、ニューヨークタイムズの記事の書かれ方に大きな変化が見られる。この変化は、感染確認者数の推移が描くカーブが大きくなったことに対応している。2月23日以前は、ほとんどの記事で主観度が0.2~0.6の範囲内に収まっていた。2月24日には、アメリカで確認されたCOVID-19の感染確認数は15から51に跳ね上がり(3.4倍の増加!)、その時点から記事の主観度は非常に変動している。こうした主観度の広がりは、数日間にわたって続く。
CNNへの影響は、もしあるとしても、もっと微妙なようだ。2月23日以降も、主観度はほとんど0.2から0.6の範囲内にとどまっている。CNNの執筆者は同じレベルの客観性を維持しているが、ニューヨークタイムズの執筆者は状況の進展に反応し、場合によっては完全に主観的な記事を書いているようだ。
ニューヨークタイムズの記事の中には、2月23日以降、より客観的になったものもあるが、ここでのポイントは、読んだ記事にもよるが、2月23日以前にあった主観度の首尾一貫性がもはや得られないだろう、ということである。
・・・
センチメント分析:極性(ネガティブ vs. ポジティブ)
収集したニュースソースがどのように主観的であるかについて、より良いアイデアが得られたので、つぎは極性に注目してみよう。極性とは、与えられたテキストのまとまりがどれだけネガティブか、あるいはポジティブかを測定するものだ。TextBlobは、与えられたテキストのまとまりに関する極性を-1(ネガティブ)から1(ポジティブ)の間でランク付けする。
このセクションを始めるにあたり、コロナウイルスに関する記事の極性は、それ自体が意見の問題であるということを前置きしておきたい。言い換えれば、もしあなたが目下の状況が本当に憂慮すべきものであると思っているならば、否定的な記事はそうした状況に相応しいように思えるだろう。しかし、現状が「誇張されすぎ」だと思うのであれば、ネガティブな記事は現実とはかけ離れているように感じられるかも知れない。このように、結果の解釈はあなたの視点次第なのだ。
前回と同様の分析を行って、今度は記事の極性を見てみよう。
- 集めたコロナウイルスのニュース記事はどのような極性だろうか?
- ニュースソースによって極性は異なるのか?
- 状況が進むにつれて(時間の経過とともに)極性は変化するか?
集めたコロナウイルスのニュース記事はどのような極性だろうか?
記事数 | 5451 |
---|---|
極性の平均 | 0.071 |
標準偏差 | 0.068 |
平均して、記事の極性はかなりニュートラルだ。これは、評判の良いニュースソースに期待すべきことである。標準偏差も小さく、記事の極性が記事間でかなり一貫していることを示している。また、評価指標は主観性のそれよりも小さく、主観性よりも極性のばらつきが少ないと言える。
ニュースソースによって極性は異なるのか?
記事数 | 極性の平均 | 標準偏差 | |
---|---|---|---|
CNN | 1,208 | 0.072 | 0.061 |
ニューヨークタイムズ | 4,243 | 0.07 | 0.07 |
繰り返しになるが、両方のニュースサイトでほぼ同じ平均値が見られ、今回は標準偏差もやや似ている。2つのサイト間の極性分布は同じである可能性が高いと予想すべきだ。こうした予想を再度KS検定で検証してみよう。
今回のKS検定ではふたつの分布はやや似ているものも、p値が0.04なので、帰無仮説は棄却される:つまり、分布が異なっているようなのだ。
状況が進むにつれて極性は変化するのか?
ここでも主観性分析で見たのと同様の挙動が見られる:1日平均の極性は時間が経過してもかなり一定で、両サイトともほとんどが0から0.2の間に留まっている。したがってどの日についても、その日の平均的な記事はかなり中立的だ。
驚くべきことに、分析の粒度を上げても主観性分析と同じ挙動が見られる。2月23日以降、ニューヨークタイムズの記事は、任意の日における極性のばらつきが大きい。しかしながら、そうしたばらつきはポジティブな方向にわずかに偏っているように見える。つまり、2月23日以降に公開された同メディアの任意の記事は、その内容が中立ではなくポジティブである可能性が高いのだ。繰り返すが、CNNはこのような挙動はあまり見られないようである。
結論
ウェブスクレイピングとNLP(センチメント分析)を用いて、現在のアメリカにおけるコロナウイルスの状況に対するメディアの反応を分析した。平均的に記事内容の40%が主観的なもので、極性としてはかなり中立的であることがわかった。また、2つのニュース局のあいだの記事は実際には異なっており、ニューヨークタイムズの方がCNNよりもはるかに状況の変化に反応していることも示した。
願わくは次にニュース記事を開くときには、読者諸氏が読もうとしている記事がコロナウイルスに関する状況の実際をどれだけうまく描写しているか、もう少し自信を持てるようになったのではないだろうか。
・・・
この記事をお楽しみ頂けただろうか。もしそうなら、以下にコメントを残してください!そして、あなたがこの記事について何が好きだったか、またはこの分析を他のニュースサイトでも見てみたいと興味を持ったなら、私に知らせてください!
このプロジェクトのコードはGitHubにあります。
・・・
編集者からのコメント:(この記事を公開したMediumのサブメディアである)Towards Data Scienceは、データサイエンスと機械学習の研究を中心としたMediumの出版物です。私たちはヘルスケアの専門家や疫学者ではないので、この記事の意見を専門的なアドバイスとして解釈すべきではありません。コロナウイルスパンデミックについて詳しく知りたい方は、こちらをクリックしてください。
原文
『Coronavirus in the News: Are they Overreacting?』
著者
Tom Sharp
翻訳
吉本幸記(フリーライター、JDLA Deep Learning for GENERAL 2019 #1取得)
編集
おざけん