2018年02月10日

インフルエンザと統計

もう回復しましたけれど,ひさしぶりに風邪などとというものをひいてしまいました.発熱はしましたが,全身症状がなかったのでインフルエンザではないと判断し,医者にはいかずに二日ばかり寝ていました.仮にインフルエンザだったとしてもインフルエンザ脳症や異常な発熱がない限りは自宅療養が良いようです.インフルエンザで「早めの受診」は間違いです!
今年はインフルエンザが大流行だそうで,わたしが風邪をひく数日前にもTwitterで現場の医師の悲痛な叫びが流れていました.確かに寝ていれば自然治癒する病気のために医療リソースを割く必要はありません.患者自らにとっても,インフルエンザウィルスの高密度エリアである病院の待合室に風邪で免疫力が低下している身を暴露するというリスクがあること,何よりも怖いのは別のウィルスを貰ってくる可能性を覚悟するべきです.風邪とインフルエンザとを同時に発症することはあり得るのですが,これは辛いでしょうね.
世間一般的には,インフルエンザの疑いがあれば病院に行ってインフルエンザの検査をしてもらい,その結果が陽性であればタミフルやリレンザなどの治療薬を飲むという流れのようです.とはいえ,インフルエンザの検査はどのくらい有効なのでしょう?悪寒や倦怠感等の初期症状がある患者のインフルエンザ有病率を仮に50%とします.インフルエンザの鼻ホジホジ検査 本当に必要か?という記事によればインフルエンザ検査の感度は70%程度で,特異度の数値はありませんが仮に90%としてみます.するとインフルエンザに罹患していた人のうち検査で陽性となるのは3500人で,陰性は500人ですから,陽性的中率は3500/(3500+500)=87.5%となります.この程度の的中率であれば検査はむしろ受けないのが正解ではないでしょうか.検査喧嘩が陰性だからということで少々無理して出社したものの,実はやはりインフルエンザでしたという人が10人に1人もいるという状況を考えてみてください.
わたしは今年のインフルエンザの流行の背景には新型インフルエンザに備えた流行対策が通常のインフルエンザにも拡大適用されてしまっていることが一因と考えています.会社の決まりでインフルエンザ検査を受けなければならないとしてもその的中率は90%程度のものであると認識した運用が必要です.
一部にはこのインフルエンザの流行は「風邪でも(会社を)絶対休まないおじさん」のせいであるという意見があります.インフル大流行は「風邪でも絶対に休まないおじさん」のせい?
 この著者(窪田さん)は元朝日新聞にもいらしたようで,いわば生粋のメディア系ライターです.この類のライターには思い込みが強い方が多いので注意が必要です.自説を肯定するデーターにはとれも敏感である一方で,データに都合の悪いところがあっても,それが目に入らないことも多いようです.このため,Stat Spottingの重要なリソース記事を提供してくださることが多いのです.データを見るに,まず仮説を立てることが肝要と「統計的問題解決入門」でも説きましたが,このとき仮説はあくまでも仮説であって真理に到達するための踏み台であるという認識が欠けてはなりません.自らの考えという色眼鏡で世の中をみていしまうとデータの背後にある事実も曇って見えてしまいます.
この記事では,第一三共ヘルスケアのオンラインマガジン「30〜40代男性有職者の6割が「風邪で仕事を休めない」!? ミドルマネジメント層ほど休まない傾向に」が参照されています.おそらく,このデータを見た瞬間に飛びつき,素直にこれを受け入れて(しかも少々歪んで)しまったのでしょう.
この論評にケチをつけるつもりはありません.ITmediaの他の記事などを読むに目の付け所が面白い方と思います.とはいえ,この記事のソースでもある「風邪でも絶対に休まないおじさん」については少し深く考えてみたいと思います.
まず記事への突っ込みとしては,第一三共ヘルスケアが風邪についての調査をしているのに対して,それがいつの間にかインフルエンザに変わってしまっていることです.ご存知の通り両者は症状は似てはいるものの,過酷さや感染力は桁違いにインフルエンザの方が大きいものです.風邪では休まないけれどインフルエンザでは休まざるを得ない,という方も多いことでしょう.ですから,そもそもこのデータをインフルエンザ大流行の原因の考察に使うのは問題があります.
第一三共ヘルスケアのデータそのものにもいくつか気になる点があります.一つは役職の定義です.この調査ではさまざまな業種を対象としていますが,一般企業に混ざって官公庁も含まれているのです.一般に一般企業の課長と官公庁の課長とではそれこそ天と地と程も違うことはご存知でしょう.アンケートでこのことが考慮されているのか,あるいはデータにそのような補正がなされているのかは不明です.官公庁には「休む派」が多いという結果(図4)にも絡むので,アンケートでは役職名ではなく,部下の人数を順序尺度として,あるいはいっそのこと自由形式にして量的にデータを取れば面白かったかもしれません.
そして最大の疑問は図5です.この記事の見出しにもなっている分析結果ですが,ここでミドルマネジメント層として部長だけをとりあげ課長を入れていないことが腑に落ちません.このグラフでは%表示されていますが,グラフの下に小さい字でサンプルサイズも書かれていて,それによればそもそもこのデータでは部長の数が少ないということが見て取れます.
統計学ではこのような分割表データでの有意性の検証にはカイ二乗検定を使うことはご存知と思います.公式に入れると簡単にp値が計算できて5%で有意であるけれど1%にはぎりぎり届かずという感じになります.JMPでこの分析をするのは簡単ですが,分割表を一度行データに戻さなければならないのが面倒ですが,この図のようにJMPでも同じ結果が得られました.
Screen Shot 2018-02-10 at 6.53.50.png

分割表の一区画の度数が10以下の場合に,Yatesの補正をかけるということも習ったことがあるかもしれませんが,この場合にいくつかの階級を統合するという手もあります.今の場合,部長クラスでも度数は十分ありますが,課長クラスと合わせて中間管理職という階級を新たに作ることにはデータ分析の目的からも合理性があります.
とはいえ,このような操作ではぎりぎり有意になった休む派と休まない派との差が消失する方向にいくのは間違いありません.「風邪をひいたら中間管理職がまず率先して休む」というメッセージと整合させるためには,階級を分割したほうが都合がよいのです.どうもメディアは公表する結果が面白くないとその価値が低いと考えているようなので,わたしたちとしては,ますますリテラシーを問われる機会が多くなっています.
このデータには他にも疑問がいくつかあるのですが,例えば一部のデータのみ「休む派」「休まない派」それぞれ500人を無作為抽出していたり,長くなるので今日はここらへんで止めておきます.それではまた.
タグ:統計学 JMP
posted by Tad at 06:59| Comment(0) | TrackBack(0) | Stat Spotting

2017年08月14日

Stat Spotting

先日のStat Spottingカテゴリーの記事で,そもそもSpot Spttingとは何かについてお話しするのを忘れていました.Stat Spttingとは私の知る限りでは,Joel Best(2008), Stat-Spotting: A Field Guide to Identifying Dubious Data, University of California Pressで最初に使われた言葉のように思います.今調べたら日本語訳も出ていました.ジョエル・ベスト (2011),林大 (訳)『あやしい統計フィールドガイド―ニュースのウソの見抜き方』白揚社です.翻訳者はタイトルを訳されるのに苦労なさったと想像しますが,Stat-Spottingをそのまま訳すのは避けたようです.
イギリスというかスコットランドを舞台とした有名な青春(といっては陰鬱な)映画にユアン・マクレガー 出演のトレインスポッティングがありました.(そういえば続編の「T2 Train Spotting」が今年公開されましたね.)現地の鉄道操車場跡に薬物中毒者らが集っていたことから,彼ら不良のことをTrain Spotting(鉄道ファン)と現地のスラングで呼んだということをどこかで読んだ記憶があります.Spottingのそもそもの意味は偵察ですし,レーダー探知で敵を発見したときなどもSpottingと言います.電車を見ると目がついそちらに行ってしまう,いわゆる鉄オタ趣味のことをTrain Spottingというのですね.
というわけでStat Spottingは直訳すると統計(情報)の偵察とでもいいましょうか.あるいは統計で偵察するというのでも意味としては良さそうです.具体的に何を偵察するかというと,統計的に表現された世の中の(ときとして怪しげな)言説や報道及びそれらに使用されているグラフなどの統計情報をチェックするのです.TVや新聞等のメディアだけでなく電車の吊り広告などもStat Spottingのターゲットになります.世の中を見回してどこかにこのようなターゲットがないかを探す趣味がStat Spottingなのです.
Stat Spottingを趣味とする人は世の中にたくさんいらして,私もその一人なのですが,ちょうど今Spttingした広告に関する論文を読んでいるところです.近いうちにStat Spottingのカテゴリーで紹介したいと思います.

それでは.
posted by Tad at 12:08| Comment(0) | Stat Spotting

2017年08月11日

Stat Spotting

このブログのカテゴリーに「Stat Spotting」というのを設けてあるのですが,まだ一本も記事がないのでこのカテゴリについてちょっと書きます.と言っても今回は書籍のレビューのようになってしまいそうです.

池上彰,佐藤優(2016)『僕らが毎日やっている最強の読み方』東洋経済新報社を読んでみました.「読み方」と題名にありますが,ここで公開されている手法・方法は特にユニークなものとも思えませんので,ハウツー本というよりは著者の知的活動の一端をファンに公開するといった類の本です.お二人とも新聞や雑誌,更には書籍等から大量の情報を仕入れていて,書籍の中ほどにそれらのリストが綴じ込んであります.(わざわざ別刷りの綴込みとしているのはどういう趣旨なのでしょうか?)このリストによると,ときどき読む類のものまで入れると新聞では池上さんが14紙,佐藤さんが18紙だそうです.雑誌では,週刊誌や月刊紙それに季刊,隔月やWEB雑誌なども含めて,池上さんが29誌で,佐藤さんにいたってはなんと55誌です.いくら仕事とはいえよくやりますね.真似をしようともできるとも思いませんけれど,そもそも私たちが真似をすべきではないでしょう.というのも彼らはそれが仕事の一部なのであって,私たちはお金を出して苦行ともいえる作業を彼らにやってもらっているという図式があるからです.かつて司馬遼太郎さんが,作家は読者からお金を貰って考えるという仕事をさせてもらっている,という趣旨のことをどこかで書かれていました.お金を出せばやってもらえる仕事を自分でやるのは無駄です.しかも自分でやるとなるとその何倍もの費用も時間もかかるのですから.
 それならばなぜこの本を読んだかというと,池上さんの統計リテラシーがいかほどのものなのかが判断できると期待したからです.といいますのも,統計リテラシーのセミナーの準備をしている最中なのですが,その中で池上さんの絡んだ最近の話題を取り上げようかと思案しているのです.その話題というのはtwitterでも拡散されてましたからご存知の方も多いでしょう.ご存知なければ「池上彰 グラフ」で検索してみてください.特に画像検索すると問題となった例のグラフが出てきます.グラフの軸のスケールを変えてデータを比較するという初歩的な間違いなのですけれど,偏向報道に敏感な世相というかネットが即座に反応しました.検索結果には正しいグラフではどのように可視化されるかという記事もあります.報道番組というヒューリスティックなソースとして発信されたことを考えると,このグラフで騙される人がいてもおかしくありません.
池上さんはNHK時代から好感を持っているので悪くはとりたくないのですが,考えられれることは以下の三つです.まず池上さんが統計リテラシーをお持ちだったとして, 
1.意図してやった.
2.スタッフの分析による台本とそれをもとにしたグラフをチェックしなかった.
という場合があります.前者であれば,何も言うことはありません.ただ,動機が弱いのでおそらく意図したことではなかったと信じたいです.後者についても,あれだけの情報を自ら取得してながら,番組の台本をスタッフ任せにしてチェックもしないというのは考えにくいです.
そこで大変失礼ながら,
3.新聞は読むのは上手いけれどデータはそれほどでもない.
のではないかと想像したのです.ご自身がデータに騙されてしまった,あるいはデータに騙されたスタッフの言説を信じてしまったのではないかということを,この本を読んでその確信を深くしました.そもそも,あれだけ日々を忙しくされていたらデータを自らダウンロードして分析するというようなことはできないはずです.データから情報をとるという作業は新聞や雑誌を読むのとはことなり,地味で時間も手間もかかる作業を強いられます.一日に新聞を14紙も読む人にはその時間はないはずです.定型的なデータを分析するだけならばJMPなどの統計ソフトを使うことで大幅に時間は節約できますし,そもそもデータ分析を外注することも可能でしょう.ですが,この場合でも統計リテラシーは必須です.しかもそれは新聞を読むこととはまた異った能力です.
データ分析を人に依頼したとしても,その結果を統計的に読んで,その情報をもとに統計的な情報を発信することまで人に依頼するのは困難です.少なくとも自らがチェックしていなければ,それはジャーナリストではなく単なるタレントです.何かの事情があったのかもしれませんが,池上さんの事例は他山の石として取り上げてもいいのではないでしょうか.何しろ有名人ですし,これだけの人でも統計的解釈を間違えることもあるのだということは(私自身も含めて)自覚すべきことです.
もう一人の著者の佐藤さんについてはあまり存じ上げなかったのですが,独自のデータを持っているのが強みと感じました.ただ,手法としてはKKDライクな根性論のように見受けます.また,沖縄問題には門外漢な私でさえ,それを専門と称されている方が沖縄タイムスと琉球新報を読んで八重山日報を読まれていないのかが不思議です.おそらく佐藤さんから発信される情報は少し偏っているかもしれません.もちろん,こういうことをお金を払う私たちが意識して使い分ければいいのです.これがメディアリテラシーですね.とはいえ,佐藤さんは猫好きということもこの本を読んで初めて知りました.きっとお人柄は良い方に違いないでしょう.
さて,私たち技術者の場合でも,問題を発見しそれを解決するためのデータ分析では外注は困難です.専門外の分野であれば,それらはむしろ外注すべきと考えますが,その外注先やソースの信頼性には十分な吟味が必要です.外注に出す出さないを問わず,いずれの場合でも統計リテラシーという能力が問われます.特に,統計的に情報を発信する能力の欠如は周囲(組織)に弊害をもたらすことの危険性を感じています.そこで,私が教える統計リテラシーは統計を読むことよりも書くことに重点を置く予定です.そのためのコンテンツをここ暫く探していこうと考えています.
最後にこの本について気になったことを一つ.紫色のマーカーがポイントとなるところどころの文に引かれていることです.とにかく目障りです.この手の類の本は最近は読んでいなかったのですが,流行なのでしょうか.そんなに難しいことが書かれているわけでもなく,しかも対談本なので会話文です.この方が本の売り上げが増すのか,想定している読者は読解力がないと考えたからなのか.そのことを謎に思いつつ,それではまた.
タグ:books
posted by Tad at 12:30| Comment(0) | Stat Spotting