UA-115498173-1

2018年02月10日

インフルエンザと統計

もう回復しましたけれど,ひさしぶりに風邪などとというものをひいてしまいました.発熱はしましたが,全身症状がなかったのでインフルエンザではないと判断し,医者にはいかずに二日ばかり寝ていました.仮にインフルエンザだったとしてもインフルエンザ脳症や異常な発熱がない限りは自宅療養が良いようです.インフルエンザで「早めの受診」は間違いです!
今年はインフルエンザが大流行だそうで,わたしが風邪をひく数日前にもTwitterで現場の医師の悲痛な叫びが流れていました.確かに寝ていれば自然治癒する病気のために医療リソースを割く必要はありません.患者自らにとっても,インフルエンザウィルスの高密度エリアである病院の待合室に風邪で免疫力が低下している身を暴露するというリスクがあること,何よりも怖いのは別のウィルスを貰ってくる可能性を覚悟するべきです.風邪とインフルエンザとを同時に発症することはあり得るのですが,これは辛いでしょうね.
世間一般的には,インフルエンザの疑いがあれば病院に行ってインフルエンザの検査をしてもらい,その結果が陽性であればタミフルやリレンザなどの治療薬を飲むという流れのようです.とはいえ,インフルエンザの検査はどのくらい有効なのでしょう?悪寒や倦怠感等の初期症状がある患者のインフルエンザ有病率を仮に50%とします.インフルエンザの鼻ホジホジ検査 本当に必要か?という記事によればインフルエンザ検査の感度は70%程度で,特異度の数値はありませんが仮に90%としてみます.するとインフルエンザに罹患していた人のうち検査で陽性となるのは3500人で,陰性は500人ですから,陽性的中率は3500/(3500+500)=87.5%となります.この程度の的中率であれば検査はむしろ受けないのが正解ではないでしょうか.検査喧嘩が陰性だからということで少々無理して出社したものの,実はやはりインフルエンザでしたという人が10人に1人もいるという状況を考えてみてください.
わたしは今年のインフルエンザの流行の背景には新型インフルエンザに備えた流行対策が通常のインフルエンザにも拡大適用されてしまっていることが一因と考えています.会社の決まりでインフルエンザ検査を受けなければならないとしてもその的中率は90%程度のものであると認識した運用が必要です.
一部にはこのインフルエンザの流行は「風邪でも(会社を)絶対休まないおじさん」のせいであるという意見があります.インフル大流行は「風邪でも絶対に休まないおじさん」のせい?
 この著者(窪田さん)は元朝日新聞にもいらしたようで,いわば生粋のメディア系ライターです.この類のライターには思い込みが強い方が多いので注意が必要です.自説を肯定するデーターにはとれも敏感である一方で,データに都合の悪いところがあっても,それが目に入らないことも多いようです.このため,Stat Spottingの重要なリソース記事を提供してくださることが多いのです.データを見るに,まず仮説を立てることが肝要と「統計的問題解決入門」でも説きましたが,このとき仮説はあくまでも仮説であって真理に到達するための踏み台であるという認識が欠けてはなりません.自らの考えという色眼鏡で世の中をみていしまうとデータの背後にある事実も曇って見えてしまいます.
この記事では,第一三共ヘルスケアのオンラインマガジン「30〜40代男性有職者の6割が「風邪で仕事を休めない」!? ミドルマネジメント層ほど休まない傾向に」が参照されています.おそらく,このデータを見た瞬間に飛びつき,素直にこれを受け入れて(しかも少々歪んで)しまったのでしょう.
この論評にケチをつけるつもりはありません.ITmediaの他の記事などを読むに目の付け所が面白い方と思います.とはいえ,この記事のソースでもある「風邪でも絶対に休まないおじさん」については少し深く考えてみたいと思います.
まず記事への突っ込みとしては,第一三共ヘルスケアが風邪についての調査をしているのに対して,それがいつの間にかインフルエンザに変わってしまっていることです.ご存知の通り両者は症状は似てはいるものの,過酷さや感染力は桁違いにインフルエンザの方が大きいものです.風邪では休まないけれどインフルエンザでは休まざるを得ない,という方も多いことでしょう.ですから,そもそもこのデータをインフルエンザ大流行の原因の考察に使うのは問題があります.
第一三共ヘルスケアのデータそのものにもいくつか気になる点があります.一つは役職の定義です.この調査ではさまざまな業種を対象としていますが,一般企業に混ざって官公庁も含まれているのです.一般に一般企業の課長と官公庁の課長とではそれこそ天と地と程も違うことはご存知でしょう.アンケートでこのことが考慮されているのか,あるいはデータにそのような補正がなされているのかは不明です.官公庁には「休む派」が多いという結果(図4)にも絡むので,アンケートでは役職名ではなく,部下の人数を順序尺度として,あるいはいっそのこと自由形式にして量的にデータを取れば面白かったかもしれません.
そして最大の疑問は図5です.この記事の見出しにもなっている分析結果ですが,ここでミドルマネジメント層として部長だけをとりあげ課長を入れていないことが腑に落ちません.このグラフでは%表示されていますが,グラフの下に小さい字でサンプルサイズも書かれていて,それによればそもそもこのデータでは部長の数が少ないということが見て取れます.
統計学ではこのような分割表データでの有意性の検証にはカイ二乗検定を使うことはご存知と思います.公式に入れると簡単にp値が計算できて5%で有意であるけれど1%にはぎりぎり届かずという感じになります.JMPでこの分析をするのは簡単ですが,分割表を一度行データに戻さなければならないのが面倒ですが,この図のようにJMPでも同じ結果が得られました.
Screen Shot 2018-02-10 at 6.53.50.png

分割表の一区画の度数が10以下の場合に,Yatesの補正をかけるということも習ったことがあるかもしれませんが,この場合にいくつかの階級を統合するという手もあります.今の場合,部長クラスでも度数は十分ありますが,課長クラスと合わせて中間管理職という階級を新たに作ることにはデータ分析の目的からも合理性があります.
とはいえ,このような操作ではぎりぎり有意になった休む派と休まない派との差が消失する方向にいくのは間違いありません.「風邪をひいたら中間管理職がまず率先して休む」というメッセージと整合させるためには,階級を分割したほうが都合がよいのです.どうもメディアは公表する結果が面白くないとその価値が低いと考えているようなので,わたしたちとしては,ますますリテラシーを問われる機会が多くなっています.
このデータには他にも疑問がいくつかあるのですが,例えば一部のデータのみ「休む派」「休まない派」それぞれ500人を無作為抽出していたり,長くなるので今日はここらへんで止めておきます.それではまた.
タグ:統計学 JMP
posted by Tad at 06:59| Comment(0) | TrackBack(0) | Stat Spotting

2018年02月02日

お詫びと訂正のカテゴリーを新設しました.

いろいろと訂正することも増えてきたので,新たにカテゴリーを新設しました.改めて読者の皆様に謹んでお詫び申し上げます.先にコメント頂いたお二人以外もオフラインでご指摘いただいたIさんどうもありがとうございました.またHさんからも昨年にご指摘いただいておりましたこと失念していました.申し訳ございません.言い訳は見苦しい限りですが,サポートファイルの取り違えが原因です.私の執筆時の環境はJMP13でしたので一部のメニュー(と言ってもヘルプくらいですが)が英語でしたので,本書の図版はSAS社のご協力で当時の最新の13.2で取り直していただいたものです.その際に間違ったファイルを渡してしまったようです.サポートファイルは数多く試作しましたが,あいにくほとんど消去してしまっているので,今のタイミングではJMP14のリリースを待ってじっくり検証した上でサポートファイルを皆様にご提示しようと考えています.

既にブログで報告済みですが,以下に単純なタイポを再度掲載しておきます.
1.p11の下のエクセルデータで,左のデータの右側が50代になっていますが30代の間違いです.単純なタイプミスのチェクもれです.話の内容には大きな影響はありませんが,訂正します.
2.p85の2行目のJMPくんの台詞で,「表示形式」のところで「データ点はオフ」を選択するとデータ点が見えるよ...とあるのはもちろん「データ点が消えるよ」の間違いです.デフォルトではテータ点が見えるようになっているので,理解する上では大きな問題はないと思います.
3.対応済みなので削除.
4.p65のJMPくんの台詞で「降水量をY軸に,平均気温をX軸に...」ではXとYとが逆ですね.
5.p125の脚注のBinormalはBinomial(二項分布)のタイポです.
6.p140ページの統子ちゃんの台詞でRSMEとあるのはRMSE(Root-mean-square-error)のタイポです.
posted by Tad at 17:30| Comment(0) | TrackBack(0) | お詫びと訂正

2018年01月27日

Q&Aのカテゴリーを作成しました

先週の続きです.お答えをアップしようと思っていたのですが,雪が降ったりして(あまり関係ありませんが)つい週末になってしまいました.ちょうど別の質問も頂いたので,少し前にの新規に作成したQ&Aカテゴリーにまとめて掲載します.
最初の質問ですが,P227でJMPくんが「てこ比プロット」が一番下の「効果の詳細」に隠れていると言っているけど,「効果の詳細」が見当たらないというものです.
その直前の応答の赤三角から「行ごとの診断統計量>効果てこ比のプロット」を実行してというJMPくんのメッセージをおそらく見落とされているのだと思います.この後の縮約モデルを作る処理はp148以降で説明している操作と同じですので,ここを読み返してみてください.
一つtipsを書いておきますと,この応答の赤三角にあるコマンドのように選択することでレポートの表示項目を切り替えるものが多数ある場合,Altキーを押しながら赤三角をクリックして見てください.この図のようなウィンドウが開きますので,表示させたい項目にチャックをいれることで,赤三角それぞれのコマンドにチャックを入れることができます.
image001.png
このほうが,複数同時にチェックを入れたり,何にチェックがついているかを一瞥できるのでとても便利です.

次に頂いた質問は,P215でJMPくんが「スクリーニング計画のデータ分析は一瞬だよ」といっているところに関するものです.ここでは具体的には緑三角をクリックするわけですけど,これを自分のデータでやるのはどうしたらよいのかという質問です.自分のデータといえども,スクリーニング計画のテーブルに入力すれば良いのですが,おそらくご質問の真意はJMPでなく例えばエクセルでスクリーニング計画のテーブルを作成した場合のようなことでしょうか.この場合でもJMPでスクリーニング計画を作り直して自分のデータを入力するのが間違いがありませんのでオススメです.
ご質問を緑三角ボタンでなく通常のJMPコマンドでスクリーニングを処理するのはどうしたらよいかという意味と解釈しますと,これは良い質問です.スクリプトで実際にどういう処理が走っているのかを知ることは有益です.
「スクリーニング」のスクリプトはスクリーニング計画のための特殊なものなので内部処理の詳細は定かではありませんので厳密に同じという保証はできませんが,一般的なスクリーニング処理としては「モデルのあてはめ」から手法として「ステップワイズ法」を選んで実行します.このとき,Yに収率しか入っていないはずですので,「副生成物」も追加してください.書籍では「スクリーニング」のスクリプトを修正かけるように記述しましたが,「モデル」のスクリプトに修正かければ,この場合でも「副生成物」がYに追加されることになります.ステップワイズはとりあえずデフォルト設定で『実行』します.このときCtrlキーを押しながら『実行』すれば二つの応答(Y)に対して同時に処理されます.この後,それぞれの応答について「ステップワイズ回帰の設定」のところにある『モデルの実行』をクリックすると「スクリーニング」スクリプトによるのと同様な結果が得られます.(「効果の要約」にはそれぞれの要因ごとに対数価値が棒グラフで示されていたりと厳密には同じ表記にはなっていませせん.)応答の赤三角から「要因のスクリーニング>尺度化した推定値」を実行すると尺度化した推定値でグラフが描かれますので,スクリーニングの目的には見やすいでしょう.同じところに「正規プロット」もあります.半正規プロットは正規プロットの右上にあるプルダウンから指定することで描けます.この場合,Y軸は「推定値」になり「スクリーニング」スクリプトのところの「対比の絶対値」と見た目は同じグラフになります.ちなみに,ややこしいのですがX軸は「正規分位点」のままになっていますが,これは「半正規分位点」の間違いであろうと思います.英語版でも「Normal Quantile」となっているので訳の間違いではなさそうです.
というわけでご質問いただいたTさん,Sさんこれで回答になっていますでしょうか.もしまだ何かありましたら,コメントいただければと思います.
(見た目は寂しいですが,コメントされるかたもそのほうが安心だろうとの配慮から基本的にコメントは公開していません.)
それではまた.
タグ:問題解決 Q&A JMP
posted by Tad at 11:36| Comment(0) | TrackBack(0) | Q&A

2018年01月20日

訂正のお知らせ

年末年始の休暇中に本書で勉強してくださった方から質問をいただいています.その中で明らかなミスがありましたのでご報告いたします.本書ではサポートファイルを用いてJMPを操作しつつ自習でき,そのことを類書と比較しての特徴の一つとして企画しました.読者に実習してもらうという形式を採用するにあたって,経験者からは問題点もコメントいただいていました.まず,誤魔化しがきかなくなるので校正が大変になるということ,そして読者のJMP操作のスキルによっては説明が不親切になりかねないということ.書籍ではマニュアルのように丁寧な操作手順を示すのには限界があります.それらを踏まえてもJMPの面白さは自分で手を動かさなければ伝わらないと考えた末にサポートファイルを準備しました.念を入れたつもりではありますが,いくつかの不備が(やはり)出てしまったことをお詫びいたします.

1.p202の「グラフビルダー」のグラフ
サンプルファイルを使うとこのグラフはこのようになりません.ここはデータを作るのにおそらく本書執筆で一番手間のかかったところです.試行錯誤でサンプルデータをつくる際に別バージョンのデータによるグラフと入れ替わってしまったようです.実際,計太くんが「収率で実験ブースの寄与があったのも気になるんだけど」と言ってますけれど,p200の「列の寄与」では「実験ブース」の寄与は「収率」「副生成物」ともに0となっています.
現在のサポートファイルからは「実験ブース」の寄与に関する部分は導出できません.サポートファイルをこのバージョンのものに入れ替えることは可能ですので,機会を見つけて差し替えたいと思います.とはいえ確認作業が必要ですので,しばらくお時間をいただければありがたいです.

2.p207の「EMPシステム分析」のグラフ
上記と全く同じ理由で,今のサポートファイルではこのグラフのようになりません.上記と同じく,ここは分析の流れだけを見て頂ければと思います.あまり重要な部分ではないのですが,サポートファイルの訂正も検討します.

3.p229の統子ちゃんのセリフ
「このように入力すればいいのね」ではなく,「このようにチェックを入れればいいのね」がより正確です.下の図では「触媒」「反応時間」がそれぞれ最低値に変更されていませんので.手順としてはチェックを入れた後に,それらの値を変更する必要があります.ちょっと紛らわしいですね.すいません.

もう一つ質問をいただいていますが,実は本日体調不良でして,続きは来週中ということにさせてください.

それでは.
posted by Tad at 12:14| Comment(0) | TrackBack(0) | お詫びと訂正

2018年01月13日

品質工学とパラメータ設計

今週は大雪の降る金沢にいっていました.以前米国の豪雪地域に住んでいたので,あの雪かきの苦労も身にしみていて雪には慣れているのですが,今回雪雷というのを初めて見ました.「鰤起こし」といってこの時期に富山湾の氷見鰤が捕れるのだとか聞いたことがありますが,あれがそうだったのでしょうか.関東で夏に発生する雷とは明らかに違うのは落雷の瞬間がとても明るいことです.日本海側で発生する雪雷は高度がとても低いからだそうです.
さて,今回は某所で統計的問題解決の触りをお話ししてきました.本書では統計的問題解決と名前をつけましたが,巷では使いにくい言葉です.漠然としていますし,先週お話ししたように,現状では統計という言葉の持つ意味についていろいろな捉え方があるからです.本書で呼ぶ統計的問題解決の実態は,実験計画によるデータから得た統計モデリングをベースとしたパラメータ設計にすぎません.本書ではワンワードで呼びたかったのでこのように命名しましたが,通常は統計的問題解決という言葉は使わずに単にパラメータ設計で済ませます.そうすると品質工学と何が違うのかと言う質問をときどき頂きます.
この質問に答えるとどうしても品質工学を否定するように捉えられてしまう恐れがあります.そこで,あまり具体的には踏み込まないで,最適化という山の頂上に登るのにそれぞれ別の登山口から異なった登山道を歩くようなものですとお答えすることにしています.基本的に好きなルートを採用すればいいのです.しかしながら,少なくとも私の知っている範囲では品質工学の登山道ではガイドを伴わない単独登頂での遭難事故が多発しています.
統計的問題解決と品質工学との違いは技術的にはいろいろとありますけれど,ここで少しだけドグマについてお話します.まず重要なこととして,品質工学は製品の源流に立ち戻るという基本思想からおわかりのようにメカニズムドリブンであるということです.これに対して統計的問題解決はデータドリブンです.品質工学が「かくあるべき」であるならば,統計的問題解決は「あるがまま」ということでしょうか.これらのドグマの違いはシステムの交互作用に対峙する姿勢の違いとなって表出します.即ち,品質工学では交互作用は潰すべき対象として邪魔者であるのに対し,統計的問題解決では交互作用は見出す対象であり,それはむしろ宝であると考えます.
更に,統計学を使うという姿勢にも違いがあります.品質工学は他の手法との比較が原則としてなされていないクローズな手法であるのに対し,統計的問題解決では最新の統計学の成果を積極的に利用します.例えば,決定的スクリーニング計画もそれが使える状況であればどんどん使うというオープンな手法です.オープンであるが故に事例ではケースバイケースの対応が可能で,これこれこういう場合にはこうしなければならないとは言えません.その点では品質工学のほうが初学者には入りやすいかもしれません.JMPのような多機能なソフトを必要としないのも品質工学の特徴ですが,わたしはこれはむしろデメリットと思っています.
このように統計的問題解決はオープンな手法ですから,より多くの技術者の皆さんと議論をし,手法の比較検討検討をして,より良い手法を開拓していく必要があります.今まで品質工学しかやったことがないという方にもせひ挑戦して頂きたいのです.そのための良い参考書が河村・高橋(2013)『統計モデルによるロバストパラメータ設計』,日科技連です.著者の一人の島根大学の河村先生は当時在籍なさっていた統計数理研究所のコラムで次のように書かれています.
品質工学会の会員の多くは、電気系・機械系・化学系などの実験系工学出身者であるため、統計学あるいは実験計画法をベースにデータ解析を行っている技術者は数少ない(日本の工学系の教育カリキュラムにSQC やタグチメソッドを導入している学科は極めて少ない)。そのため、学会発表では一方通行的なタグチメソッドを用いた成功事例が多く、他のデータ解析手法と比較検討した事例、失敗事例を別観点からの改善検討事例、またタグチメソッドの統計的観点による理論研究などの話題は少なく、これらは今後の課題となってくるであろう。(引用ここまで)
河村・高橋(2013)はこのために品質工学から統計モデリングによるロバストパラメータ設計(本書でいうロバスト最適化に限定した統計的問題解決)への橋渡しを意図して書かれています.この本の中では明示されていませんが,紹介されている事例の多くは品質工学の事例として有名なものでそれらをJMPを用いて最適していますが,実はJMP単独ではスクリプトを書くでもしないと困難なことがあって,アドインを用いています.HOPEアドインという名称で,『JMPではじめる統計的問題解決入門』でも言及しました.(因みに河村先生は別の書籍ではSRPDアドインという派生版を使っておられます.)近いうちにHOPEについてはこの場で紹介しますので,しばしお待ちください.

それではまた.
タグ:統計学
posted by Tad at 14:18| Comment(0) | TrackBack(0) | 統計的問題解決