UA-115498173-1

2018年02月24日

「お国柄」をコントロールする

先週の続きをもう少し.『原因と結果の経済学』では回帰分析は「ありもののデータ」を分析するための手法として紹介されています.その上で「回帰分析」では因果関係を明らかにすることが困難であり,そのためにはRCT(あるいは擬似実験)によらなけらばならないという説明に違和感があると書きました.
「ホルモン補充療法の罠」と題したコラムにも,女性ホルモンが動脈硬化を起こしにくくしているという仮説に対して,観察データを用いた(回帰分析による)研究ではこの仮説が肯定されたものの,この効果を確認するために実施されたRCTではこの仮説は否定されたというよく知られている話が紹介されています.Women’s Health Initiative(WHI) の中間報告でホルモン補充療法(HRT)を受けるとむしろ心筋梗塞のリスクが高くなることが示された経緯は堂地先生の日本産科婦人科学会雑誌の解説(日産婦誌58巻9号)に詳しく書かれています.わたしも当時のメディアでセンセーショナルに報道されたことを覚えています.上記の日産婦誌のを読むとその後の研究でWHIの報告にもいくつかの疑問があって,未だHRTのリスクとQOLとの間の線引きはグレーのようです.RCTといえども完璧ではないことの良い例ですね.
いずれにせよ,観察データの分析ではHRTのリスクが見逃されたのは事実です.RCTと逆の結果となったことのカラクリはHRTを受けるような女性は,所得が高く健康への関心も強い,したがって生活習慣も動脈硬化を起こしにくい人々であったからとコラムでは説明されています.その一節を引用すると
「健康への関心」といった交絡因子の存在を検討せず,見せかけの相関に過ぎないものをあやまって因果関係と解釈していたのではないか.」(引用ここまで)
おそらく,このとおりなのだと思いますが,とはいえ,このミスは回帰分析という手法のせいではありません.
わたしは一度に並行して何冊もの本を読む癖があるのですが,ちょうど同じ時期に読んだ,畑農・水落(2017),『データ分析をマスターする12のレッスン』,有斐閣,に面白い例があったのでそれをここで紹介します.因みに,こちらの本は社会科学分野を対象としています.特に後半では個票データの回帰分析を扱っているので,技術者向けのデータ分析とは少々毛色が異なるのですが,二つの標本分散についてきちんと説明していたり,ダミー変数を導入した質的変数の扱いについての説明は優れていますし,何よりも著者自らがデータに向き合っていることがわかるよい本です.
ここの計算は統計ソフトを使えば簡単にできます,とあっさり流している箇所が度々でてきますが,統計ソフトのありがたさが実感できます.データの性質から質的データの分析が多く紹介されていて,JMPで名義尺度の「モデルのあてはめ」を実行すると,その背後でどのような処理が走っているのかを知ることで,データ分析の理解は一層深まります.
さて,『12のレッスン』にある女性労働力率と合計特殊出生率との関係をJMPで3分間分析してみました.このデータ分析の背景は女性が働くようになると少子化が進むという仮説に対する検証です.この段階で(この本では明示的には触れてはいませんが),交絡因子として「経済の低迷といった社会背景」が考えられます.この状況で社会実験を実施しなければ因果関係はわからないと評論するのは簡単ですが,まずはデータに向きあうことが重要です.このデータでは1980年と2000年のそれぞれで都道府県ごとの上述した二つの変数が記載されています.相関をみるだけならJMPのグラフビルダーを使えば簡単です.『12のレッスン』にあるデータ全体の相関係数と年を層別にした場合の相関係数は正負が逆になるという「シンプソンのパラドックス」もこのようになります.本日は時間がなくPDFでアップしますのでサムネイルはありません.
PastedGraphic-1.pdf
PastedGraphic-2.pdf
ここで経験ある分析者であれば警戒のアラームが鳴るはずです.『12のレッスン』ではこのパラドックスの背景には「都道府県における地域背景」が関与しているのではないかとの仮定のもとに次の分析にすすみます.ここで問題となるのはこの地域ごとの社会経済環境という「お国柄」はデータには直接現れていないこと,そもそもデータとして観察することすら困難であるということです.このようなサンプルの固有の特徴を個体効果と呼ぶわけですが,これは上述したHRTのリスク調査における被験者の収入や教育レベルあるいはその総合指標としての生活習慣に相当するものでしょう.
この個体効果を如何にしてコントロールするかということが重要になってくるわけですが,都道府県を名義尺度にしてモデルをたてると,ダミー変数を46個導入することになってしまい,このような説明変数が多いモデルはオーバーフィッティングのリスクが大きく,できるだけ避けたいところです.実際にやってみると寄与率はかなり高くなりますが,そのモデルの価値はどれだけのものなのか再現実験なしにはなにもわかりません.この場合,再現実験を実施することは不可能です.産業分野の技術者はなんと恵まれていることか.
本文にも言及されていますが,関東,京阪とか中部,北陸といった地域ごとにまとめるのも一つの手ではありますが,県境が地域特性の境になっているわけではないという日本の特殊事情がどのような影響をもたらすか.出張で天浜線(天龍浜名湖鉄道)や遠鉄(遠州鉄道)に何回か乗ったことがありますが,静岡県でも静岡市と浜松市とでは全く異文化の感があります.静岡市でも旧清水市とはまた違ったお国柄のような気もします.
個体効果をコントロールするための手法として,年の差分データで回帰分析するという方法が『12のレッスン』でも紹介されています.差分データの回帰モデルの定数項をトレンド項ということを知れば,この手法で何をしているのかが理解できることと思います.少しだけしくみをお話ししておくと,都道府県ごとの回帰モデルの切片が個体効果をあらわしているとして,それは経年変化はしないだろう(少なくとも数十年のタイムスパンでは)と仮定すると,これが1980年と2000年との差分データで消えてしまうことがポイントです.JMPでの結果を示しておきます.
PastedGraphic-3.pdf
相関は弱いとはいえ負の相関が示され,女性が働きに出ると出生率が低下する傾向が示唆されています.もちろん,他の年度のデータだけでなく各種経済指標などをデータに取り込むなどで回帰分析による結果の信頼性は高まっていき,因果関係に近づくことになることが理解できます.WHIのデータが入手できればこの手法を適用してみたいところです.
というわけで,因果関係の探求には回帰分析という手法そのものではなく,データの質が問題なのであって,直ちに着手できる回帰分析をとおして考察を深めていくことの価値は過小評価すべきではないと考えます.
もちろん,実験計画が大事であるという『統計的問題解決』の趣旨と回帰分析よりもRCTのほうがエビデンスレベルは上とする主張は矛盾はしません.とはいえ,穿った見方をすれば,RCT第一義を主張する背景には別の理由もあるのではないでしょうか.大掛かりな実験を実施できれば,自らの研究を社会的に認知してもらうのには大いに効果があることでしょう.特に,経済学の分野では実験といっても多くの人や政府を巻き込んだ大掛かりなものになるので,それなりの額の研究費も得られます.
一般人にRCTの威力と効果を知ってもらいたいというのはよくわかります.そのうえでRCTが直ちに実施できないような場合に,様々な手法でデータ分析を試みることの重要性も併記すべきと思うのです.
今週も書きなぐりですいません.それではまた.

補足
少し紛らわしい部分があったので補足します.『原因と結果の経済学』では差分データで分析する手法が「差の差分析」という擬似実験の一つとして紹介されています.差の差分析は英語ではDifference in Differencesあるいは略してDIDなどとも呼びます.一方,『12のレッスン』でやっている差分データの回帰分析はDID分析ではありません.因果関係を究明するためには措置群と対照群とを明確に示せなければなりませんし,そもそもDID分析に必要な三つの仮定が成立していないからです.
とはいえ,データの差分を取ることのエッセンスは同じです.名称は異なっていても回帰分析という手法における一つのテクニックに過ぎません.私が回帰分析と考えているもの(それはごく普通に統計学の教科書に書いてあるものですが)とこの本で回帰分析と定義しているものは異なるので注意が必要ですね.もちろん,措置群と対照群とを明確に意識してとったデータであるか否かということが(因果関係の)エビデンスレベルには重要ということは全くその通りです.
タグ:統計学 books JMP
【Stat Spottingの最新記事】
posted by Tad at 13:15| Comment(0) | TrackBack(0) | Stat Spotting

2018年02月17日

回帰分析のエビデンスレベル

最近とあるニュースが話題になりました.「博士採用増で生産性低下」という日本経済新聞の日本経済研究センターの報告を基にした記事です.オリジナルの報告に輪をかけて日経がおかしな解釈をしたことで,twitterでも(案の定)炎上していました.詳細はこのtogetterを読んでいただくとして,この記事についてここで論評するのは避けます.少なくともオリジナルの文献のグラフを見る限りでは博士採用と生産性には正の相関があるように見えますが,どうみれば負の相関があると言えるのでしょうか?
この記事のタイトルにしか目を通さない日経読者も大勢いるであろうことを考慮すると,少なくともメディアが記事のタイトルをコロコロと変え続けたのは問題ありとは思います.タイトルの変遷をみるに表現の違いだけでいろいろなニュアンスが出てくるのがわかります.このニュアンスの違いをうまく使い分けて読者を惹きつけるのがメディアの技量です.メデイアもやはり商売ですから,ある程度は情報を都合よく解釈することも売れる情報を発信するためには必要なのかもしれません.このような事情もあって,Stat Spottingを趣味とするものにとっては,メディアは良い対象なのです.とはいえ,週刊誌ならともかく,やはり新聞には信頼できる情報源としての品位を保ってもらいたいと個人的には願っています.
メディアに都合よく操られまいという意識が高まっている昨今ですから,読者も勉強しています.何かしらの報道があると,それは単なる疑似相関にすぎないというのがよくある批判の一つです.ビッグデータの流行に伴って様々な啓蒙書が出版されいます.例えば,以前紹介した伊藤公一郎(2017),『データ分析の力 因果関係に迫る思考法』,光文社新書などは産業分野以外における実験の工夫と苦労がわかる良書でした.この本に先駆けて中室牧子,津川友介(2017),『原因と結果の経済学』,ダイヤモンド社というかなり内容が重なっている本も出版されています.中室さんの『学力の経済学』に比べるとあっさりしすぎていてわたしには今ひとつでしたが,それでもよく売れているそうです.一般人に対する統計リテラシーレベルの底上げにこれらの書籍の貢献は大きいでしょう.
とはいえ,昨今の「因果関係を絶対視して相関関係を軽視する」風潮には少し疑問を持っています.
『原因と結果の経済学』ではエビデンスを因果関係を示唆する根拠と定義しています.経済学ではそのような考えがあるのかもしれませんが,私は因果関係があろうとなかろうとに関わらず,エビデンスとはpeer reviewを経た(科学的)知見のことと考えています.
もともとエビデンスという考え方は医療分野のEBM(Evidence Based Medicine)からきたもので,『原因と結果の経済学』にも有名なエビデンスのピラミッドが改変されて掲載されています.それによれば,エビデンスレベル(結果の信頼性)が高い方から低い方に,一番上にメタアナリシス,次にランダム化比較試験(RCT),擬似実験と続いて一番下に回帰分析があります.この改変されたピラミッドは間違いとまでは言えませんが,ミスリーディングを誘うと思います.
一つにはエビデンスの強さはデータの性質によるものであって,データ分析の手法には良いも悪いもないということが見落とされています.回帰分析くらいしか適用できないデータであるからこそエビデンスレベルが低いということなのです.回帰分析の結果であっても,ここから因果関係の仮説をたてて再現性の検証を実施したものであれば,信頼性はあるといえます.統計的問題解決で中心となる統計手法(統計モデリング)は重回帰です.
二つ目として,特定の研究手法を採用するだけで,その結果のエビデンスが強くなるとは限りません.EBMにおけるピラミッドではRCTがエビデンスレベルが高い(文献によっては,最高位にメタアナリシス代表されるSystematic Reviewという二次情報が置かれていて,その次のレベルをRCTとしているものもあります)のは当然としても,このRCTでは二重盲検などの処置が施された介入試験でなければなりません.RCTであればそれだけでエビデンス足り得ないことは明らかです.二重盲検の適用については適用実験ごとに議論が必要ですが,例えば,特定の学習手法が子供の能力向上に与える影響を調査するような場合は,やはり臨床試験におけるプラセボ効果の排除が必要になるでしょう.
三番目にEBMのピラミッドにはRCTの下の階層に非ランダム化比較試験とでもいうCohort Study(コホート研究)があり,更にその下のレベルにCase Control Study(症例対象研究)とアンケート調査のようなCase Series(横断研究)がそれぞれ位置します.これら三つの研究手法をまとめて疫学調査あるいは観察研究という場合があります.『原因と結果の経済学』で回帰分析と称している階層はおそらくこれらに対応させたものと考えられますが,EBMでは最下層にはCase Reports(症例報告)があって,これは記述研究と呼ばれています.更にその下にはEditorialという研究者の意見や考えというエビデンスとなり得ない階層もあるのです.このように,本来ならば回帰分析の下にもエビデンスレベルが低い手法があるのにそこを示さないのはやはり(著者の主張に)誘導的であると言わざるを得ません.いずれにせよ,オリジナルのEBMのエビデンスレベルのピラミッドでは回帰分析について言及されているわけではありません.
もう一つ言いたいことがあって,疫学調査では回帰分析を使うことが多いのは事実とはいえ,疫学調査の結果のエビデンスレベルが低いから研究の価値が低いというわけではないということです.疫学研究はその性質から結果のエビデンスレベルが低くなってしまうのは宿命のようなものです.かといって疫学研究の価値が低いわけでは全くありません.反対にRCTであっても特定の企業がスポンサーについたような研究では報告バイアスが生じる可能性がありますし,peer reviewされた研究であっても,そこにもやはり出版バイアスがあったかもしれないことを忘れてはなりません.要するにRCTで回避できるのはいわゆる交絡バイアスや選択バイアスだけなのです.
このような理由で産業分野の私にとっては『原因と結果の経済学』で回帰分析が不当に低く扱われているのに違和感を覚えました.そもそも因果関係を追求するのは学者の仕事であって,私たちには因果関係を追求するよりも重要な仕事があります.誤解されることを恐れずに言ってしまうと,それは利益を追求することです.装置に異常が起こって歩留まりを落としていることが判明したならば,直ちに対策を講じなければなりません.おそらくDOEを実施して因果関係を把握するよりも先に,手元にあるデータで回帰分析でも何でも実施して何らかの策を講ずるべきです.もちろん,因果関係は不明ですから,分析結果が再現する保証はありませんが,対策に固有技術の知見が裏打ちされているならばエビデンスレベルが低いからと言って躊躇すべきではないと考えます.
メタボ健診や子供の学力向上では経済学見地?からエビデンスを考慮することの必要性は理解できますが,それと量産ラインで今起こっている問題解決とは別のストーリーがあり得ると考えます.メタボ健診の場合であっても,エビデンスを求めるあまり,対策に時間がかかり過ぎてしまうと経済的損失が発生します.このことを見失っていないでしょうか.もちろん,エビデンスを軽視しているわけではありません.ただ,何らかの結果がpeer reviewを経て科学的知見に昇華するには一般的には長い時間がかかるということです.

ここまで一気に書いて読み返すと,いろいろ論理の粗や言いたりないことが目に入りますが,ブログなのでご容赦ください.因果関係についてはもっと書きたいこともあるのですが,論点もずれてきましたので続きはまた今度にします.それでは.
タグ:統計学 books
posted by Tad at 14:01| Comment(0) | TrackBack(0) | 雑記

2018年02月10日

インフルエンザと統計

もう回復しましたけれど,ひさしぶりに風邪などとというものをひいてしまいました.発熱はしましたが,全身症状がなかったのでインフルエンザではないと判断し,医者にはいかずに二日ばかり寝ていました.仮にインフルエンザだったとしてもインフルエンザ脳症や異常な発熱がない限りは自宅療養が良いようです.インフルエンザで「早めの受診」は間違いです!
今年はインフルエンザが大流行だそうで,わたしが風邪をひく数日前にもTwitterで現場の医師の悲痛な叫びが流れていました.確かに寝ていれば自然治癒する病気のために医療リソースを割く必要はありません.患者自らにとっても,インフルエンザウィルスの高密度エリアである病院の待合室に風邪で免疫力が低下している身を暴露するというリスクがあること,何よりも怖いのは別のウィルスを貰ってくる可能性を覚悟するべきです.風邪とインフルエンザとを同時に発症することはあり得るのですが,これは辛いでしょうね.
世間一般的には,インフルエンザの疑いがあれば病院に行ってインフルエンザの検査をしてもらい,その結果が陽性であればタミフルやリレンザなどの治療薬を飲むという流れのようです.とはいえ,インフルエンザの検査はどのくらい有効なのでしょう?悪寒や倦怠感等の初期症状がある患者のインフルエンザ有病率を仮に50%とします.インフルエンザの鼻ホジホジ検査 本当に必要か?という記事によればインフルエンザ検査の感度は70%程度で,特異度の数値はありませんが仮に90%としてみます.するとインフルエンザに罹患していた人のうち検査で陽性となるのは3500人で,陰性は500人ですから,陽性的中率は3500/(3500+500)=87.5%となります.この程度の的中率であれば検査はむしろ受けないのが正解ではないでしょうか.検査喧嘩が陰性だからということで少々無理して出社したものの,実はやはりインフルエンザでしたという人が10人に1人もいるという状況を考えてみてください.
わたしは今年のインフルエンザの流行の背景には新型インフルエンザに備えた流行対策が通常のインフルエンザにも拡大適用されてしまっていることが一因と考えています.会社の決まりでインフルエンザ検査を受けなければならないとしてもその的中率は90%程度のものであると認識した運用が必要です.
一部にはこのインフルエンザの流行は「風邪でも(会社を)絶対休まないおじさん」のせいであるという意見があります.インフル大流行は「風邪でも絶対に休まないおじさん」のせい?
 この著者(窪田さん)は元朝日新聞にもいらしたようで,いわば生粋のメディア系ライターです.この類のライターには思い込みが強い方が多いので注意が必要です.自説を肯定するデーターにはとれも敏感である一方で,データに都合の悪いところがあっても,それが目に入らないことも多いようです.このため,Stat Spottingの重要なリソース記事を提供してくださることが多いのです.データを見るに,まず仮説を立てることが肝要と「統計的問題解決入門」でも説きましたが,このとき仮説はあくまでも仮説であって真理に到達するための踏み台であるという認識が欠けてはなりません.自らの考えという色眼鏡で世の中をみていしまうとデータの背後にある事実も曇って見えてしまいます.
この記事では,第一三共ヘルスケアのオンラインマガジン「30〜40代男性有職者の6割が「風邪で仕事を休めない」!? ミドルマネジメント層ほど休まない傾向に」が参照されています.おそらく,このデータを見た瞬間に飛びつき,素直にこれを受け入れて(しかも少々歪んで)しまったのでしょう.
この論評にケチをつけるつもりはありません.ITmediaの他の記事などを読むに目の付け所が面白い方と思います.とはいえ,この記事のソースでもある「風邪でも絶対に休まないおじさん」については少し深く考えてみたいと思います.
まず記事への突っ込みとしては,第一三共ヘルスケアが風邪についての調査をしているのに対して,それがいつの間にかインフルエンザに変わってしまっていることです.ご存知の通り両者は症状は似てはいるものの,過酷さや感染力は桁違いにインフルエンザの方が大きいものです.風邪では休まないけれどインフルエンザでは休まざるを得ない,という方も多いことでしょう.ですから,そもそもこのデータをインフルエンザ大流行の原因の考察に使うのは問題があります.
第一三共ヘルスケアのデータそのものにもいくつか気になる点があります.一つは役職の定義です.この調査ではさまざまな業種を対象としていますが,一般企業に混ざって官公庁も含まれているのです.一般に一般企業の課長と官公庁の課長とではそれこそ天と地と程も違うことはご存知でしょう.アンケートでこのことが考慮されているのか,あるいはデータにそのような補正がなされているのかは不明です.官公庁には「休む派」が多いという結果(図4)にも絡むので,アンケートでは役職名ではなく,部下の人数を順序尺度として,あるいはいっそのこと自由形式にして量的にデータを取れば面白かったかもしれません.
そして最大の疑問は図5です.この記事の見出しにもなっている分析結果ですが,ここでミドルマネジメント層として部長だけをとりあげ課長を入れていないことが腑に落ちません.このグラフでは%表示されていますが,グラフの下に小さい字でサンプルサイズも書かれていて,それによればそもそもこのデータでは部長の数が少ないということが見て取れます.
統計学ではこのような分割表データでの有意性の検証にはカイ二乗検定を使うことはご存知と思います.公式に入れると簡単にp値が計算できて5%で有意であるけれど1%にはぎりぎり届かずという感じになります.JMPでこの分析をするのは簡単ですが,分割表を一度行データに戻さなければならないのが面倒ですが,この図のようにJMPでも同じ結果が得られました.
Screen Shot 2018-02-10 at 6.53.50.png

分割表の一区画の度数が10以下の場合に,Yatesの補正をかけるということも習ったことがあるかもしれませんが,この場合にいくつかの階級を統合するという手もあります.今の場合,部長クラスでも度数は十分ありますが,課長クラスと合わせて中間管理職という階級を新たに作ることにはデータ分析の目的からも合理性があります.
とはいえ,このような操作ではぎりぎり有意になった休む派と休まない派との差が消失する方向にいくのは間違いありません.「風邪をひいたら中間管理職がまず率先して休む」というメッセージと整合させるためには,階級を分割したほうが都合がよいのです.どうもメディアは公表する結果が面白くないとその価値が低いと考えているようなので,わたしたちとしては,ますますリテラシーを問われる機会が多くなっています.
このデータには他にも疑問がいくつかあるのですが,例えば一部のデータのみ「休む派」「休まない派」それぞれ500人を無作為抽出していたり,長くなるので今日はここらへんで止めておきます.それではまた.
タグ:統計学 JMP
posted by Tad at 06:59| Comment(0) | TrackBack(0) | Stat Spotting

2018年02月02日

お詫びと訂正のカテゴリーを新設しました.

いろいろと訂正することも増えてきたので,新たにカテゴリーを新設しました.改めて読者の皆様に謹んでお詫び申し上げます.先にコメント頂いたお二人以外もオフラインでご指摘いただいたIさんどうもありがとうございました.またHさんからも昨年にご指摘いただいておりましたこと失念していました.申し訳ございません.言い訳は見苦しい限りですが,サポートファイルの取り違えが原因です.私の執筆時の環境はJMP13でしたので一部のメニュー(と言ってもヘルプくらいですが)が英語でしたので,本書の図版はSAS社のご協力で当時の最新の13.2で取り直していただいたものです.その際に間違ったファイルを渡してしまったようです.サポートファイルは数多く試作しましたが,あいにくほとんど消去してしまっているので,今のタイミングではJMP14のリリースを待ってじっくり検証した上でサポートファイルを皆様にご提示しようと考えています.

既にブログで報告済みですが,以下に単純なタイポを再度掲載しておきます.
1.p11の下のエクセルデータで,左のデータの右側が50代になっていますが30代の間違いです.単純なタイプミスのチェクもれです.話の内容には大きな影響はありませんが,訂正します.
2.p85の2行目のJMPくんの台詞で,「表示形式」のところで「データ点はオフ」を選択するとデータ点が見えるよ...とあるのはもちろん「データ点が消えるよ」の間違いです.デフォルトではテータ点が見えるようになっているので,理解する上では大きな問題はないと思います.
3.対応済みなので削除.
4.p65のJMPくんの台詞で「降水量をY軸に,平均気温をX軸に...」ではXとYとが逆ですね.
5.p125の脚注のBinormalはBinomial(二項分布)のタイポです.
6.p140ページの統子ちゃんの台詞でRSMEとあるのはRMSE(Root-mean-square-error)のタイポです.
posted by Tad at 17:30| Comment(0) | TrackBack(0) | お詫びと訂正

2018年01月27日

Q&Aのカテゴリーを作成しました

先週の続きです.お答えをアップしようと思っていたのですが,雪が降ったりして(あまり関係ありませんが)つい週末になってしまいました.ちょうど別の質問も頂いたので,少し前にの新規に作成したQ&Aカテゴリーにまとめて掲載します.
最初の質問ですが,P227でJMPくんが「てこ比プロット」が一番下の「効果の詳細」に隠れていると言っているけど,「効果の詳細」が見当たらないというものです.
その直前の応答の赤三角から「行ごとの診断統計量>効果てこ比のプロット」を実行してというJMPくんのメッセージをおそらく見落とされているのだと思います.この後の縮約モデルを作る処理はp148以降で説明している操作と同じですので,ここを読み返してみてください.
一つtipsを書いておきますと,この応答の赤三角にあるコマンドのように選択することでレポートの表示項目を切り替えるものが多数ある場合,Altキーを押しながら赤三角をクリックして見てください.この図のようなウィンドウが開きますので,表示させたい項目にチャックをいれることで,赤三角それぞれのコマンドにチャックを入れることができます.
image001.png
このほうが,複数同時にチェックを入れたり,何にチェックがついているかを一瞥できるのでとても便利です.

次に頂いた質問は,P215でJMPくんが「スクリーニング計画のデータ分析は一瞬だよ」といっているところに関するものです.ここでは具体的には緑三角をクリックするわけですけど,これを自分のデータでやるのはどうしたらよいのかという質問です.自分のデータといえども,スクリーニング計画のテーブルに入力すれば良いのですが,おそらくご質問の真意はJMPでなく例えばエクセルでスクリーニング計画のテーブルを作成した場合のようなことでしょうか.この場合でもJMPでスクリーニング計画を作り直して自分のデータを入力するのが間違いがありませんのでオススメです.
ご質問を緑三角ボタンでなく通常のJMPコマンドでスクリーニングを処理するのはどうしたらよいかという意味と解釈しますと,これは良い質問です.スクリプトで実際にどういう処理が走っているのかを知ることは有益です.
「スクリーニング」のスクリプトはスクリーニング計画のための特殊なものなので内部処理の詳細は定かではありませんので厳密に同じという保証はできませんが,一般的なスクリーニング処理としては「モデルのあてはめ」から手法として「ステップワイズ法」を選んで実行します.このとき,Yに収率しか入っていないはずですので,「副生成物」も追加してください.書籍では「スクリーニング」のスクリプトを修正かけるように記述しましたが,「モデル」のスクリプトに修正かければ,この場合でも「副生成物」がYに追加されることになります.ステップワイズはとりあえずデフォルト設定で『実行』します.このときCtrlキーを押しながら『実行』すれば二つの応答(Y)に対して同時に処理されます.この後,それぞれの応答について「ステップワイズ回帰の設定」のところにある『モデルの実行』をクリックすると「スクリーニング」スクリプトによるのと同様な結果が得られます.(「効果の要約」にはそれぞれの要因ごとに対数価値が棒グラフで示されていたりと厳密には同じ表記にはなっていませせん.)応答の赤三角から「要因のスクリーニング>尺度化した推定値」を実行すると尺度化した推定値でグラフが描かれますので,スクリーニングの目的には見やすいでしょう.同じところに「正規プロット」もあります.半正規プロットは正規プロットの右上にあるプルダウンから指定することで描けます.この場合,Y軸は「推定値」になり「スクリーニング」スクリプトのところの「対比の絶対値」と見た目は同じグラフになります.ちなみに,ややこしいのですがX軸は「正規分位点」のままになっていますが,これは「半正規分位点」の間違いであろうと思います.英語版でも「Normal Quantile」となっているので訳の間違いではなさそうです.
というわけでご質問いただいたTさん,Sさんこれで回答になっていますでしょうか.もしまだ何かありましたら,コメントいただければと思います.
(見た目は寂しいですが,コメントされるかたもそのほうが安心だろうとの配慮から基本的にコメントは公開していません.)
それではまた.
タグ:問題解決 Q&A JMP
posted by Tad at 11:36| Comment(0) | TrackBack(0) | Q&A