2017年10月09日

『データ分析の力』

先日,Amazonの本書のページを見た際に「この商品を買った人はこんな商品も買っています」というところを興味深く拝見しました.どのような人が本書を読んでくださっているのかのイメージが掴めます.JMP関連の本がほとんどという中で目についたのが伊藤公一朗(2017)『データ分析の力 因果関係に迫る思考法』光文社新書 です.ビッグデータのデータ分析という多くの方が興味を持つ分野の本であり,新書なので気軽に買える値段ということもあって多くの方々に読まれているようです.レビューも高評価なので,私も読んでみました.
著者によれば,因果関係の見極め方を計量経済学の観点から解説した本とのことですが,データ分析一般を視野に因果関係の深い議論に切り込むというよりは,計量経済学におけるデータ分析の応用例を解説した本です.冒頭に,例によってアイスクリームの話などを引いてRCT(ランダム化比較試験)が出てきます.それに続いてRCTが利用できない状況で,意図的な実験ではないデータを利用する様々な手法とその限界とともに紹介されています.実験計画がごく普通にできる産業分野の技術者にとって,この本を読んでこれらの手法の概念を理解するというよりは,データ分析は分析者の工夫と熱意で成し遂げられるものということを理解することの方に価値があります.
社会科学や心理学,それにこの本のような一部の経済学は一般一般にはデータ分析がしにくい分野です.特に心理学では様々な工夫を凝らしてデータが取られていますが,その多くは相関研究ではあるものの,論文の結語にその旨の注意が書かれているものが多いです.RCTを実施するにはコストだけでなく倫理面でも大きな障害がある分野です.相関研究だとしてもそこにはデータを積極的に取る為に大きな努力が必要です.自然とそこにデータを扱う態度に対して他の分野との温度差を感じます.技術者上りよりも営業畑からの人の方がデータ分に向いていると聞いたことをこのブログのどこかで書いた記憶がありますが,良いデータ分析に何よりも必要なのは熱意なのかもしれません.
もちろん良い本だとは思いましたが,RCTの重要性を理解するなら他にもいろいろ良い文献があります.例えば,私が最初にRCTという言葉を知ったのは,ずいぶん昔のことですが,日本産科婦人科学会の学会誌の津谷 喜一郎 , 石川 睦男,日産婦誌第51巻 第9号,第51回日本産科婦人科学会生涯研修プログラムの中の7) Evidenceと臨床試験
です.この文献は実際にご覧いただければわかるのですが,エステサロンの効果を解説するために広告から持ってきたという写真が載せてあるのですが,その女性の写真の腕に文字が写り込んでいてとてもシュールなのでとてもよく記憶しています.この当時でもフォトショップがあったのでこの程度のノイズは簡単に消せたはずですが,このまま掲載したのは著作権などに配慮してなのかは不明です.因みに,この文献で覚えた背景因子という言葉が,共変量という言葉よりもその意味が伝わりやすいと考え「統計的問題解決入門」でも背景因子を採用しました.今読み返してみると,「臨床試験の基本的構造は患者という個人の利益ではなく,患者の肩越しの母集団の利益を考えているために,個別的倫理と集団的倫理との間にジレンマが生じる」などというくだりは臨床試験の重みがひしひしと伝わってきます.
『データ分析の力』では(偶然に)まるで実験がなされたかのような状況を利用する「自然実験」としてRDデザイン,集積分析,パネル・データ分析などが解説されていますが,JMPならば複数の背景因子を「傾向スコア」という単一の指標に集約した分析が可能です.「傾向スコア」の値をカテゴリカルな因子(説明変数)として(名義ロジスティック)回帰分析を実施することも可能です.因みに名義ロジスティック回帰では特性はカテゴリカル(例えば改善あり,改善なし)がYになります.産業分野では,何らかの処理の有無が紛れ込んでいる量産データなどが対象となりますが,何か良いデータが見つかれば,そのうちこのブログでやり方などを解説してみたいと思います.『統計的問題解決入門』の第一講で「名義ロジスティック」に言及しています.技術分野ではあまり馴染みがない手法なののでその雰囲気だけでも味わって頂こうと考えたのですが,少々高度な内容になるので,その中身には全く触れることができなかったのが少し心残りでもありました.
『データ分析の力』を読んで一つ気になったのは,最後で説明されている内的妥当性と外的妥当性についてです.データから得られた分析結果はもちろんそのデータサンプルに対しては妥当(内的妥当性あり)ですが,分析結果がそのサンプル以外にも適用できるのかという問題を外的妥当性と言うそうです.これは統計モデルのオーバーフィッティングのところでお話ししたことと同じなのですが,私が思うに,外的妥当性がなければそもそも因果関係は議論できないのではないでしょうか.この本からは内的妥当性があれば因果関係を議論できるように読めます.少なくとも計量経済学ではそれが許されているのでしょうか?
書評になっていませんが,今回はここらへんで.
タグ:統計学 books
posted by Tad at 07:51| Comment(0) | TrackBack(0) | 雑記

2017年10月07日

補足します

サポートファイルをダウンロードして実際にJMPで操作してくださっている方も増えてきているようですので,散発的で申し訳ないのですが,思いついた(気がついた)タイミングで補足しておきます.

1.「ローカルデータフィルタ」ではフィルタを操作すると直ちにその結果がグラフに反映されますが,それは同時に「自動再計算」にチェックが入るからです.通常のグラフではデータを除外するなどの操作を実行してもその影響は直ちには反映されませんが,「自動再計算」にチェックを入れておけば「ローカルデータフィルタ」のようになります.チェックの入れ方はプラットフォームの赤三角から「やり直し>自動再計算」です.

2.MCDAアドインのインストールについては本書で触れましたが,アンインストールについては書いていませんでした.これはすべてのアドインについて同じ操作なので覚えておいて損はないです.そのためには「表示>アドイン」で出したウィンドウのアドインのリストから所望のものを選択して『削除』です.

今日は他の記事を投稿しようと思っていたのですが,忘れそうなので先に上記をお伝えすることにしました.連休ということもあって,今日予定していた記事は来週の月曜日(体育の日)にでも投稿します.それではまた.

2017年09月30日

p82の一番上の棒グラフを作成する方法について

p82の一番上の棒グラフを作成する方法について質問を受けました.話の展開からは重要なグラフではないということもあって,実は読者に対しての課題としてあえて手順を省いています.試された方はいらっしゃいますでしょうか.以下を見る前に少し考えてみてください.

回答
これだけが正解ではありませんが,ここにもっとも単純な手順を書いておきます.まず最初に「膜厚」で並べ替えて欠測値と除外行を除いて最大と最小からそれぞれ10行を選択して,行番号を右クリックでメニューを出してそれぞれに好みの色を設定します.このときCTRLキーを押しながら各行をクリックするのはおわかりですよね.行パネルで選択されている行が20になっていることを確認してください.脚注にも書きましたように,膜厚を色にドロップすると似たグラフが描けます.こちらの方がJMPらしいと言えますが,実はこのように行を選択しておくと別のメリットがあります.書籍に掲載されているパラレルプロットはこの選択された状態で作成していますが,選択された行のデータが強調されるので見やすいのです.念のために言っておきますと,同じパラレルプロットの作成は「装置NO.」と「欠陥数」以外の列を選択して「グラフビルダー」のXにドロップしてから,上のアイコンの一番右(パラレル)をクリックします.
 さて,ここからp82の一番上の棒グラフを作成するには,少々手順を踏まなければなりません.このような列方向に計算するにはエクセルを使いたくなりますが,ここは堪えてJMPだけでやります.そのためには色を設定したそれぞれの10行の行番号を選択してテーブル>サブセットでサブセットテーブルを作成します.次にそれぞれのサブセットに対して,列>列ビューアで設定パネルを出して装置No,膜厚,欠陥数以外を選択してから「要約の表示」で要約統計量の項目を出してからそこの赤三角から「データテーブルビュー」でテーブルに出力します.別の色の10行でも同様にしてから,その二つのテーブルをテーブル>結合です.このときそれぞれで列名称が入っている「列」を元の列から選び,「対応」で対応する列に設定します.普通にやると「無題の列」にN2,SiH4等のラベルが入るはずです.後はもうおわかりですよね.計算式で二つの平均の列を引き算した新たな列を作成してそれを棒グラフにすればよいのです.
ところでこのグラフですが,それぞれの因子範囲が異なっているので,これらの値を比較することにはデータ分析上はそれほど大きな意味はありません.JMPに慣れるための例題であって,パラレルプロットによる可視化の知見を数値情報にしてそれを再度視覚化する一つの手順を示したとお考えください.
タグ:JMP
posted by Tad at 17:30| Comment(0) | TrackBack(0) | Q&A

2017年09月25日

質問についてのお答えと正誤表の更新など

本書を会社経費で購入して頂いた方からサポートファイルの扱いについて質問を受けました.
まず,紙の書籍は回し読みしても著作権を侵害しません.また,個人的利用に限っては断りなく複製することも可能です.その一方でソフトウェアであるMCDAアドインは一般的なソフトウェア利用規約に従って頂くことになります.MCDAアドインは本書1冊につき一本のライセンスが認められているダウンロードバンドルの形態となっています.SAS社との取り決めで,アドインは書籍購入者限定配布とし,その複製及び譲渡は不可になっているので,原則として(書籍と異なり)同じ部門内であっても使い回すことはできません.サポートファイルは一般的なソフトではありませんが,jslファイルやほとんどのファイルに付随しているスクリプトというソフト的な著作物を含むので関係者と協議した結果,アドインと同じ扱いにしました.以下にサポートファイルの利用規約を再掲します.

サポートファイルの利用規約(ダウンロードに際しての注意)

ファイルのダウンロードは本書購入者に限定させていただく取り決めとなっていますことをご了承ください.会社等で購入された場合でも,代表者1名のみがファイルをダウンロードできます.ダウンロードしたファイルは配布不可ですけれども,代表者のPCの画面をプロジェクターで映したり,(画面を)共有したりして複数人で一緒に議論しながら実習していただくことは可能です.

ここで「会社等で購入した場合は代表者1名のみ」ということの意味ですが,書籍1冊につき任意の読者1名(おそらく最初に読む人)と読み替えてください.著者とはいえ私の思うようにはできないことも多々あり,ご理解いただけましたら幸いです.

ついでで恐縮ですが,正誤表を下記に更新します.(1-3は既報分です.)
1.p11の下のエクセルデータで,左のデータの右側が50代になっていますが30代の間違いです.単純なタイプミスのチェクもれです.話の内容には大きな影響はありませんが,訂正します.
2.p85の2行目のJMPくんの台詞で,「表示形式」のところで「データ点はオフ」を選択するとデータ点が見えるよ...とあるのはもちろん「データ点が消えるよ」の間違いです.デフォルトではテータ点が見えるようになっているので,理解する上では大きな問題はないと思います.
3.対応済みなので削除.
4.p65のJMPくんの台詞で「降水量をY軸に,平均気温をX軸に...」ではXとYとが逆ですね.
5.p125の脚注のBinormalはBinomial(二項分布)のタイポです.
6.p140ページの統子ちゃんの台詞でRSMEとあるのはRMSE(Root-mean-square-error)のタイポです.

以上お詫び申し上げ,訂正させていただきます.
posted by Tad at 16:44| Comment(0) | TrackBack(0) | お詫びと訂正

2017年09月23日

あての話

Amazonで万年筆のインクを物色していて,いつもは見ないことにしている「統計的問題解決入門」のページにふと目がいったところ「なか見!検索」が実装されたようですね.「はじめに」を含んだ最初の15ページだけですが,雰囲気だけでも伝わればありがたいです.とは言っても,ここだけ見るとJMPマニュアル本のように見えてしまうかもしれません.本書の第3講以降では徐々にJMPを問題解決に使うことに主題を移していくので,マニュアル本のつもりで購入された方は当てが外れるかもしれません.そうだとしたら申し訳ないです.
「当てが外れる」で思い出したので無駄話を一つ.本当はそろそろ本書の補足などを書いていこうとも考えたのですが,来月開催予定のJMPer’s Meetingでお話しすることと重複してもどうかと思い,このブログではしばらく雑記を書くことにしておきます.会場を広くして定員を増やせる可能性もあるとかで,上記のセミナーはまだ申し込み可能なようです.よろしければどうぞお越しください.
さて,当てが外れた話です.私は木工を趣味としています.赴任先の米国では男10人集めればそのうち3人は木工(Wood Working)をやっているというくらい普及していて,TVや雑誌でも盛んにWood Workingの情報を流していました.木工道具の専門店なども近所にあり,同僚のアメリカ人に勧められたこともあって一時はかなり凝りました.自宅に地下室があったので,テーブルソーやバンドソーなの大型機材を買い込み,本棚やテーブルなどを製作していました.家具作りともなると大きい板が必要なので,製材所に行ってWalnutなどの気に入った木材を見て回ります.その際に注目するのが木目の性質や変形具合です.特に反った木材は要注意です.日本では一般に反った木材をアテ材と言いますが,これは厳密には正しくありません.
陽疾と書いて「あて」と読む言葉があります.太陽に疾る(はしる)と言うことを意味していると推測しますが,何が疾るのかというとそれは樹木です.太陽を目指して樹木は成長します.特に山の斜面では南を目指して斜めに伸びていくことになります.こうした樹木は重力に対抗するために成長の過程で主幹が変形し,内部に応力が蓄積されます.樹木のこのような部分を陽疾と言うのです.単に反りが大きい木材をアテ材というのではありません.というのも,アテ材は(単に)反っている木材に比べて少々性質が異なっているからです.厳密には陽疾が原因で現在(あるいは今後それ以上に)反っている(いく)木材のみをアテ材といいます.
陽疾に蓄積された応力が製材の乾燥工程でリリースされると,その木材は反りやすいのです.一般住宅用の木材は炉に入れて人工乾燥(Kilin Dry)させることがほとんどですが,人工乾燥では乾燥の過程で樹種によっては木材にダメージが入りやすいので,いまだに天然乾燥(Air Dry)も実施されています.この状況では家を建てた後に,徐々にそれらの木材が反っていくという困ったことになります.
このため,昔は上棟してしばらく放置して,壁塗りをする前に補修可能する工程を設けていたそうです.スループットを犠牲にしてノイズ対策の工程を追加したといったところでしょうか.もう一つ,昔の大工の棟梁は家(と言っても大きな家でしょうけど)を普請する際にしていたというロバスト化があります.もう一つ,昔(と言っても相当昔でしょうけど)棟梁は自ら山に行って木を下見に行き,自然環境でどのように育っているかを観察し,どの木材をどこに使うかを決めていたと聞きます.樹木を伐採,製材する前に陽疾の具合を観察して,それぞれが乾燥していく過程で今後どのように反っていくのかを予測しておくわけです.腕のいい大工はその予測に基づいて(反りの具合いを見込んで)家を建てました.これがうまく予測通りになってくれると,家の(接合部の)強度が増していきます.なんとも素晴らしい匠の技ですが,たまにこの見込みと異なる反り方をしてしまう木材が出てきます.こういう状況をアテが外れるといったのです.
このような匠の技は現代では失われつつあります.反りの出にくい(陽疾のない)樹木を育てる工夫はもちろんですが,集成材などを使用することでそもそも反りのない木材を使ったり,ジョイントに金具を使うことで反りを強力に補正したりして,反りを予測するという必要がなくなってきているからです.私が大工だったらつまらない時代になったと嘆いているでしょう.予測するというのは人間にとって必須の能力であるとともに一種の麻薬のようなものです.アテが外れるということにはギャンブル(射幸心)とも密接な関係があるので,それは人間にとって必要悪であるのかもしれません.
統計的問題解決は統計モデルによる予測をベースにしていますが,それを面白いと感じるのはその予測が当たった(あるいは外れた)ということを目の当たりにできるからです.匠の技のようなKKDの技術を後世に残すことも統計的問題解決の一つの重要な役目ですが,予測という点で両者に接点があるようです.職人技をモデル化して後世に継承することには近いうちに挑戦してみたいと考えています.
今週も雑談ですいませんでしたが,それではまた.
posted by Tad at 13:00| Comment(0) | TrackBack(0) | 雑記