2017年10月09日

『データ分析の力』

先日,Amazonの本書のページを見た際に「この商品を買った人はこんな商品も買っています」というところを興味深く拝見しました.どのような人が本書を読んでくださっているのかのイメージが掴めます.JMP関連の本がほとんどという中で目についたのが伊藤公一朗(2017)『データ分析の力 因果関係に迫る思考法』光文社新書 です.ビッグデータのデータ分析という多くの方が興味を持つ分野の本であり,新書なので気軽に買える値段ということもあって多くの方々に読まれているようです.レビューも高評価なので,私も読んでみました.
著者によれば,因果関係の見極め方を計量経済学の観点から解説した本とのことですが,データ分析一般を視野に因果関係の深い議論に切り込むというよりは,計量経済学におけるデータ分析の応用例を解説した本です.冒頭に,例によってアイスクリームの話などを引いてRCT(ランダム化比較試験)が出てきます.それに続いてRCTが利用できない状況で,意図的な実験ではないデータを利用する様々な手法とその限界とともに紹介されています.実験計画がごく普通にできる産業分野の技術者にとって,この本を読んでこれらの手法の概念を理解するというよりは,データ分析は分析者の工夫と熱意で成し遂げられるものということを理解することの方に価値があります.
社会科学や心理学,それにこの本のような一部の経済学は一般一般にはデータ分析がしにくい分野です.特に心理学では様々な工夫を凝らしてデータが取られていますが,その多くは相関研究ではあるものの,論文の結語にその旨の注意が書かれているものが多いです.RCTを実施するにはコストだけでなく倫理面でも大きな障害がある分野です.相関研究だとしてもそこにはデータを積極的に取る為に大きな努力が必要です.自然とそこにデータを扱う態度に対して他の分野との温度差を感じます.技術者上りよりも営業畑からの人の方がデータ分に向いていると聞いたことをこのブログのどこかで書いた記憶がありますが,良いデータ分析に何よりも必要なのは熱意なのかもしれません.
もちろん良い本だとは思いましたが,RCTの重要性を理解するなら他にもいろいろ良い文献があります.例えば,私が最初にRCTという言葉を知ったのは,ずいぶん昔のことですが,日本産科婦人科学会の学会誌の津谷 喜一郎 , 石川 睦男,日産婦誌第51巻 第9号,第51回日本産科婦人科学会生涯研修プログラムの中の7) Evidenceと臨床試験
です.この文献は実際にご覧いただければわかるのですが,エステサロンの効果を解説するために広告から持ってきたという写真が載せてあるのですが,その女性の写真の腕に文字が写り込んでいてとてもシュールなのでとてもよく記憶しています.この当時でもフォトショップがあったのでこの程度のノイズは簡単に消せたはずですが,このまま掲載したのは著作権などに配慮してなのかは不明です.因みに,この文献で覚えた背景因子という言葉が,共変量という言葉よりもその意味が伝わりやすいと考え「統計的問題解決入門」でも背景因子を採用しました.今読み返してみると,「臨床試験の基本的構造は患者という個人の利益ではなく,患者の肩越しの母集団の利益を考えているために,個別的倫理と集団的倫理との間にジレンマが生じる」などというくだりは臨床試験の重みがひしひしと伝わってきます.
『データ分析の力』では(偶然に)まるで実験がなされたかのような状況を利用する「自然実験」としてRDデザイン,集積分析,パネル・データ分析などが解説されていますが,JMPならば複数の背景因子を「傾向スコア」という単一の指標に集約した分析が可能です.「傾向スコア」の値をカテゴリカルな因子(説明変数)として(名義ロジスティック)回帰分析を実施することも可能です.因みに名義ロジスティック回帰では特性はカテゴリカル(例えば改善あり,改善なし)がYになります.産業分野では,何らかの処理の有無が紛れ込んでいる量産データなどが対象となりますが,何か良いデータが見つかれば,そのうちこのブログでやり方などを解説してみたいと思います.『統計的問題解決入門』の第一講で「名義ロジスティック」に言及しています.技術分野ではあまり馴染みがない手法なののでその雰囲気だけでも味わって頂こうと考えたのですが,少々高度な内容になるので,その中身には全く触れることができなかったのが少し心残りでもありました.
『データ分析の力』を読んで一つ気になったのは,最後で説明されている内的妥当性と外的妥当性についてです.データから得られた分析結果はもちろんそのデータサンプルに対しては妥当(内的妥当性あり)ですが,分析結果がそのサンプル以外にも適用できるのかという問題を外的妥当性と言うそうです.これは統計モデルのオーバーフィッティングのところでお話ししたことと同じなのですが,私が思うに,外的妥当性がなければそもそも因果関係は議論できないのではないでしょうか.この本からは内的妥当性があれば因果関係を議論できるように読めます.少なくとも計量経済学ではそれが許されているのでしょうか?
書評になっていませんが,今回はここらへんで.
タグ:統計学 books
posted by Tad at 07:51| Comment(0) | TrackBack(0) | 雑記

2017年09月23日

あての話

Amazonで万年筆のインクを物色していて,いつもは見ないことにしている「統計的問題解決入門」のページにふと目がいったところ「なか見!検索」が実装されたようですね.「はじめに」を含んだ最初の15ページだけですが,雰囲気だけでも伝わればありがたいです.とは言っても,ここだけ見るとJMPマニュアル本のように見えてしまうかもしれません.本書の第3講以降では徐々にJMPを問題解決に使うことに主題を移していくので,マニュアル本のつもりで購入された方は当てが外れるかもしれません.そうだとしたら申し訳ないです.
「当てが外れる」で思い出したので無駄話を一つ.本当はそろそろ本書の補足などを書いていこうとも考えたのですが,来月開催予定のJMPer’s Meetingでお話しすることと重複してもどうかと思い,このブログではしばらく雑記を書くことにしておきます.会場を広くして定員を増やせる可能性もあるとかで,上記のセミナーはまだ申し込み可能なようです.よろしければどうぞお越しください.
さて,当てが外れた話です.私は木工を趣味としています.赴任先の米国では男10人集めればそのうち3人は木工(Wood Working)をやっているというくらい普及していて,TVや雑誌でも盛んにWood Workingの情報を流していました.木工道具の専門店なども近所にあり,同僚のアメリカ人に勧められたこともあって一時はかなり凝りました.自宅に地下室があったので,テーブルソーやバンドソーなの大型機材を買い込み,本棚やテーブルなどを製作していました.家具作りともなると大きい板が必要なので,製材所に行ってWalnutなどの気に入った木材を見て回ります.その際に注目するのが木目の性質や変形具合です.特に反った木材は要注意です.日本では一般に反った木材をアテ材と言いますが,これは厳密には正しくありません.
陽疾と書いて「あて」と読む言葉があります.太陽に疾る(はしる)と言うことを意味していると推測しますが,何が疾るのかというとそれは樹木です.太陽を目指して樹木は成長します.特に山の斜面では南を目指して斜めに伸びていくことになります.こうした樹木は重力に対抗するために成長の過程で主幹が変形し,内部に応力が蓄積されます.樹木のこのような部分を陽疾と言うのです.単に反りが大きい木材をアテ材というのではありません.というのも,アテ材は(単に)反っている木材に比べて少々性質が異なっているからです.厳密には陽疾が原因で現在(あるいは今後それ以上に)反っている(いく)木材のみをアテ材といいます.
陽疾に蓄積された応力が製材の乾燥工程でリリースされると,その木材は反りやすいのです.一般住宅用の木材は炉に入れて人工乾燥(Kilin Dry)させることがほとんどですが,人工乾燥では乾燥の過程で樹種によっては木材にダメージが入りやすいので,いまだに天然乾燥(Air Dry)も実施されています.この状況では家を建てた後に,徐々にそれらの木材が反っていくという困ったことになります.
このため,昔は上棟してしばらく放置して,壁塗りをする前に補修可能する工程を設けていたそうです.スループットを犠牲にしてノイズ対策の工程を追加したといったところでしょうか.もう一つ,昔の大工の棟梁は家(と言っても大きな家でしょうけど)を普請する際にしていたというロバスト化があります.もう一つ,昔(と言っても相当昔でしょうけど)棟梁は自ら山に行って木を下見に行き,自然環境でどのように育っているかを観察し,どの木材をどこに使うかを決めていたと聞きます.樹木を伐採,製材する前に陽疾の具合を観察して,それぞれが乾燥していく過程で今後どのように反っていくのかを予測しておくわけです.腕のいい大工はその予測に基づいて(反りの具合いを見込んで)家を建てました.これがうまく予測通りになってくれると,家の(接合部の)強度が増していきます.なんとも素晴らしい匠の技ですが,たまにこの見込みと異なる反り方をしてしまう木材が出てきます.こういう状況をアテが外れるといったのです.
このような匠の技は現代では失われつつあります.反りの出にくい(陽疾のない)樹木を育てる工夫はもちろんですが,集成材などを使用することでそもそも反りのない木材を使ったり,ジョイントに金具を使うことで反りを強力に補正したりして,反りを予測するという必要がなくなってきているからです.私が大工だったらつまらない時代になったと嘆いているでしょう.予測するというのは人間にとって必須の能力であるとともに一種の麻薬のようなものです.アテが外れるということにはギャンブル(射幸心)とも密接な関係があるので,それは人間にとって必要悪であるのかもしれません.
統計的問題解決は統計モデルによる予測をベースにしていますが,それを面白いと感じるのはその予測が当たった(あるいは外れた)ということを目の当たりにできるからです.匠の技のようなKKDの技術を後世に残すことも統計的問題解決の一つの重要な役目ですが,予測という点で両者に接点があるようです.職人技をモデル化して後世に継承することには近いうちに挑戦してみたいと考えています.
今週も雑談ですいませんでしたが,それではまた.
posted by Tad at 13:00| Comment(0) | TrackBack(0) | 雑記

2017年09月16日

DOEは斜めから学べ

誰か訪れる人がいるのだろうかと思って始めたこのブログですが,オーム社からサポートファイルをダウンロードされた方もいらっしゃるようで,少なくとも書籍を読んでくださった人がURLを拾いに来てくださっているようです.ご面倒をおかけいたしまして申し訳ございませんが,本当にありがたいことです.書籍にアドレスを直接書かなかったのは変更等に柔軟に対応できるからです.実際に,当初はGoogle Driveに置く予定にしていましたけれど,会社からではアクセスできないケースもあったりしたので,急遽オーム社に置き場所を作ってもらいました.
URLを拾うついでにそれ以外のブログ記事を読まれる方もいらっしゃかもしれませんので,過去の記事も読み返してみました.今まで誰の目にも触れることはないだろうと気楽に書いていたのですが,色々と訂正したいこともあります.明らかな間違いは既に修正しておきました.例えば,「JMPの提示する最適実験数で実験すると誤差の自由度は0になってしまいます.」というのはもちろん,「JMPの提示する最小実験数で実験すると誤差の自由度は0になってしまいます.」の書き間違いです.
他にも誤解を招くような記事もありました,池上彰,佐藤優(2016)『僕らが毎日やっている最強の読み方』東洋経済新報社を紹介した記事では批判めいたことを書いていますが,幾つかの学びを得たという点では読んでよかった本です.例えば,池上さんが,情報をくれるのは斜めの人間関係であると言われているのは全く同じ思いです.NHKに新米記者の頃,その世界でのいろいろな情報を教えてくれたのはNHKの先輩ではなく,読売新聞など他社の先輩たちだったということです.後輩とはいえ同じ会社に属していればそれには競争があるからです.もちろん,他社との間にも競争はありますが,成果として「特ダネ」という非常にわかりやすい指標がある会社では,後輩をライバルとして意識せざるを得ないという気持ちはわかります.
少なくとも専門分野に限っては,技術者の世界ではコンプライアンス遵守の観点から斜めの人間関係は築きにくいものです.いわゆる独占禁止法では競合他社との情報交換は第三条(事業者は,私的独占又は不当な取引制限をしてはならない.)に抵触する状況証拠と見做されるおそれがあるからです.かといって,縦の人間関係においても池上さんの場合のような状況があります.自分の経験からは後輩をライバルと思ったことはありませんが,それは仕事が細分化しすぎていて張り合うことがなかったからでしょう.とはいえ,後輩に何かを積極的に教えるという意識は希薄であったことも正直なところです.今でこそ人に教えることを生業の一部としていますが,当時は自分の分野の勉強に精一杯で,とても後輩の面倒を見ている余裕はありませんでした.こと専門分野に限っては,技術者の教育的な情報交流には縦も斜めも障害があるのです.
一方,統計学やデータ処理それにDOEといった(どの分野にでも有効という意味で)一般的な知識においても,(後輩に教えるという)縦の情報の流れに障害になっていることがあります.それは上司の存在です.人は自分が教えられたように教えることを好みます.こと教育については保守的であるものです.聞いた話なので,どこの会社とは言いませんが,ある技術者が後輩に実験計画を教えたところ,その後輩は上司に「そんなことで遊ぶな」と叱責されたそうです.KKDタイプの技術者を上司に持つと部下はDOEもままならないのです.
ところが,これが社外の人間に教えられたことであれば,異文化として受け入れてもらいやすいのです.DOEは受け入れられない上司であっても,それが舶来のものであればありがたがるというのは,さすがに新しいものには興味があるという技術者魂は備わっているからでしょうか.これが日本特有なことなのかはわかりませんが,いずれにせよ,日本ではDOEを学ぶには斜めからが容易なようですとはいえ,一般分野といえども斜めの人間関係を築くのは今のご時世では難しい面があります.他に探すとすれば,斜めから学ぶ機会としては学会がその一つの手段ですね.代表的なところではJSQC(日本品質管理学会)がありますが,なぜか土曜日に開催されるので通常の会社員には参加しにくいし,正直申しまして産業分野の技術者の参考になる発表は少ないと思います.先にお知らせしましたDiscovery Summitが斜めから学べる場になるようにしていけたらと思っています,

それではまた.
タグ:統計学 books
posted by Tad at 22:06| Comment(0) | TrackBack(0) | 雑記