2017年10月21日

出版記念セミナーに備える

いよいよ来週はJMPer’s Meetingです.何をお話しするのかは決めてあるので,この週末にKeynote(Mac用のパワーポイントのようなソフト)でプレゼン資料を作成していますが,ここにきて一つ困ったことが判明しました.
今回は出版記念セミナーということで,JMPよりは問題解決を中心としてお話しする予定にしていますが,それだけですと内容が少し抽象的になりすぎてしまうので,後半にMCDAアドインのデモを入れることにしました.そもそも当初の原稿では易しいものから難しいものまでAMDCアドインを使う三つの例題を準備していましたが,ページ数オーバで原稿をカットする必要が出てきました.そこで,その中でもやや難しい例題のみを本書で採用したという経緯があります.不採用とはしましたが,他の二つも理解を助けるためにはなかなか良い例題なのでこのまま埋めておくのも勿体ないと考えていたところ,今回の機会をいただきました.そこで,今回のセミナーと来月のサミットでそれぞれ別の例題を取り上げることにしました.
来週紹介する例題は,ノイズ因子がない代わりに二入力を扱っていることが特徴です.本書の言葉では,目的因子が二つあるシステムということになります.ノイズ因子がないと計算負荷は少なくなるのですが,それでも因子をアサインして実行かけてから設計ウィンドウが出てくるまでに30秒ほどかかります.これは私のMacが遅いからということもあります.使っているデスクトップは2xQuad-core Xeonのものなので余裕なのですが,今回のように外に持ち出せる機種では第二世代のMacBook Air(Early 2009)が一番新しいという状況です.こいつはCPUがプアということもありますがなんとメモリが2GBしかありません.ご存知かもしれませんが,MacBookにはメモリを追加することはできないので,KeynoteとJMPとを同時に動かすのはそもそも厳しいところです.
そこで新たにMacBook購入を検討しています.あまり使用頻度が高いものではないので,高価なものである必要はないのでまたMacBook Airでいいかなと考えていますが,アップルの新技術が気になります.写真を見たりすることはないので,Retinaディスプレイとかは(新しいというわけでもありませんし)どうでもいいのですが,感圧式のtrack padがとても気になっています.擬似的にクリック感を出しているということが好きになれずスルーしてましたけれど,先日購入を前提として実機に触って,この機能の価値にあらためて気付きました.
感式圧track padのレビューはWEBで多くの人が書いていますが,どれにも最大のメリットが書かれていないようです.それはクリック操作がパッドの上部でもできるということです.windowsでもおなじですが,クリックはパッドの下部を押す操作になりますが,このことでホームポジションを崩すことを余儀なくされます.感圧式のtrack padでは機械的なボタンがないのでパッドのどこを押してもクリックが可能なので,ホームポジションを保ったままボタン等をクリックできます.このことが何よりも貴重です.
私は英字キーボード派なのですが,その理由もホームポジションを崩さずにenterが押せるからです.よく英字キーボードのデメリットにenterキーが小さくて押しにくいと書いてありますが,これは間違いです.将棋盤に王手を打ち込むようにenterを押す人がいますが,こういう人であれば着地点が広い方が(打ちやすい)狙いやすいのかもしれませんが,思考を素早くテキストとして出力するためにブラインドタッチしている人にとってはホームポジションから指を離さないことは必須です.特に英語混在の文章を書くことが多い技術者には,生産性向上のために英字キーボードを使うことをお勧めします.
ということで,MacBookかMacBook Proにしようと考えていますが,これらの機種には通常のビデオポートがありません.USB-Cのアダプタは結構高価なので一回しか使わないのにもったいないかなあと悩んでいます.なので,やはり古いMacBook Airのままで講演するかもしれません.その場合は30秒の間延びした時間をご容赦ください.
それでは26日に参加くださる方がもしもこれを読んでいただいているなら,当日お会いいたしましょう.どうぞよろしくお願いします.

2017年10月14日

「産業に生かすJMP」

「産業に生かすJMP」と題したSAS社主催の事例セミナーに参加してきました.講演者のBill Worleyさんは化学畑の技術者としてのキャリアが長く,米国SAS社の前にはP&GやBASFにいらしたというキャリアをお持ちです.Technical Enablement Engineerという役職はアプリケーション・エンジニアのようなものなのでしょうか.化学者の立場からというサブタイトルもあってか,化学関連の会社からの参加者が多かったようです.当初はもっと化学寄りに専門的な内容かと思っていたのですが,JMPスターターの説明があったり,「エクセルからデータを持ってくる方法は三つあるけど,それらを知っているかい」という質問を皆さんに出されたりして,十分初心者でもフォローできる内容でした.
因みに,この質問の答えはおわかりでしょうか?
1.まずはデータをコピーアンドペーストすることです.ペーストのときに列名とともにペーストを指定するのを忘れずに.
2.エクセルのJMPメニューを使う方法が二つ目の方法です.エクセルのレイアウトによっては環境設定の各種数値を調整することが必要となります.
3.そして最後に「統計的問題解決入門」でも紹介したエクセルwizardです.

それで知ったのですが,エクセルwizardは英語版ではEXCEL import wizardなんですね.エクセルwizardというとエクセル名人のような意味合いなので,なんか変だなとは思っていました.日本語版ではおそらく文字幅に起因する視認性を優先したのでしょう.漢字フォントを使う我々の場合,どうしてもフォントサイズが大きくなってしまいます.(余談ですが,万年筆のニブも日本製のものは外国製に比べて細くなっています.例えば,ペリカンのFはパイロットではM相当です.手帳に漢字を書くのにはペリカンのF(細字)では厳しいです.)
英語が苦手な人でも今回のセミナーは逐次通訳付きでなので十分理解できるレベルでしたが,JMPの画面は英語版のままでした. John SallさんのSummitの講演などではSAS Japanの人が二画面あるうちの片面で日本語版の画面を出したりしていますが,操作をリアルタイムに真似しなければならず,シンクロさせるのに苦労さなっています.
今回のセミナーで英語版のJMPの画面を見ると,いろいろな違いにあらためて気づきました.「統計的問題解決入門」でも「二変量の関係」は「Fit Y by X」であるとかを紹介していますが,なるほどと思ったのが,グラフビルダーのボタンです.
ご存知のように設定パネルには左から「元に戻す」「やり直し」「終了」という三つのボタンが並んでいますが,これらは英語版では「Undo」「Start Over」「Done」となっています.正直にお話ししますと,今だにUndoするつもりで「やり直し」ボタンを押してしまうのですが,この点は英語表記の方がわかりやすいですね.
JMPの表記に限ったことではないのですが,英語表記を知ってその正確な意味がわかるような例がたくさんあります.例えば,「拡張計画」は「Augment Design」です.拡張はAugmentの一つの形態であって,例えばaugment children’s performance などと言ったりします.日本語にない言葉なのでこれは仕方ないのかもしれません.
セミナーの話に戻りますと,先ほどのエクセルwizardのところでは,10000行より多いデータで使うことを推奨されていたり,寄率与と自由度調整済み寄与率との差は小さい方が望ましいという説明ではその値は0.1%以下という値を示していたり,具体的な数字を出してくるあたりにBillさんが実務家であるという印象を受けました.具体的な数字についての質問は私もよく受けるのですが,これがなかなか難しいところです.多変量のデータ分析に経験がそれほど多くはない私がVIFはいくつ以下であればいいのかと聞かれても,ものの本にはということをお伝えするのがせいぜいです.一方で,多くの経験がある実験計画では,例えばモデル寄与率について聞かれれば,計測精度や実験環境にもよりますが,具体的な数字を出してお答えできます.
一つ気になったのは,カスタム計画を作成する際に,実験数がリソースよりも多い場合に「if possible」(日本版では「必要な場合のみ」)を適用せよと言われていたことです.私はこれには反対です.「必要な場合のみ」はそのリスク(交絡)を知った上で最後の手段としてであれば「あり」ですが,とりあえず『RSM』で効果を仮定して実験数が多ければ「必要な場合」にするというのは,交絡がグシャグシャになって,わけがわからなくなる可能性大です.Billさんの経験からはそれでうまくいったこともあったのかもしれません.この点についてはご本人にメールで確認してみようと思っています.
それではまた.
posted by Tad at 13:03| Comment(0) | TrackBack(0) | JMP

2017年10月09日

『データ分析の力』

先日,Amazonの本書のページを見た際に「この商品を買った人はこんな商品も買っています」というところを興味深く拝見しました.どのような人が本書を読んでくださっているのかのイメージが掴めます.JMP関連の本がほとんどという中で目についたのが伊藤公一朗(2017)『データ分析の力 因果関係に迫る思考法』光文社新書 です.ビッグデータのデータ分析という多くの方が興味を持つ分野の本であり,新書なので気軽に買える値段ということもあって多くの方々に読まれているようです.レビューも高評価なので,私も読んでみました.
著者によれば,因果関係の見極め方を計量経済学の観点から解説した本とのことですが,データ分析一般を視野に因果関係の深い議論に切り込むというよりは,計量経済学におけるデータ分析の応用例を解説した本です.冒頭に,例によってアイスクリームの話などを引いてRCT(ランダム化比較試験)が出てきます.それに続いてRCTが利用できない状況で,意図的な実験ではないデータを利用する様々な手法とその限界とともに紹介されています.実験計画がごく普通にできる産業分野の技術者にとって,この本を読んでこれらの手法の概念を理解するというよりは,データ分析は分析者の工夫と熱意で成し遂げられるものということを理解することの方に価値があります.
社会科学や心理学,それにこの本のような一部の経済学は一般一般にはデータ分析がしにくい分野です.特に心理学では様々な工夫を凝らしてデータが取られていますが,その多くは相関研究ではあるものの,論文の結語にその旨の注意が書かれているものが多いです.RCTを実施するにはコストだけでなく倫理面でも大きな障害がある分野です.相関研究だとしてもそこにはデータを積極的に取る為に大きな努力が必要です.自然とそこにデータを扱う態度に対して他の分野との温度差を感じます.技術者上りよりも営業畑からの人の方がデータ分に向いていると聞いたことをこのブログのどこかで書いた記憶がありますが,良いデータ分析に何よりも必要なのは熱意なのかもしれません.
もちろん良い本だとは思いましたが,RCTの重要性を理解するなら他にもいろいろ良い文献があります.例えば,私が最初にRCTという言葉を知ったのは,ずいぶん昔のことですが,日本産科婦人科学会の学会誌の津谷 喜一郎 , 石川 睦男,日産婦誌第51巻 第9号,第51回日本産科婦人科学会生涯研修プログラムの中の7) Evidenceと臨床試験
です.この文献は実際にご覧いただければわかるのですが,エステサロンの効果を解説するために広告から持ってきたという写真が載せてあるのですが,その女性の写真の腕に文字が写り込んでいてとてもシュールなのでとてもよく記憶しています.この当時でもフォトショップがあったのでこの程度のノイズは簡単に消せたはずですが,このまま掲載したのは著作権などに配慮してなのかは不明です.因みに,この文献で覚えた背景因子という言葉が,共変量という言葉よりもその意味が伝わりやすいと考え「統計的問題解決入門」でも背景因子を採用しました.今読み返してみると,「臨床試験の基本的構造は患者という個人の利益ではなく,患者の肩越しの母集団の利益を考えているために,個別的倫理と集団的倫理との間にジレンマが生じる」などというくだりは臨床試験の重みがひしひしと伝わってきます.
『データ分析の力』では(偶然に)まるで実験がなされたかのような状況を利用する「自然実験」としてRDデザイン,集積分析,パネル・データ分析などが解説されていますが,JMPならば複数の背景因子を「傾向スコア」という単一の指標に集約した分析が可能です.「傾向スコア」の値をカテゴリカルな因子(説明変数)として(名義ロジスティック)回帰分析を実施することも可能です.因みに名義ロジスティック回帰では特性はカテゴリカル(例えば改善あり,改善なし)がYになります.産業分野では,何らかの処理の有無が紛れ込んでいる量産データなどが対象となりますが,何か良いデータが見つかれば,そのうちこのブログでやり方などを解説してみたいと思います.『統計的問題解決入門』の第一講で「名義ロジスティック」に言及しています.技術分野ではあまり馴染みがない手法なののでその雰囲気だけでも味わって頂こうと考えたのですが,少々高度な内容になるので,その中身には全く触れることができなかったのが少し心残りでもありました.
『データ分析の力』を読んで一つ気になったのは,最後で説明されている内的妥当性と外的妥当性についてです.データから得られた分析結果はもちろんそのデータサンプルに対しては妥当(内的妥当性あり)ですが,分析結果がそのサンプル以外にも適用できるのかという問題を外的妥当性と言うそうです.これは統計モデルのオーバーフィッティングのところでお話ししたことと同じなのですが,私が思うに,外的妥当性がなければそもそも因果関係は議論できないのではないでしょうか.この本からは内的妥当性があれば因果関係を議論できるように読めます.少なくとも計量経済学ではそれが許されているのでしょうか?
書評になっていませんが,今回はここらへんで.
タグ:統計学 books
posted by Tad at 07:51| Comment(0) | TrackBack(0) | 雑記

2017年10月07日

補足します

サポートファイルをダウンロードして実際にJMPで操作してくださっている方も増えてきているようですので,散発的で申し訳ないのですが,思いついた(気がついた)タイミングで補足しておきます.

1.「ローカルデータフィルタ」ではフィルタを操作すると直ちにその結果がグラフに反映されますが,それは同時に「自動再計算」にチェックが入るからです.通常のグラフではデータを除外するなどの操作を実行してもその影響は直ちには反映されませんが,「自動再計算」にチェックを入れておけば「ローカルデータフィルタ」のようになります.チェックの入れ方はプラットフォームの赤三角から「やり直し>自動再計算」です.

2.MCDAアドインのインストールについては本書で触れましたが,アンインストールについては書いていませんでした.これはすべてのアドインについて同じ操作なので覚えておいて損はないです.そのためには「表示>アドイン」で出したウィンドウのアドインのリストから所望のものを選択して『削除』です.

今日は他の記事を投稿しようと思っていたのですが,忘れそうなので先に上記をお伝えすることにしました.連休ということもあって,今日予定していた記事は来週の月曜日(体育の日)にでも投稿します.それではまた.

2017年09月30日

p82の一番上の棒グラフを作成する方法について

p82の一番上の棒グラフを作成する方法について質問を受けました.話の展開からは重要なグラフではないということもあって,実は読者に対しての課題としてあえて手順を省いています.試された方はいらっしゃいますでしょうか.以下を見る前に少し考えてみてください.

回答
これだけが正解ではありませんが,ここにもっとも単純な手順を書いておきます.まず最初に「膜厚」で並べ替えて欠測値と除外行を除いて最大と最小からそれぞれ10行を選択して,行番号を右クリックでメニューを出してそれぞれに好みの色を設定します.このときCTRLキーを押しながら各行をクリックするのはおわかりですよね.行パネルで選択されている行が20になっていることを確認してください.脚注にも書きましたように,膜厚を色にドロップすると似たグラフが描けます.こちらの方がJMPらしいと言えますが,実はこのように行を選択しておくと別のメリットがあります.書籍に掲載されているパラレルプロットはこの選択された状態で作成していますが,選択された行のデータが強調されるので見やすいのです.念のために言っておきますと,同じパラレルプロットの作成は「装置NO.」と「欠陥数」以外の列を選択して「グラフビルダー」のXにドロップしてから,上のアイコンの一番右(パラレル)をクリックします.
 さて,ここからp82の一番上の棒グラフを作成するには,少々手順を踏まなければなりません.このような列方向に計算するにはエクセルを使いたくなりますが,ここは堪えてJMPだけでやります.そのためには色を設定したそれぞれの10行の行番号を選択してテーブル>サブセットでサブセットテーブルを作成します.次にそれぞれのサブセットに対して,列>列ビューアで設定パネルを出して装置No,膜厚,欠陥数以外を選択してから「要約の表示」で要約統計量の項目を出してからそこの赤三角から「データテーブルビュー」でテーブルに出力します.別の色の10行でも同様にしてから,その二つのテーブルをテーブル>結合です.このときそれぞれで列名称が入っている「列」を元の列から選び,「対応」で対応する列に設定します.普通にやると「無題の列」にN2,SiH4等のラベルが入るはずです.後はもうおわかりですよね.計算式で二つの平均の列を引き算した新たな列を作成してそれを棒グラフにすればよいのです.
ところでこのグラフですが,それぞれの因子範囲が異なっているので,これらの値を比較することにはデータ分析上はそれほど大きな意味はありません.JMPに慣れるための例題であって,パラレルプロットによる可視化の知見を数値情報にしてそれを再度視覚化する一つの手順を示したとお考えください.
タグ:JMP