UA-115498173-1

2019年03月02日

MacBookが故障した話

先週の金曜日にJMPer’s Meetingで使ったMacBook Proですが,なんと翌日の土曜日に故障してしましました.先週のブログを書いているとき,なんか今日はタイプミスが多いなと思っていたんですよね.前の日の疲れからと思っていたんです.症状は「nキー」が二度打ちされてしまうというのもので,ローマ字入力なので,例えば「なんです」とタイプすると「nなんです」となってしまいます.調べたら,MacBook Pro (2016 以降) のキーボードには埃などが隙間に入って動作不良を起こすというトラブルがあるようです.MacBook や MacBook Pro のキーボードのお手入れ方法などという公式文書も公開されているくらいです.この本体を75度傾けるという指定がなんとも奇妙ですね.(分度器なしに正確に75度を知るにはどうすれば良いのかを考えること数分.正三角形を描いて60度を作り更にそれを4等分すれば良いことに気づきました.)面倒なので,おおよそ75度で書いてある通りに処置しても改善せず.最後の手段でAppleのサポートに連絡して持ち込み修理の予約をしました.

幸いなことにこのトラブルはApple側が認識していて無償修理の対象となっていました.そうでなければ,正確な額は忘れましたが,5万円以上かかるのだとか.この無償修理は購入から4年という制限がありますので,MacBook Proのユーザーの方はキーボードの調子がおかしいなと思ったら様子見をせずに動いた方が良いです.因みに,その後に知ったところでは,第三世代のバタフライキーボードでは対策されているという噂もあるようです.

サポートには最長1週間と言われたのですが,なんと中1日で修理品が輸送されてきました.それで本日はこれからバックアップデータをもとに戻すところです.言い訳が長くなりましたが,そういうわけで,本日のブログで書く予定だった「DOEを成功させるためのヒント」の最三回は来週に回します.三番目がなんだったか忘れてしまったので.そもそもあのヒントは「統計的問題解決入門」を執筆したときのドラフトがもとになっていて,全部で30以上もある中から今回の講演のために7つ(追加分を入れると8つ)を選んだものなのです.先日SAS社から参加者の皆様のアンケートをフィードバックしていただいたのですが,この7つのヒントが好評でした.そういうわけで気を良くしてこの企画は続けますが,今週は上記の事情により休載します.

これだけですと物足りないので,問い合わせを頂いている「事例検討会」について補足します.正式にはHOPE事例検討会と呼んでいて,高橋先生が主催されているHOPEアドインを使った事例検討を研究するという集いです.その場ではHOPEアドインのライセンスがもらえるだけでなく,使い方の指導もしています.JMPユーザーであれば,参加資格は唯一自分の事例を落ち込むことです.あの場ではデータが必要と言ったかもしれませんが,それは正確ではなくて,これからどのような実験計画を組めば良いかの相談であっても構いません.その場合に必要なのはデータではなくて事例の背景です.その際,細かい技術内容は不要です.正確である必要もありません.データは実験した後に持ってきていただき,HOPEを使った最適化を試みるという流れになります.この場合も,因子名や水準値はマスクして構いません.とは言っても,社外発表等の承認手続きが必要になる会社もあると思いますので,そこらへんはメリットとデメリットを秤にかけてご検討をお願いします.現在,隔月で実施している検討会ですが,今後は毎月実施する予定ですので,最短では一月で問題解決できるかもしれません.

因みに,MCDAアドインはこの検討会では対象外です.MCDAアドインは「統計的問題解決入門」の読者に多目的最適化の醍醐味を味わっていただけるように企画したものなので,SAS社でも事例検討会でもサポートしていません.HOPEアドインと違って,MCDAアドインはJMPネイティブのモデリング(モデルのあてはめ)を使いますので,そのぶん機能はシンプルですがHOPEアドインとはアプローチが異なるので注意が必要です.先週のJMPer’s Meetingの後に,早速本書を購入してMCDAアドインをダウンロードしてくださった方もいるとSAS社の営業の方に聞きました.その方がこのブログをご覧になっているかわかりませんが,不明な点あれば直接このブログのコメント蘭でお問い合わせください.事例相談等についても,できる範囲で協力します.東京近辺の方であれば,SAS社の会議室を借りて,直接お話しすることもできるかもしれません.

本日は雑記でした.これからバックアップを復元します.それではまた.
posted by Tad at 19:00| Comment(0) | TrackBack(0) | 雑記

2019年02月23日

システムを意識しよう

昨日のJMPer’s Meetingさ参加してくださった皆様.どうもありがとうございました.当日は花粉症の影響で喉の調子がよろしくなく,体調的にも今ひとつでしたが,多くの方にお会いできてとても有意義でした.
さて,昨日もお話しした「DOEを成功させるためのヒント」について続けます.今週はその2として「システムを意識しよう」ということについて書きます.システムという言葉は,日本語ですとSEに代表されるようにコンピュータ関連の特にソフトウェアに限定して使われることが多いのですが,そもそもは系という訳が与えられている広範囲な概念をも意味します.例えば太陽系はソーラー・システムです.一企業の囲い込みを「エコシステム」などときれいごとで表現することもあります.

DOEによる問題解決の場合,最適化する対象をシステムと見做すことが大切です.この場合のシステムは,個々の構成要素が全体として機能していると考えます.ですから,ほとんどのモノはシステムです.例えば,自動車,PCと言った工業製品はもちろん,カレーライスやおでんなどの料理もシステムと考えることができます.そうだからこそ,こう言ったモノは最適化即ちその機能を最大化することができるのです.最適化設計ではDOEによるデータでシステムを数式化するわけですが,そのDOEがカスタム計画であるときは,システムの構成を仮定する必要があります.鶏と卵のようではありますが,物理学で理論構築の際にモデルを立てるのと似ています.このシステムモデルを元に統計モデルという別のモデルを立てるのがややこしいところです.

システムのモデルをもとにDOEを構築する場合,設計因子と特性はシステムの縦糸と横糸であると意識します.こういうときに,よくフィッシュボーン・チャートを使うように書いてある本もあります.JMPではishikawaダイアグラムとして実装されていますが,わたしはそれよりもマインドマップ的なものを紙に書くことをお勧めしています.マインドマップはフリーも含めていろいろソフトやアプリがリリースされていますが,紙に書いた方が絶対いいです.A4のコピー用紙を横にして使うのがお勧めです.ノートに書くならば無地に限ります.どう書いていくかというと,ステークホルダーでシステムを把握することがコツです.

例えば,「おでん」というシステムには作る人と食べる人というステークホルダーがいます.作る人は,レシピ(材料の種類と量)や調理方法・手順などで「おでん」に関わります.食べる人は代金を支払って味や食感などを得ることで「おでん」に関わります.これで一通りの縦糸と横糸が導かれたわけですが,実践的なDOEではもう一人の重要なステークホルダーがいらっしゃいます.それは誤解されることを恐れず言ってしまえば,神様です.神様は「おでん」に気温などの環境として影響します.関東か関西かという場の違いを考慮するならば,固定因子とすべきかノイズ因子とすべきかで悩むこともあるかもしれません.然しながら,この段階では作る人(お店)または食べる人が関東にあるか関西にあるかという関わり方で捉えるに留めておきます.

今日は昨日無理したせいで喉の調子がいまいちなのでここまでとしますが,ここらへんの説明は本書P173をご参考にしてくださるとわかりやすいかと思います.

それではまた.
posted by Tad at 19:00| Comment(0) | TrackBack(0) | 講演コンテンツ

2019年02月16日

DOEは必殺技

今年最初のJMPer's Meetingはいよいよ来週に迫りました.後半のジャパン・セミコンダクターの事例発表が実践編なので,私の担当する前半の基礎編で何をお話しようか今も考えているところです.「JMPerはDOEをやろうよ」ということからは外れない予定なのですが,割とアドリブで話してしまうタイプなので,聞いてくださる方の反応次第では脱線することはあるかもしれません.JMPer's Meetingは既に満席でキャンセル待ちとなっているのですが,ご興味あれば直接連絡ください.

先日SAS社から連絡ありまして,都合でキャンセルされた方から資料配布の予定はあるかとご質問いただいています.理由はいろいろありますが,どのような講演でも資料は配布していません.プレゼンのノウハウ本の中には「資料は配布しない」ように指導しているものもありますが,それに従っているわけではありません.学会発表とも違って講演のスライドは「話し」が主でそれを補足するためのものです.ですから,スライドだけを「読む」と政治家の発言のように主張が(結果的に)部分的に切り取られてしまうことを懸念しているからです.更には,講演の場は一期一会であることを大事にしたいと言う理由もあります.どんな講演であっても,資料はそのために毎回作成していますし,講演後に使用した資料は必要な部分だけを残して削除してしまいます.自分の手元にも残ってない資料が他所様にあるのも不自然です.

このような事情をご理解いただければありがたいのですが,興味はあるけれど参加できないと言う方もいらっしゃるかしれません.最近参加したカンファレンスで,資料非公開だけど自らのfacebookに投稿すると言う方がいて,なるほどと思ったので,このブログで追加補足した内容を書いていくことにしました.私はfacebookもTwitterもアカウントは持っているのですが,性に合わないのか全くの休眠状態ですので.
前置きが長くなりましたが,そこで本日は「DOEを成功させるための7つのヒント」のその1「DOEは必殺技」について書きます.

必殺技と聞いて何を思い浮かべるかで年齢がわかりますよね,例えば,「週刊少年ジャンプ」のヒーローたちが繰り出す最強必殺技20選のいくつをご存知でしょうか?わたしの場合,必殺技で思い浮かぶのは90年代後半にアメリカで大流行したプロレスです.まさにこの時期にアメリカに滞在していたのですが,WCWとWWFの視聴率競争がMonday Night Warsなどと呼ばれていて,私も毎週月曜日を心待ちにしていました.特に好きだったのが,ゴールドバーグのジャックハマーとダイヤモンド・ダラス・ペイジのダイヤモンド・カッターでした.話が脱線しました.
なぜDOEが必殺技なのかと言うと,(問題解決に対する)威力が絶大であると言うことだけではありません.必殺技はそれを出すタイミングが重要なのです.ジャックハマーは大技なので相手が元気なうちは仕掛けられるものではありません.スピアーなどの他の技で相手が弱らせてから技をかけてフィニッシュに至るわけです.

DOEでもタイミングは大変重要です.DOEでは実験は背景因子の影響を可能な限り低減したり,特性を通常とは異なった手法で測定したりします.即ち,DOEを実施するには金も時間もかかかるのです.私たちとしてもこの一回で勝負をつけると言う気迫が必要です.ですから,システムの考察が不十分なうちはまだDOEを実施するタイミングではないのです.特にカスタム計画を採用するならば,交互作用の事前知見は大変重要です.よくモデルに二次までの交互作用と二乗項全て(いわゆるフルモデル)を入れているものを見かけます.もちろん,その部分の交絡がなくなるのでやってはいけないと言うことではないのですが,実験数が増大すると言うデメリットを忘れてはならず,実験数の制約のために設計因子を削るなどという事態だけは避けるべきです.なぜならば,カスタム計画には拡張計画が適用できるからです.交互作用にはデータ構造にパッチを当てることはできるけれど,設計因子を追加することはできないからです.

DOEという必殺技を繰り出すためには,既存データの分析結果や計測手法の工夫など様々な準備を整えてからにしようという話,お解りいただけましたでしょうか.といっても,まずは手始めにDOEを実施するというのもアリです.でも,このときはExploratory(探索的)DOEであって,Confirmatory(確認的)DOEが後続することを忘れないでください.当日はこのようなヒントをあと6つお話ししますが,このブログに後日機を見て投稿していきます.

それではまた.
posted by Tad at 19:00| Comment(0) | TrackBack(0) | 講演コンテンツ

2019年02月09日

こぎれいなデータ(tidy data)

先週は「不正統計」という言葉に待ったをかけました.不正統計ではなく不法統計と呼ぶべきであると.もっと正確には,不法なデータサンプリングであって,そこに統計の誤用が合わさったということです.この問題の根っこにはデータ軽視があるように思います.更には,正しく統計を使わなければいけないという決意も欠如しているように思います.それは,データは統計分析してこそ意味があるという認識がそもそも欠如しているからでしょう.先週予告したように,このことを実例を元に見ていきます.

以下で対象とするファイルの¥ダウンロードでクリティカルな間違いをしてしまいましたので訂正しています.申し訳ございません.

サンプルデータは学校保健統計調査を選びました.このページの調査の結果の統計表一覧をクリックすると,そこに書いてあるようにe-Statに飛んでいきます.データはどれでも同様ですが,昨年の12月21日公開の最新の平成30年度(速報)から全国表をクリックして,表番号1の「年齢別 身長・体重の平均値及び標準偏差」をダウンロードしてください.都道府県表をクリックして,表番号3の「都道府県別 身長・体重の平均値及び標準偏差」をダウンロードしてください.ファイル名は「h30_hoken_tokei_03.xlsx」となっているはずです. このエクセルファイルをどう思いますか?見ることを前提としたデータなので,JMPで分析しようにも一苦労です.決定的にダメなのは年齢という重要な変数がシートに分割されてしまっていることです.
このmessy dataを分析可能なデータ(tidy data)に変換するのが本日のお題です.この作業をData Tidyingと呼びます.tidy dataを整然データと訳されている方もいらっしゃいますが,自分的には整然ではどうもしっくりこないので「こぎれいなデータ」と呼んだりしています.整然とした部屋というニュアンスとこぎれいな部屋というニュアンスでは後者の方がtidyに近いからですが,学術用語としては適さないですね.素早く分析に着手できるという意味では「整頓」というのも近いです.
さて,以下に手順を示しますが,操作の順番は絶対ではありません.正解は一つではなく,以下は一つの例とご理解ください.
 
1.   まずはエクセルファイルをExcel読み込みウィザードで開きます.前の設定が保存されているときは一度「デフォルト設定に戻す」を実行しておいたほうが間違いがありません.このファイルでは以下の設定にしてください.
image001.png
ここで「連結の際,ワークシート名を含む列を作成する」にチェックを入れることが重要です.この他の設定はデフォルトで構いませんので,直ちに「読み込み」を実行します.空白の行や列などのデータの欠測値を処理することも可能ですが,初めてのデータの場合はこの段階では放置しておくことをお勧めします.
2.  JMPテーブルに変換できたら,最初にやるのは標準偏差の4列を削除します.(ここでは平均値のみを対象とします.)
3.「男-身長」「男-体重」「女-身長」「女-体重」の4列を積み重ねます.デフォルトでは,「ラベル」列と「データ」列ができます.以下の説明では列名はデフォルトのまま処理をすすめていきますが,適宜変更しても構いません.
4.「ラベル」列を選択して,「列>ユーティリティ>テキスト」を実行します.区切り文字は半角のハイフォン「-」です.全角が好きなお役所もここだけ半角なのが謎ですね.
5.「ラベル」列は削除します.「ラベル3」列もすべて「平均値」と入っていて分析には無意味なので削除します.(削除するのは後でもかまいません.)
6.「ラベル2」列には身長と体重というラベルがデータとして入っているのでこれを分割します.それには「列の分割」で「基準となる列」に「ラベル2」,「分割する列」に「データ」を割り当てます.このとき「残りの列はすべて保持」にチェックを入れるのを忘れないようにして下さい.
7.「ラベル1」を「性別」に名称変更して,「ラベル」列は削除しておきます.
8.区分には都道府県名が入っているのですが,このままではグラフビルダーで認識しないので,シェイプファイルが呼び出せません.なぜかというと,「北 海 道」のように意味のない空白が入っているためなので,これを削除します.それには「検索>検索」で「全角空白」を「」に検索置換します.この操作は二回繰り返さなければなりません.三文字の名称に合わせて二文字の名称が青(全角空白三文字)森のようになっているからです.このよう無駄な空白は誰が得するのか?お役所のデータを他山の石とすべきです.
9.いよいよ「元のテーブル」列に取り掛かります.例えば.「3県別発育(5歳)」となっている5を取り出すために区切り文字を(歳 とします.普段何気なくつけているワークシート名もJMPに呼び込むことを考えてつけるべきですね.
10.「元のテーブル2」には全角数字で年齢が入っていますので,列情報を名義尺度とし,列名も「年齢文字」と変更します.
11.回帰分析などのためには年齢を連続尺度にしておきたいところです.そのためには新規に連続尺度の列を作成して,そこに以下の計算式を入れます.ようするに全角の数字を半角の数字に置き換えるのです.
 
Num(
        Substitute( :年齢文字,
                "0", "0",
                "1", "1",
                "2", "2",
                "3", "3",
                "4", "4",
                "5", "5",
                "6", "6",
                "7", "7",
                "8", "8",
                "9", "9"
        )
)
 
この計算式の関数NumもSubstituteも文字のところにあります.Substituteは下のほうです.
12.「区分」をデータフィルタにかけて,都道府県名以外の三つ(???と調査対象者(人)と全国)を選択して行を削除します.
13.列名は適当でかまいませんが,一般的「身 長(cm)」という全角半角入り混じった列名は「身長」としたいところです.一般的には列名には単位は入れないことをお勧めします.列名は変数名でもあるのでモデリングの際に見やすくなるからです.列の選択リストにも単位が表示されないので見やすいです.
14.どうしても単位をレポートに表示させたい場合は,列情報の列プロパティで単位を選び,所望の単位を入れてください.グラフなどには単位が表示されます.

この後,先週のグラフを作成するには,都道府県をクラスタリングしてから,「BMI」列を計算式で作成するだけですが,本日は所用があり続きは後日とさせてください.このグラフを見ると興味深いことが見えます.考察すべきこと色々あリますが,長くなったので本日はこれにて.

それではまた.
タグ:JMP
posted by Tad at 19:00| Comment(0) | TrackBack(0) | JMP

2019年02月02日

不正統計と統計リテラシー

不正統計の報道で騒がしい昨今ですが,この言葉を聞くたびに「ちょっと違うのではないか」と思うのです.不正統計が何を指しているのかといえば,ご存知のように厚生労働省の毎月勤労統計の調査が正しく実施されていなかったという問題です.毎月勤労統計調査(いわゆる「マイキン」)では従業員500人以上の事業所はその全てが対象になっていますが,東京都内では3分の1しか調査していなかったとのことです.
母集団からサンプリングしてその平均値を母平均の推定値とするという行為そのものは統計学としては全く問題ありません.問題はサンプリングがランダムでなかったことです.日本全国の平均賃金を推定する場合,東京都内でのみ三分の一サンプリング(少しい変な言い方ですが,そのほかではサンプリングは全数)していたのであれば,母平均の推定値は真値よりも小さくなります.東京都には比較的賃金の高い事業所が集中しているからです.この報道を聞いたとき,サンプリングして東京都の平均賃金を推定した後,東京のサンプルサイズを3倍したのかと思っていましたが,そんな単純な処理すらしていなかったようです.どうしてそのままでいいと思ったのでしょうか.謎ですね.
とはいえ,この問題を不正統計と呼ぶのはやめていただきたい.確かにサンプリング手法は間違ってはいますが,統計手法が不正なわけではありません.おそらく不正統計というときの「統計」はデータの意味で用いていると思いますが,データ自身も捏造された不正なものではありません.この行為が問題なのは違法であるということです.毎月勤労統計調査は,それによって景気判断はもとより様々な政策が決定されるわけですから,国の基幹統計調査として統計法で定められているのです.ですから,今回の問題は不正統計ではなく不法統計と言って欲しいと思います.統計という言葉と不正という言葉が紐付けられてしまい,人のヒューリスティックな判断に影響をもたらすはずです.不正統計などという間違った言葉が蔓延るのは少なくとも統計教育にとって百害あって一利なしです.
統計には嘘はありません.「嘘には三つある.一つは嘘でもう一つは大嘘(真っ赤な嘘とも),そして三つ目は統計だ.」などというマーク・トゥエインの言葉が有名ですが,彼がこのイギリスの首相の言葉(諸説あります)を引用したのは,元々は「(私は)数字に惑わされる」という文脈でした.確かに数学には嘘はありませんが,数字には嘘があります.それと同じく,統計学には嘘はありませんが,統計データ(結果)には嘘はあります.嘘があるのはそこに人間がいるからで,嘘をつくのは人間なのです.それを統計のせいにするな,とわたしは言いたい.とはいえ,嘘をつくつもりがなくとも人間に間違いや勘違いは付きものです.そのための最低限の能力が統計リテラシーです.
例えば,マイキンでもその一部で全数検査が(本当に必要なのかは別にして)実施されているかもしれませんが,そもそも,日本の勤労者すべてを母集団とするならば,東京都のみ全数調査するのは正しいサンプリングなのでしょうか.精度を上げたいという意図は理解できますが,従業員が499人の事業所はおそらくサンプリング調査されているはずです.500人という区切りの根拠は明確ではありません.統計学の示すところによれば,所詮はサンプリングの結果に過ぎないのならば,推定値と合わせて信頼区間を提示すべきということです.
信頼区間を提示するには提示する側もされる側にもある程度の統計学の知識が必要です.この統計学の知識を読んだり書いたりする能力が統計リテラシーとも言えます.統計リテラシーを前提にしてデータの開示がなされるようになるべきですが,とある科学分野の論文を読んでいても,SDとSEを取り違えているようなものも目に付くくらいですから,役所に統計リテラシーを期待すべきではないかもしれません.
そもそもお上の統計の扱いには常々疑問を抱いています.e-Statが開設された時のゴタゴタは記憶に新しいところです.わたしもセミナー用のデータとしてe-Statをよく利用させていただいているのですが,そのほとんどがmessy dataです.JMPのマニュアルでは雑然データと訳されていますが,messyには散らばって汚らしいというニュアンスがあります.あまり触れたくない感じです.csvやxslで提供されているならまだしもPDFになっているデータがかなりあります.PDFというフォーマットは本来印刷用のものでデータ分析にかけることは想定されていません.
xslデータであっても,例えばこの学校保健統計調査のような見ることを前提としたデータが圧倒的です.年齢という重要な変数がシートに分割されてしまっています.これは困りました.おかげでわたしとしてはこれを他山の石としてセミナーの題材にできるのですが.さて,データはe-Statからダンロードできます.このmessy dataをJMPで分析するのはどうすれば良いでしょうか?例えば,身長と体重からBMIを算出してそれが年齢でどのように変化するのかを男女別に見たいとして,どうすればいいでしょうか.実はこの処理で一箇所つまずくところがあります.来週のブログで手順を合わせて回答しますので,お楽しみに.
因みに結果の一部を示しておきます.データは「学校保健統計調査平成30年度(速報)」を使ってBMIのクラスタリング結果(性別,年齢を区別しない)を表示していますが,この分布を再現できますか?
DraggedImage.42b27d5ea5b842f484a9413144f3de1a.png

それではまた.
タグ:JMP
posted by Tad at 19:00| Comment(0) | TrackBack(0) | 統計リテラシー