UA-115498173-1

2019年03月23日

グラフビルダーの「区間」ゾーン

はじめにご報告しておきたいのですが,近いうちにこのブログを移設しようと思っています.当面はここにも同時掲載していきますが,よろしければ来週からは移設先に行っていただけるとありがたいです.費用をかけるほどのブログでもないので,とりあえず以前使っていて使い方を知っているというだけでBloggerにしました.移設の理由ですが,さくらネットのブログは使いにくいというだけでなく,記事のカテゴリーやタグを泥縄式につけていったので一度リセットしたかったからです.Bloggerにうまくエクスポートできないので,時間ある時に手動で今の記事は移動していきます.それが完了するまでは,こちらとあちらに同じ記事を書いていく予定です.

さて,ここのところ「「DOEを成功させるためのヒント」について書いているのですけれど,飽きてきました.そこで本日は違うことにしたいのですが,何にしようかと考えるに,最近気づいた些細なことを.

先週とあるJMPのセミナーで講師をしたのですが,私はJMP14で受講者はJMP13という環境でした.グラフビルダーのGUIを説明していてJMP14には新たにドロップゾーン(変数をドラッグしてドロップしようとすると色が変わる領域のことです)として「区間」というデータゾーンが右側の一番下(「サイズ」の下)に加わっていたことに気づきました.この役目は言わずもがなですが,何気に便利ですね.例えば,サンプル平均の棒グラフを描いて,そこに標準偏差「SD」のエラーバーを載せたいときは,「SD」をこの「区間」ゾーンにドロップします.

もちろん,グラフビルダーには,グラフ要素のオプション(グレーの開閉ボタンまたはグラフ上で右クリックで出します)に「誤差バー」というのがあるのでそこからSDやSEを選べばこと足ります.この「区間」ゾーンが便利なのは,たまにあるサンプルの統計量だけが与えられているデータのグラフを書く場合です.例えば,最近発表された「World Happiness Report 2019」に添付されているデータはテーブルには「Happiness score」と「Whisker-high」「Whisker-low」という統計量があるだけで,サンプル詳細は不明です.

そこで「Happiness score」を「Y」にドロップしてから,「Happiness score」と「Whisker-high」「Whisker-low」とを「区間」にドロップするとこのようになります.
DraggedImage.e79a7ed84d9d4b5391f00ec2b315a840.png
このとき,ドロップしようとすれば気づくはずですが「区間」ゾーンは例えば,こんなふうに三つのサブゾーンに分かれます.ちょっとわかりにくいですが,青い実線で囲われているのがサブゾーンです.
DraggedImage.ccd877e2b54748fa89af37cf9a027076.png
この図では左下のサブゾーンに「Whisker-high」をドロップしているところで,この操作によって「区間」に二つの変数を設定できます.真ん中のサブゾーンにドロップすると先に入れた変数を上書きしてしまいますので注意が必要です.

この仕様の良いところは,上下限を独立して指定できるので,例えば,下限に「Happiness score」を入れると,このような片側だけのエラーバーを入れることもできます.
DraggedImage.403dd0ce973c48b2b851b55c3b0febf0.png
この片側エラーバーはあまりお勧めはしませんが,医薬関連の論文にはなぜかよくでてきます.因みにこのグラフは参考までに載せましたが,こういうグラフは書いてはいけません.なぜだかはお分かりですね.注記さえしておけば,独自の定義によるエラーバーも載せることができます.例えば「Range」など面白いですかもしれません.あまり見かけないのでしっかり注記してください.

「World Happiness Report 2019」はちょっと気になる報道があったので今原著を読んでいるところです.何かわかったらブログで書こうと思っています.
それではまた.
posted by Tad at 19:00| Comment(0) | TrackBack(0) | JMP

2019年02月09日

こぎれいなデータ(tidy data)

先週は「不正統計」という言葉に待ったをかけました.不正統計ではなく不法統計と呼ぶべきであると.もっと正確には,不法なデータサンプリングであって,そこに統計の誤用が合わさったということです.この問題の根っこにはデータ軽視があるように思います.更には,正しく統計を使わなければいけないという決意も欠如しているように思います.それは,データは統計分析してこそ意味があるという認識がそもそも欠如しているからでしょう.先週予告したように,このことを実例を元に見ていきます.

以下で対象とするファイルの¥ダウンロードでクリティカルな間違いをしてしまいましたので訂正しています.申し訳ございません.

サンプルデータは学校保健統計調査を選びました.このページの調査の結果の統計表一覧をクリックすると,そこに書いてあるようにe-Statに飛んでいきます.データはどれでも同様ですが,昨年の12月21日公開の最新の平成30年度(速報)から全国表をクリックして,表番号1の「年齢別 身長・体重の平均値及び標準偏差」をダウンロードしてください.都道府県表をクリックして,表番号3の「都道府県別 身長・体重の平均値及び標準偏差」をダウンロードしてください.ファイル名は「h30_hoken_tokei_03.xlsx」となっているはずです. このエクセルファイルをどう思いますか?見ることを前提としたデータなので,JMPで分析しようにも一苦労です.決定的にダメなのは年齢という重要な変数がシートに分割されてしまっていることです.
このmessy dataを分析可能なデータ(tidy data)に変換するのが本日のお題です.この作業をData Tidyingと呼びます.tidy dataを整然データと訳されている方もいらっしゃいますが,自分的には整然ではどうもしっくりこないので「こぎれいなデータ」と呼んだりしています.整然とした部屋というニュアンスとこぎれいな部屋というニュアンスでは後者の方がtidyに近いからですが,学術用語としては適さないですね.素早く分析に着手できるという意味では「整頓」というのも近いです.
さて,以下に手順を示しますが,操作の順番は絶対ではありません.正解は一つではなく,以下は一つの例とご理解ください.
 
1.   まずはエクセルファイルをExcel読み込みウィザードで開きます.前の設定が保存されているときは一度「デフォルト設定に戻す」を実行しておいたほうが間違いがありません.このファイルでは以下の設定にしてください.
image001.png
ここで「連結の際,ワークシート名を含む列を作成する」にチェックを入れることが重要です.この他の設定はデフォルトで構いませんので,直ちに「読み込み」を実行します.空白の行や列などのデータの欠測値を処理することも可能ですが,初めてのデータの場合はこの段階では放置しておくことをお勧めします.
2.  JMPテーブルに変換できたら,最初にやるのは標準偏差の4列を削除します.(ここでは平均値のみを対象とします.)
3.「男-身長」「男-体重」「女-身長」「女-体重」の4列を積み重ねます.デフォルトでは,「ラベル」列と「データ」列ができます.以下の説明では列名はデフォルトのまま処理をすすめていきますが,適宜変更しても構いません.
4.「ラベル」列を選択して,「列>ユーティリティ>テキスト」を実行します.区切り文字は半角のハイフォン「-」です.全角が好きなお役所もここだけ半角なのが謎ですね.
5.「ラベル」列は削除します.「ラベル3」列もすべて「平均値」と入っていて分析には無意味なので削除します.(削除するのは後でもかまいません.)
6.「ラベル2」列には身長と体重というラベルがデータとして入っているのでこれを分割します.それには「列の分割」で「基準となる列」に「ラベル2」,「分割する列」に「データ」を割り当てます.このとき「残りの列はすべて保持」にチェックを入れるのを忘れないようにして下さい.
7.「ラベル1」を「性別」に名称変更して,「ラベル」列は削除しておきます.
8.区分には都道府県名が入っているのですが,このままではグラフビルダーで認識しないので,シェイプファイルが呼び出せません.なぜかというと,「北 海 道」のように意味のない空白が入っているためなので,これを削除します.それには「検索>検索」で「全角空白」を「」に検索置換します.この操作は二回繰り返さなければなりません.三文字の名称に合わせて二文字の名称が青(全角空白三文字)森のようになっているからです.このよう無駄な空白は誰が得するのか?お役所のデータを他山の石とすべきです.
9.いよいよ「元のテーブル」列に取り掛かります.例えば.「3県別発育(5歳)」となっている5を取り出すために区切り文字を(歳 とします.普段何気なくつけているワークシート名もJMPに呼び込むことを考えてつけるべきですね.
10.「元のテーブル2」には全角数字で年齢が入っていますので,列情報を名義尺度とし,列名も「年齢文字」と変更します.
11.回帰分析などのためには年齢を連続尺度にしておきたいところです.そのためには新規に連続尺度の列を作成して,そこに以下の計算式を入れます.ようするに全角の数字を半角の数字に置き換えるのです.
 
Num(
        Substitute( :年齢文字,
                "0", "0",
                "1", "1",
                "2", "2",
                "3", "3",
                "4", "4",
                "5", "5",
                "6", "6",
                "7", "7",
                "8", "8",
                "9", "9"
        )
)
 
この計算式の関数NumもSubstituteも文字のところにあります.Substituteは下のほうです.
12.「区分」をデータフィルタにかけて,都道府県名以外の三つ(???と調査対象者(人)と全国)を選択して行を削除します.
13.列名は適当でかまいませんが,一般的「身 長(cm)」という全角半角入り混じった列名は「身長」としたいところです.一般的には列名には単位は入れないことをお勧めします.列名は変数名でもあるのでモデリングの際に見やすくなるからです.列の選択リストにも単位が表示されないので見やすいです.
14.どうしても単位をレポートに表示させたい場合は,列情報の列プロパティで単位を選び,所望の単位を入れてください.グラフなどには単位が表示されます.

この後,先週のグラフを作成するには,都道府県をクラスタリングしてから,「BMI」列を計算式で作成するだけですが,本日は所用があり続きは後日とさせてください.このグラフを見ると興味深いことが見えます.考察すべきこと色々あリますが,長くなったので本日はこれにて.

それではまた.
タグ:JMP
posted by Tad at 19:00| Comment(0) | TrackBack(0) | JMP

2019年01月26日

文旦v.s.デコポン

本日は最近わたしが遊んでいることをJMPerの皆様にシェアしたいと思います.初心者にJMPを教えたりするときに面白がってもらえるので,皆さんも試してみてください.
きっかけは他愛のないことでした.自宅でカボスを育てているのですが,その近くに別の柑橘系の木があって何を植えたのか思い出せなかったのですが,今年初めて小さいのが三つほどですけれど,実がなったんです.熟したら収穫しようと思っていたのですが,色が薄いままだったので,おかしいなと首を傾げていました.多分デコポンだろうと思っていたのですが,オレンジ色が濃くならずレモンよりも薄いクリームイエローのような色のままです.これはおかしいと,先日ついに一つだけ収穫してみたのですが,持ってみると妙に軽い.腐ってしまったかと割ってみたところ,皮というか実と皮との間のわた状の部分が厚いのです.専門用語では中果皮(アルベド)と言います.これに対して,外側の皮は外果皮(フラベト)と呼びます.
このフラベトの厚さの割にアルベトが厚いのは文旦の特徴です.だから見かけよりは軽いんですね.文旦を植えた記憶はないのですが,匂いも文旦で間違いありません.文旦の割には実が小さいですけど,生育不良なのかもしれません.そこで文旦はどこで栽培されているのか調べようと思ったのですが,ただ検索するのは面白くないのでGoogleトレンドを使ってみました.
ご存知のようにGoogleトレンドはWEBコンテンツのクリエーターにとって必須のツールです.指定した期間での検索キーの推移を可視化できるのです.地域別のインタレストもわかるので「文旦」というキーワードがどの地域で多用されているのかを知ることができます.
全期間(2014年から現在)の「文旦」のキーワードの結果を見ると,なるほど,高知県が文旦の本場のようですね.ブラウザ上に日本地図で検索数の相対値(最大を100として)が濃淡で示されています.これだけですと面白くないので,「デコポン」というキーワードと比較してみたのがこちらの結果です.
せっかくなのでこのデータをJMPに持ってきて,可視化してみます.それには「地方で比較した内訳」のところの右上にある下向き矢印のアイコンをクリックしてCSVデータをダウンロードします.このCSVファイルをJMPで開いてグラフビルダーで作成したのが下の図です.デフォルトでは「国/地域」という列名になっている都道府県名を「地図シェープ」にドロップしてください.
105-1.png
105-2.png
ものの見事に文旦の高知県とデコポンの熊本県という勢力図になっていますね.ダッシュボードでサイドバイサイドに比較もしてみました.
105-3.png
因みに少しカラースキームが違いますが,こちらは「カボス」です.
105-4.png
やはりカボスは大分県ですが,よく見ると福井県にもカボスの検索数が多いのです.これはなぜだかわかりますか?調査の結果,福井県には勝木書店という企業があってWikiによれば,そこが「KaBoS」という書籍・文具に加えてCD、DVD、ゲームソフトなどを扱う新業態店舗も展開しているようです.面白い遊びを見つけたので,ここのところわたしは最近このやり方でそばv.s.うどんや吉田松陰v.s.宮沢賢治などを調べて遊んでます.そもそもデータをJMPに持ってきたのは検索数を人口で割る方が良いのではないかと考えたからで,今日は時間がなくてやってませんが,お時間ある方はぜひトライしてみてください.
それでは本日はこれで.
タグ:JMP
posted by Tad at 19:00| Comment(0) | TrackBack(0) | JMP