2017年07月09日

JMP操作における選択肢

続きは来週にでもと書いたきり,なかなか読書に時間が取れていません.週一度はこのブログは更新しようと思ってはいるものの,何を書こうかと考えながらタイプしています.毎日更新しているブロガーならばいざ知らず,毎週更新はなかなか難しいですね.
前回の続きから話を始めると,選択肢が多いと人は混乱してその行動にフラストレーションを感じるようになるということでした.その一方で,多すぎる選択肢は必ずしも悪いものではないと,自分の体験に基づいた思いもあります.アメリカのスーパーマーケットに初めて入ったときの驚きは今でも忘れられません.物資の豊富さだけでなく,商品の一つ一つに圧倒されました.例えば,ナス(eggplant)の大きいことメロンの安いこと.「選択の科学」でも私と同じ経験,即ち,スーパーマーケットの品揃いの過剰性は心まで満たすことがあるという「ホワイト・ノイズ」について言及されています.人がコンフォタブルと感じる選択肢の数はその性質によって変わるというのがその答えです.そして重要と感じる選択肢がよく言われる7の法則(この本によれば7±2ということらしいです)ということなのです.
ここで話を変えてJMPの操作における選択肢を考えてみます.マジックナンバーの7を否定はしませんが,初心者のうちは7でも多すぎます.JMPの操作性が良いと言われている理由にその操作の柔軟性があげられています.しかしながら,同じ機能の実現に複数の操作が対応しているために,かえって(少なくとも初心者には)敷居が高くなっている,ということも事実です.
例えば,メニューバーが隠れているときにそれを表示する方法をいくつご存知でしょうか.他にもあるかもしれませんが,今思いつくのは1)Altキーを押す.2)下から二重線にマウスオーバーする.3)上からマウスを移動して二重線をクリックする.番外として4)カスタマイズの設定を常時表示にする.というのもあります.
これだけ重複した操作があると確かに覚えきれずに戸惑う人もいるでしょう.私がJMPを指導する際,最初のうちは一つのコマンドには一つの操作のみを覚えておけば良いと説明しているのはこれが理由です.別の操作方法はもちろん知っていても構いませんが,ある程度慣れてきてからで十分です.その上で幾つかの中から一つを選び今後自分はこの操作を使っていこうと決めた後は,他の操作など忘れてしまえば良いのです.(この話を書いていて,コルトレーンがマイルスに自分の持っているマウスピースの中でどれがいいか聞いてい欲しいと頼んだところ,「一つを除いて後は捨てろ」と言われたというエピソードを思い出しました.)
JMPの操作はカスタマイズに優れているので,このようにして自分なりの操作法を見つけていくのが面白いところです.このことはもちろん,GUI周りの単純な機能だけでなく,データ分析の本質的な機能であっても同じです.例えば,欠測データの検出にはいくつかの方法があります.
1)分析>スクリーニング>欠測値を調べる
2)テーブル>欠測値パターン表示
3)列>列ビューア
「欠測値を調べる」は質的変数に対応していませんが,逆に質的変数であれば,4)列>再コード化 も欠測値の検出に使えそうです.
更に,「欠測値を調べる」プラットフォームでは幾つかのコマンドが選択できますから,それこそ実行可能な選択肢はたくさんあります.それぞれの機能は厳密には同じものではないのですが,この状況ではやはり自分の得意技を決めておいたほうが良いでしょう.こうすることで,どのコマンドを使ってどこから手をつけようかというデータ分析の初期のフラストレーションを少しでも低減できます.自分なりの分析スタイルを構築することがJMPによる統計分析の楽しみです.
タグ:JMP
posted by Tad at 15:50| Comment(0) | 雑記

2017年07月02日

選択の科学

シーナ・アイエンガー(2014),『選択の科学』 櫻井祐子訳,文藝春秋

表紙に写っている著者の写真に惹かれるものがあって手にとってみました.自信に満ちたその姿はタイトルの「選択の科学」のなせる技なのかもしれません.読んでみて驚いたのは著者のハンディキャップのことばかりでなく,あの有名なジャムの実験の研究者であったことです.書評ではあまりネタバレしないように心がけていますが,この実験は有名なので簡単にご説明しておきます.ジャムの試食販売で26種類を並べた際には試食客のうち購入したのはたった3パーセントだったものの,6種類しか並べなかった場合は集客は少なかったにもかかわらず30パーセントの客が購入に至ったため,結果として6種類の試食販売では購入客は26種類の6倍になったという結果が得られました.いろいろな書籍でも引用されている実験ですから何処かで読んだこともあると思います.この結果を踏まえてプロクター&ギャンブルなどの企業が品種を絞ったところ,確かに売り上げが向上したということです.
私もこの実験は知っていましたが,品数が多いことでAmazonは売り上げを伸ばしているではないかと疑問に思っていました.この疑問がこの本を読んで解けました.Amazonで買い物をする客は何が欲しいかがすでに決まっていることが多いというのがその理由です.確かにレアな本やCDなどは真っ先にAmazonで探します.
Amazonでは食料品や電気製品なども売っているので,それらの商品に対してはロングテールは弊害となるのかもしれません.けれども,ものによってはAmzonは言われるほどにはロングテールではないように感じます.例えば,「コードバン 靴」で全てのジャンルで検索すると313件あります.一方,苦戦を報道されている楽天では2064件もあります.個人的にも楽天の方がうんざりするほど,しかも似たような商品数が多いように感じます.個人商店の寄せ集めですから商品がかぶるのは仕方ないとしても,色違いやサイズ違いでも1件として表示されるのは無駄に検索件数が多くなるだけです.もしかしたら,Amzonは「ジャムの実験」を意識して上がってくる検索件数を少なくする努力をしていのかもしれません.楽天はもう少し検索結果を購入者にうんざりさせない工夫が必要でしょう.
話が脱線しました.「JMPによる統計的問題解決」ではロングテールを切り捨ててJMPの20%を手っ取り早く問題解決をしたい人を対象にしていると書いたので,やはりロングテールを拾うことができる書籍も必要かと思った次第です.その場合は目的がはっきりしている人に素早く必要な情報を提供できる工夫が必要ですね.今のJMPのマニュアルはロングテールではあるけれど,この工夫がなされていないように思います.
書評から大幅に脱線してしまいましたので続きは来週にでも.
posted by Tad at 20:37| Comment(0) | 雑記

2017年06月24日

再校中の悩み事など

「JMPではじめる統計的問題解決」は8月の出版を目指して再校に入っていますが,ここにきて悩むこと多々あります.例えば,人名の敬称について.本書では外国人は敬称なしにした一方で,日本人には先生をつけて呼んでいます.これにはいろいろな意見があると思います.学術論文では日本人でも呼び捨てにしたりあるいはローマ字表記にしたりすることが多いのですが.本書のような「ですます体」で書かれた一般書では通常は敬称をつける日本人の名前を呼び捨てにするのは著者,読者双方に引っかかるものがあるのではないでしょうか.外人にもDr.やMr.をつければ公平かもしれませんが,エジソンをMr.エジソンというのは変です.存命の方だけに敬称をつけるという意見もありますが,そもそもJMPでは神であるJohn Sallを本書では尊敬を込めてあえて呼び捨てにしています.日本人か否か,存命中の人か否かというカテゴリーごとに決まりを作るしかないのかもしれませんが,日本人の場合でも,鈴木先生と呼んで溝呂木と呼び捨てには私にはできません.
歴史上の人物では日本語でも敬称はつけませんが,「あとがき」に出てくる日蓮は日蓮上人としました.もちろんわたしは信者というわけではないのですが,歴史上の人物として親しみを込めています.宗教関連の人物は呼称でそのニュアンスが異なってくるので注意が必要ですね.江戸時代後期の山本栄蔵を良寛と呼ぶか良寛さんと呼ぶか,さらには良寛和尚,良寛上人と呼ぶかで全て意味が違ってきます.やはり「あとがき」に出てくるソクラテスも心情的にはソクラテス先生なのですが,そう呼んでいるのを聞いたことはありません.4聖の一人として突き抜けた存在となっているのでしょうか.Wikiによれば,

敬称をつけずに呼び捨てにするのが、最上級の敬意を表す事例がある[1]。

と書かれているので少なくとも戦国時代の日本では「呼び捨て=無礼」と単純には言えないようで,それが現代の私たちの意識に残っているのかもしれません.

2017年06月17日

大学生ミライの因果関係の探求

小塩真司(2016)「大学生ミライの因果関係の探求」ちとせプレス

早稲田大学文学学術院の小塩先生が書かれた統計学の参考書で,「ストーリーでわかる心理統計」と表紙にかかれている通り心理学を学ぶ大学生を主人公にした物語です.ストーリでわかるということに興味を惹かれたので読んでみました.ネタバレはしたくないので詳しくは書きませんが,ミステリーっぽいお話しが織り込まれていて,確かにストーリー仕立てにはなっています.前作もあるようですが,そちらは読んではいませんが,おそらく好評だったので今回第二作目となったのでしょう.
一つ,ストーリーが統計の解説に必須というわけではないのが少々残念です.もちろん,そのようなストーリーを創作するのは難しいとは思います.「連続変数殺人事件」とか「ロジスティック回帰の罠」とかタイトルだけならいくらでも思いつきますけれど.おそらくストーリーを読んで統計を勉強しましょうというよりは,ストーリーを読むついでに統計も勉強してもらいましょうという意図があるのでしょう.ちょうどほうれん草の嫌いな子供に母親がハンバーグにこっそり混ぜ込んで食べさせるというような感じかもしれません.それとタイトルにある因果関係についてはもっと突っ込んだストーリーがあるともっと楽しめたかもしれません.
本書の紹介に戻りますと,大学二年生の主人公が統計を勉強する過程で,検定の考え方や二次の交互作用の説明などもストーリーに合わせて丁寧にかつ面白く説明されています.一つ残念なのは,このような初級者を対象にした本でも不偏分散の説明は端折られているということです.冒頭と言ってもいいp13に不偏分散が出てくるのですが,そこでは「標本分散は,データを母集団全体とみなしたときの分散,不偏分散は,データを母集団から抜き出した標本と見なしたときの分散.データの数から1を引いて算出する.」と極々当たりまえのように書かれています.なぜと思う学生は心理学の学生には少ないのかもしれません.心理学の学生は一般的には文系と区別されることが多いので,理系の学生のように理屈にはこだわらないのかもしれません.それは実務と関連付けて統計学を学ぶ者にとってはおそらく正解でしょう.
とはいえ,どうしても細かいところが気になる人もいます.「なぜ普遍分散はn-1で割るのか?」いちど気になると先にすすめないのです.それは脇に置いて先に進むのが本当は賢いのです.世の中全てが理解できることばかりではないのですから.足元をしっかりと固めて先に進むというタイプの人にはこのことが苦痛です.正直に告白するとそれは私です.このため,統計学の勉強はかなりスタートでもたつきました.この体験については別の機会に書くことにします.
この本の最後の章である事件が起こるのですが、そこでのテーマはデータの捏造です.ここには,これから研究する学生に向けて著者からのメッセージがあります.「人が対象の学問ではデータに手を加えるということの誘惑は大きい」ということを知っておくことは人が対象ではない製造技術系の実務者にとっても重要です.
posted by Tad at 09:47| Comment(0) | 雑記

2017年05月28日

あらためてJMPについて

JMP[1](ジャンプと読みます)はSAS Institute Inc. が1989年にリリースした統計解析のためのソフトウェアです.SAS社はビジネスアナリティクスの分野で広く使われているSASという社名と同じ名のソフトウェアを開発しています.SASはアポロ計画で使われたことで有名になったように,当時は汎用コンピュータで動くようなソフトであり,一連のEIP(エンタープライズ・インテリジェンス・プラットフォーム)として構築されるSASシステムとも呼ばれる大掛かりなものです.これに対し,JMPは誰もが手軽にデータを統計解析できることを目的として開発されました.対話的・直感的な操作によってデータから統計的発見を得るというコンセプトのもと,数多ある統計ソフトの中でも統計を意識せずに手軽に統計解析を実施できることに特徴があります.本来業務に忙しくて,統計の勉強や統計ソフトの習得に割く時間がなかなか作れないような人に向いている統計ソフトがJMPなのです.
本書はマニュアル的なJMPの入門書ではありませんが,最低限のJMPを使ったデータ分析の操作手順を解説してはいます.特にJMPを駆使した問題解決の手引きとなることを意識しています.本書にも書いたことですが,ソフト操作の手順だけを習得しても実際の問題解決には役に立ちません.それはなぜかというと,マニュアルがそのままの形で使える状況は現場では滅多に遭遇せず,マニュアルを覚えているだけでは手も足も出ないからです.問題解決にはソフトの操作手順を取得することよりも,既知の手順を組み合わせて対処できる応用力がより重要なのです.本質の理解を伴わずに答えが得られればそれで良いという学習法が流行っている昨今ですが,この応用力をサポートするには,手順の背後にある考え方を身につけておくことが必要になります.本書ではJMPの機能をどんなときにどう使うのかという背後にある考え方を解説しましたつもりです.

[1] 正式名称はJMPレジスタードマーク 13 (SAS Institute Inc., Cary, NC, USA)