2017年06月24日

再校中の悩み事など

「JMPではじめる統計的問題解決」は8月の出版を目指して再校に入っていますが,ここにきて悩むこと多々あります.例えば,人名の敬称について.本書では外国人は敬称なしにした一方で,日本人には先生をつけて呼んでいます.これにはいろいろな意見があると思います.学術論文では日本人でも呼び捨てにしたりあるいはローマ字表記にしたりすることが多いのですが.本書のような「ですます体」で書かれた一般書では通常は敬称をつける日本人の名前を呼び捨てにするのは著者,読者双方に引っかかるものがあるのではないでしょうか.外人にもDr.やMr.をつければ公平かもしれませんが,エジソンをMr.エジソンというのは変です.存命の方だけに敬称をつけるという意見もありますが,そもそもJMPでは神であるJohn Sallを本書では尊敬を込めてあえて呼び捨てにしています.日本人か否か,存命中の人か否かというカテゴリーごとに決まりを作るしかないのかもしれませんが,日本人の場合でも,鈴木先生と呼んで溝呂木と呼び捨てには私にはできません.
歴史上の人物では日本語でも敬称はつけませんが,「あとがき」に出てくる日蓮は日蓮上人としました.もちろんわたしは信者というわけではないのですが,歴史上の人物として親しみを込めています.宗教関連の人物は呼称でそのニュアンスが異なってくるので注意が必要ですね.江戸時代後期の山本栄蔵を良寛と呼ぶか良寛さんと呼ぶか,さらには良寛和尚,良寛上人と呼ぶかで全て意味が違ってきます.やはり「あとがき」に出てくるソクラテスも心情的にはソクラテス先生なのですが,そう呼んでいるのを聞いたことはありません.4聖の一人として突き抜けた存在となっているのでしょうか.Wikiによれば,

敬称をつけずに呼び捨てにするのが、最上級の敬意を表す事例がある[1]。

と書かれているので少なくとも戦国時代の日本では「呼び捨て=無礼」と単純には言えないようで,それが現代の私たちの意識に残っているのかもしれません.

2017年06月17日

大学生ミライの因果関係の探求

小塩真司(2016)「大学生ミライの因果関係の探求」ちとせプレス

早稲田大学文学学術院の小塩先生が書かれた統計学の参考書で,「ストーリーでわかる心理統計」と表紙にかかれている通り心理学を学ぶ大学生を主人公にした物語です.ストーリでわかるということに興味を惹かれたので読んでみました.ネタバレはしたくないので詳しくは書きませんが,ミステリーっぽいお話しが織り込まれていて,確かにストーリー仕立てにはなっています.前作もあるようですが,そちらは読んではいませんが,おそらく好評だったので今回第二作目となったのでしょう.
一つ,ストーリーが統計の解説に必須というわけではないのが少々残念です.もちろん,そのようなストーリーを創作するのは難しいとは思います.「連続変数殺人事件」とか「ロジスティック回帰の罠」とかタイトルだけならいくらでも思いつきますけれど.おそらくストーリーを読んで統計を勉強しましょうというよりは,ストーリーを読むついでに統計も勉強してもらいましょうという意図があるのでしょう.ちょうどほうれん草の嫌いな子供に母親がハンバーグにこっそり混ぜ込んで食べさせるというような感じかもしれません.それとタイトルにある因果関係についてはもっと突っ込んだストーリーがあるともっと楽しめたかもしれません.
本書の紹介に戻りますと,大学二年生の主人公が統計を勉強する過程で,検定の考え方や二次の交互作用の説明などもストーリーに合わせて丁寧にかつ面白く説明されています.一つ残念なのは,このような初級者を対象にした本でも不偏分散の説明は端折られているということです.冒頭と言ってもいいp13に不偏分散が出てくるのですが,そこでは「標本分散は,データを母集団全体とみなしたときの分散,不偏分散は,データを母集団から抜き出した標本と見なしたときの分散.データの数から1を引いて算出する.」と極々当たりまえのように書かれています.なぜと思う学生は心理学の学生には少ないのかもしれません.心理学の学生は一般的には文系と区別されることが多いので,理系の学生のように理屈にはこだわらないのかもしれません.それは実務と関連付けて統計学を学ぶ者にとってはおそらく正解でしょう.
とはいえ,どうしても細かいところが気になる人もいます.「なぜ普遍分散はn-1で割るのか?」いちど気になると先にすすめないのです.それは脇に置いて先に進むのが本当は賢いのです.世の中全てが理解できることばかりではないのですから.足元をしっかりと固めて先に進むというタイプの人にはこのことが苦痛です.正直に告白するとそれは私です.このため,統計学の勉強はかなりスタートでもたつきました.この体験については別の機会に書くことにします.
この本の最後の章である事件が起こるのですが、そこでのテーマはデータの捏造です.ここには,これから研究する学生に向けて著者からのメッセージがあります.「人が対象の学問ではデータに手を加えるということの誘惑は大きい」ということを知っておくことは人が対象ではない製造技術系の実務者にとっても重要です.
posted by Tad at 09:47| Comment(0) | Books

2017年05月28日

あらためてJMPについて

JMP[1](ジャンプと読みます)はSAS Institute Inc. が1989年にリリースした統計解析のためのソフトウェアです.SAS社はビジネスアナリティクスの分野で広く使われているSASという社名と同じ名のソフトウェアを開発しています.SASはアポロ計画で使われたことで有名になったように,当時は汎用コンピュータで動くようなソフトであり,一連のEIP(エンタープライズ・インテリジェンス・プラットフォーム)として構築されるSASシステムとも呼ばれる大掛かりなものです.これに対し,JMPは誰もが手軽にデータを統計解析できることを目的として開発されました.対話的・直感的な操作によってデータから統計的発見を得るというコンセプトのもと,数多ある統計ソフトの中でも統計を意識せずに手軽に統計解析を実施できることに特徴があります.本来業務に忙しくて,統計の勉強や統計ソフトの習得に割く時間がなかなか作れないような人に向いている統計ソフトがJMPなのです.
本書はマニュアル的なJMPの入門書ではありませんが,最低限のJMPを使ったデータ分析の操作手順を解説してはいます.特にJMPを駆使した問題解決の手引きとなることを意識しています.本書にも書いたことですが,ソフト操作の手順だけを習得しても実際の問題解決には役に立ちません.それはなぜかというと,マニュアルがそのままの形で使える状況は現場では滅多に遭遇せず,マニュアルを覚えているだけでは手も足も出ないからです.問題解決にはソフトの操作手順を取得することよりも,既知の手順を組み合わせて対処できる応用力がより重要なのです.本質の理解を伴わずに答えが得られればそれで良いという学習法が流行っている昨今ですが,この応用力をサポートするには,手順の背後にある考え方を身につけておくことが必要になります.本書ではJMPの機能をどんなときにどう使うのかという背後にある考え方を解説しましたつもりです.

[1] 正式名称はJMPレジスタードマーク 13 (SAS Institute Inc., Cary, NC, USA)
posted by Tad at 21:53| Comment(0) | JMP

2017年05月13日

ファイルアップロード

サポートファイルをどうやってダウンロードして頂くかを試行錯誤しています.ここのブログから一番簡単なのはGoogle Driveへのリンクを貼ることのようです.以下テストしてみます.

テスト

こちらはサポートファイルです.内容が古いのでダウンロードはしないでください.

2017年04月15日

統計学の用語はなんか変?

その分野を新たに学ぼうとするものにとって用語は大変重要です.ほとんどの学問が西洋から入ってきた日本では,用語を訳するのに先人は大変な苦労をしたものです.オランダ語で書かれた解剖学書の「ターヘル・アナトミア」を翻訳した前野良沢・杉田玄白の悪戦苦闘は有名ですね.江戸末期から明治にかけての学問の世界では,自らの勉強だけでなく,その学問を後の世のものに伝えるために用語を作る必要がありました.この当時の先輩たちの努力をわたしたちは受け継いでいるのです.物理や自然といった抽象的な言葉では漢字固有の造語能力が活躍したのは言うまでもありませんが,個々の学問分野に固有な用語にも先人の工夫を感じることが多々あります.
わたしが昔から感心しているのが岩石と鉱物の呼び分けです.両者の違いをご存知でしょうか.子供の頃からなぜか鉱物が好きで,小学生ときに秩父の長瀞に鉱物採集に出かけるほどだったので知っているのですが,鉱物とは単一の化学的組成よりなる物質で,岩石は鉱物が混ざり合って構成されている物質のことです.例えば,花崗岩は主に石英と長石という鉱物で組成されています.英語ではそれぞれGranite,Quartz,Feldsparと言います.もう一つ例を挙げます.安山岩は主に斜長石,輝石,角閃石から構成されています.英語ではそれぞれAndesite,Plagioclase,Pyrozene,Amphiboleです.ここで気づいたことはありませんか.わたしは英語圏の人は鉱物名を覚えるのに一苦労するだろうなといつも思っていました.石灰岩や水晶や石英などの例外はありますが,日本語では基本的に岩石は何々岩,鉱物であれば何々石という名前が付いているのです.英語では岩石には何々iteがついているものが多いのですが,わたしのお気に入りの緑泥片岩はGreen schistです.一般人にはそれが岩石なのかでさえ名前だけからでは分かりません.一方,日本語の命名はシステマチックなので,初学者に取って大変ありがたいものです.岩石学あるいは鉱物学を日本にもたらし,その用語を後の世の人々のために苦労して訳した先人には感謝しています.
前置きが長くなりましたが,これに比べて統計学の用語の訳は初学者に優しくないと常々感じています.例を挙げるときりがないのですが,例えば「検定」は「test」の訳としては大げさです.QC検定というのがありますが,検定の意味はどこかの足切り基準で合格・不合格を判別することです.統計では,帰無仮説が棄却されるか否かを検定と呼んでいるわけではなく,あくまでも平均の差があるかないかという命題が検定の対象です.ここで帰無仮説が棄却されれば対立仮説を採択する,というように論を運ぶことになりますが,棄却できない場合は何の結論も下せないことはご存知の通りです.(サンプルサイズを大きくするなどして検出力をあげようという結論は出せますが.)従って,統計的検定には合格だけを判別するという非対称性があるので,日本語の検定とは意味合いが違うのです.testの良い訳が日本語にないのであれば,テストのままにしておくべきだったとわたしは考えます.テストであればその命題(の正しさ)に点数をつけて評価するという意思決定の意味合いも出てきます.
ついでに帰無仮説と対立仮説という言葉も通例に倣って使いましたが,どう訳せば「Null Hyposeses」が「帰無仮説」に,「Alternative Hyposeses」が「対立仮説」になるのかが理解できません.Null は「ゼロ」ですから,そこからプログラミングでは「何もない」という意味として使われています.本来はラテン語のnot any(何も)が由来なので,価値のないものということです.帰無仮説を「棄却できない場合は自分の研究が無に帰する仮説」などという解説も見かけますが,シャレのようにしか聞こえません.単に仮説あるいは最初に立ててみる仮説,あるいはシンプルにゼロ仮説というような用語の方が検定における立場の違い(差があることが嬉しいのかないことが嬉しいのか)を包含できるので初学者を惑わせなくて良いように思います.もう少し意訳して統計的仮説というのも良い訳ですね.対立仮説に至ってはAlternativeには対立という意味はないのでおそらく間違いです,そこになるのは別の価値観を持って取って代わるものという意味です.確かに二者択一のという意味もありますから,帰無仮説が棄却されたら対立仮説が採択されるという意味に解釈することもできなくはありませんが,帰無仮説は棄却できなかったときの対立仮説の立場が微妙になってきます.このとき対立仮説が採択できるわけではないのですから,やはり帰無仮説として対立するものではないのです.更には対立仮説は無数にあるというニュアンスもこの日本語には出ていません.わたしはAlternative Hyposesesの訳としてはAlternative Medicineを代替医療と訳するように,代替仮説と訳するのが良いと考えています.
しかしながら,学問の世界では一度決まったことは大きな不都合がなければ基本的に変わりません.初学者の立場としてはその用語を日本語として解釈するのではなく,その裏にある真の意味を理解する必要があります.このことが日本の統計学習者にとって大きなハンディキャップとなっているように感じています.この点,わたしはアメリカ赴任中に統計に興味を持って勉強を始めたので幸運でした.
最近,統計学を初学者向けに向けに統計の基礎を教える機会が増えてきたのですが,初学者には伝統的な統計用語の背後の意味を捉えた用語を対応けて教えるようにしています.
posted by Tad at 16:45| Comment(0) | 統計教育