2017年04月15日

統計学の用語はなんか変?

その分野を新たに学ぼうとするものにとって用語は大変重要です.ほとんどの学問が西洋から入ってきた日本では,用語を訳するのに先人は大変な苦労をしたものです.オランダ語で書かれた解剖学書の「ターヘル・アナトミア」を翻訳した前野良沢・杉田玄白の悪戦苦闘は有名ですね.江戸末期から明治にかけての学問の世界では,自らの勉強だけでなく,その学問を後の世のものに伝えるために用語を作る必要がありました.この当時の先輩たちの努力をわたしたちは受け継いでいるのです.物理や自然といった抽象的な言葉では漢字固有の造語能力が活躍したのは言うまでもありませんが,個々の学問分野に固有な用語にも先人の工夫を感じることが多々あります.
わたしが昔から感心しているのが岩石と鉱物の呼び分けです.両者の違いをご存知でしょうか.子供の頃からなぜか鉱物が好きで,小学生ときに秩父の長瀞に鉱物採集に出かけるほどだったので知っているのですが,鉱物とは単一の化学的組成よりなる物質で,岩石は鉱物が混ざり合って構成されている物質のことです.例えば,花崗岩は主に石英と長石という鉱物で組成されています.英語ではそれぞれGranite,Quartz,Feldsparと言います.もう一つ例を挙げます.安山岩は主に斜長石,輝石,角閃石から構成されています.英語ではそれぞれAndesite,Plagioclase,Pyrozene,Amphiboleです.ここで気づいたことはありませんか.わたしは英語圏の人は鉱物名を覚えるのに一苦労するだろうなといつも思っていました.石灰岩や水晶や石英などの例外はありますが,日本語では基本的に岩石は何々岩,鉱物であれば何々石という名前が付いているのです.英語では岩石には何々iteがついているものが多いのですが,わたしのお気に入りの緑泥片岩はGreen schistです.一般人にはそれが岩石なのかでさえ名前だけからでは分かりません.一方,日本語の命名はシステマチックなので,初学者にには大変ありがたいものです.岩石学あるいは鉱物学を日本にもたらし,その用語を後の世の人々のために苦労して訳した先人には感謝しています.
前置きが長くなりましたが,これに比べて統計学の用語の訳は初学者に優しくないと常々感じています.例を挙げるときりがないのですが,例えば「検定」は「test」の訳としては大げさです.QC検定というのがありますが,検定の意味はどこかの足切り基準で合格・不合格を判別することです.統計では,帰無仮説が棄却されるか否かを検定と呼んでいるわけではなく,あくまでも平均の差があるかないかという命題が検定の対象です.ここで帰無仮説が棄却されれば対立仮説を採択する,というように論を運ぶことになりますが,棄却できない場合は何の結論も下せないことはご存知の通りです.(サンプルサイズを大きくするなどして検出力をあげようという結論は出せますが.)従って,統計的検定には合格だけを判別するという非対称性があるので,日本語の検定とは意味合いが違うのです.testの良い訳が日本語にないのであれば,テストのままにしておくべきだったとわたしは考えます.テストであればその命題(の正しさ)に点数をつけて評価するという意思決定の意味合いも出てきます.
ついでに帰無仮説と対立仮説という言葉も通例に倣って使いましたが,どう訳せば「Null Hyposeses」が「帰無仮説」に,「Alternative Hyposeses」が「対立仮説」になるのかが理解できません.Null は「ゼロ」ですから,そこからプログラミングでは「何もない」という意味として使われています.本来はラテン語のnot any(何も)が由来なので,価値のないものということです.帰無仮説を「棄却できない場合は自分の研究が無に帰する仮説」などという解説も見かけますが,シャレのようにしか聞こえません.単に仮説あるいは最初に立ててみる仮説,あるいはシンプルにゼロ仮説というような用語の方が検定における立場の違い(差があることが嬉しいのかないことが嬉しいのか)を包含できるので初学者を惑わせなくて良いように思います.もう少し意訳して統計的仮説というのも良い訳ですね.対立仮説に至ってはAlternativeには対立という意味はないのでおそらく間違いです,そこになるのは別の価値観を持って取って代わるものという意味です.確かに二者択一のという意味もありますから,帰無仮説が棄却されたら対立仮説が採択されるという意味に解釈することもできなくはありませんが,帰無仮説は棄却できなかったときの対立仮説の立場が微妙になってきます.このとき対立仮説が採択できるわけではないのですから,やはり帰無仮説として対立するものではないのです.更には対立仮説は無数にあるというニュアンスもこの日本語には出ていません.わたしはAlternative Hyposesesの訳としてはAlternative Medicineを代替医療と訳するように,代替仮説と訳するのが良いと考えています.
しかしながら,学問の世界では一度決まったことは大きな不都合がなければ基本的に変わりません.初学者の立場としてはその用語を日本語として解釈するのではなく,その裏にある真の意味を理解する必要があります.このことが日本の統計学習者にとって大きなハンディキャップとなっているように感じています.この点,わたしはアメリカ赴任中に統計に興味を持って勉強を始めたので幸運でした.
最近,統計学を初学者向けに向けに統計の基礎を教える機会が増えてきたのですが,初学者には伝統的な統計用語の背後の意味を捉えた用語を対応けて教えるようにしています.
posted by Tad at 16:45| Comment(0) | 雑記

2017年04月08日

人材育成の三つの手法

社内での教育というと既に決められたカリキュラムがあって,全員が同じ内容を受講するような形態が多いと思います.その他,セミナーや事例相談の要求にはオンデマンドで都度対応しいますが,やはり効率的ではないように思います.それは対象者(以下クライアントと呼びます)のやる気と知識・能力に応じた木目細やかなサポートができていなかったというわたし自身の反省でもあります.
この図では,クライアントをやる気と知識・能力の二次元でマッピングし,それぞれの領域に適したサポート手法を示しています.ここでやる気というのは「明確な目標を持ちそれを達成したいと思う気概」のことです.また知識・能力はその「理解度レベル」を指標とすべきものです.この図には三つの手法を示していますが,それぞれについて簡単にご説明します.
ティーチングとはやり方や問題の答えを示し見せることです.具体的には各種の講演やセミナー,統計学の座学あるいはJMP実習などが相当します.トレーニングとはできないことをできるように訓練することです.その語源からも明らかなように指導者(トレーナー)がクライアントを列車のように後ろに引き連れて目的まで運ぶイメージです.ここで重要なことは,事例に対して正しいコンサルティングを実施してクライアント成功体験をもたらすことです.このことがやる気を高めていくことにつながります.コーチングとは自らを高める意欲のあるPJLをより高みに連れていくことです.コーチングの語源が馬車であることからもわかりますように,目的地はクライアントが自ら決め,その道のりを指導者(コーチ)とともに進みます.ここでは両者は一つの目的を共有する信頼関係で結ばれた基本的に同格の存在です.このため,コーチングは緊急性の高い状況では不適切であり,何よりもクライアントにやる気とそれなりの知識・能力が欠かせません.誰にでもコーチングが適用できるわけではないのです.
このような手法を使い分けていくのに欠かせない技術がクライアントのプロファイリングです.具体的には対話を通して,現時点でのやる気と知識・能力を評価します.この過程でクライアントに真の問題に気付いてもらうことも重要なことなので,わたしはこの手法をカウンセリングと呼んでいます.
まとめますと,人材育成と一言で済ませるのではなく,次の三段階の手順を踏んだ効果的なサポートが必要だと考えています.
1.カウンセリングによりクライアントのやる気と知識・能力を評価する.
2.それに応じて適切なティーチングとトレーニングを実施する.
3.やる気と知識・能力が十分養われてきたならばコーチングを実施する.
posted by Tad at 11:38| Comment(0) | 雑記

2017年04月01日

データサイエンスと人材育成

ようやく「JMPで始める統計的データ分析」を脱稿しました.これから書籍としての仮組みをして頂き,内容のチェックや図版のトレースに取りかかることになります.それまではまだ間がありますので,本書とも関係あることを書いていこうと思います.
わたしは「データサイエンスの推進」を業務としていますが,本書はその際の教科書となることを意識して書きました.データサイエンスの定義にもいろいろありますが,データをサイエンスの枠組みで扱うための具体的な手法と捉えるのが理解しやすいと思います.この意味で,統計的問題解決はデータサイエンスに含まれていることになります.とはいえ,本書では意識してデータサイエンスという言葉は避けました.それはデータサイエンティストという別のものを意味する言葉と混同して欲しくなかったからです.
実は本書の初期草稿ではビッグデータに関する第7章がありました.(ページ数の制約から割愛せざるをえませんでしたが,ゆくゆくはこのブログ等で紹介したいと考えています.)そこで書いたことでもあるのですが,改めて申し上げておきますと,データサイエンティストをデータサイエンスを実施するものという広い意味に解釈するのは間違いです.データを用いてビジネスにおける意思決定をする(あるいは意思決定者のサポートをする)ものという本来の定義の範囲内にとどめておくべきです.ですから,データサイエンスを使う職業には技術者・研究者とは別にデータサイエンティストがあるということなのです.統計的問題解決の立場からはデータサイエンティストは違う世界の人であると考えてください.技術者・研究者との違いはその目的がビジネス課題に直結しているということ以外にも,その手法により大きな違いがあります.
具体的に言うと,統計的問題解決では実験計画のような能動的データ取得をベースとするのに対し,データサイエンティストが対象とするデータはビッグデータのような受動的データです.受動的データというのは誤解を招くかもしれませんが,あるがままのデータを使うという意味で受動的といっています.具体的には「実験」ではなく「観察」によるデータということです.もちろん,サイエンスの枠組みでは実験データだけでなく観察データを扱うことも可能ですし,更にはデータサイエンティストでもABテストと呼ばれるような実験データを扱うこともあります.ABテストとはアメリカの大統領選挙でオバマ陣営がWEBページの最適化に採用したことで有名になった手法です.ようするに画面Aと画面Bという二つのパターンをランダムに表示して,どちらがより期待する効果を出せるかを検証する手法で,実験計画とは言えないものですがデータ取得に能動的な要素が加わっていることは間違いありません.学会論文レベルでは実験計画を採用した事例も見たことはありますが,多くは対象が制御困難であるという理由で通常の実験計画は実施しようと思っても困難です.重要なことですが,どちらのアプローチが優れているということではありません.この点については回を改めて書こうと思っています.
脱線してしまいましたが,このようにデータサイエンスとは単なる手法なので重要なのはその媒体,即ち人材であることを忘れてはなりません.従って,「データサイエンスの普及」とは具体的にはデータサイエンスを知って,理解して,使いこなす人材の育成ということになります.この人材育成という言葉は昨今の企業経営ではキーワードになっています.試しに「人材育成」で検索をかけてみてください.人材育成に課題を抱えていると認識している企業が多いことが見て取れます.
わたしは「人材育成」という言葉はお歳暮化しやすいと感じています.お歳暮化している言葉の代表格が本書でも取り上げた「イノベーション」です.例えば,上司から部下へ「イノベーション」というお歳暮が届きます.(日本では上司から部下へというのは珍しいですけれど.)上司は「イノベーション」の中身については確認しないで,「イノベーション」とのし紙がかかった箱を手渡します.部下はそれを恭しく受け取りますが,のし紙に「イノベーション」と書いてあるのを見るだけで満足して中を確認もせずに机にしまいこんでしまいます.この状況が言葉のお歳暮化なのです.(わたしの造語ですから他では使わないほうが良いでしょう.)
「人材育成」の必要性を感じている経営者はその中身を考えて指示を出しているでしょうか.おそらくそんなケースは稀で,「人材育成」の指示を受けた者がその中身を熟考して実施しなければならない状況がほとんどだと思います.少し長くなってしまいましたので,わたしの考えている「人材育成」を次回でご紹介したいと思います.
posted by Tad at 08:44| Comment(0) | 雑記