UA-115498173-1

2018年05月26日

Tukeyのヒンジ

前回のコラムで指摘しましたように,指導要領は時代とともに変化しているので,会社側ではその変化に対応して教育内容を変えていく必要があります.今までも高校で統計は教えられてきたのですが,今回それがパワーアップするというので,具体的に何が変わるのかと「高等学校学習指導要領(案)」に目を通してみました.それによると,数学Iで「具体的な事象において仮説検定の考え方を理解すること。」,数学Bで「正規分布を用いた区間推定及び仮説検定の方法を理解すること。」 と書かれていますが,どの程度まで仮説検定に踏み込むのかは不明です.実際,「高等学校学習指導要領解説 数学 統計関係部分抜粋」の「確率分布と統計的な推測」の項には,仮説検定という言葉は出てきません.とはいえ,標本調査では母集団の平均値を推定することを学ぶのでしょうから,少なくとも検定の入口はほぼ全ての高校生が学ぶことになるのは間違いなさそうです.
興味深かったのは,この6ページの文書の中に「コンピュータ」という言葉が5箇所に出てくることです.例えば,数学Bに「目的に応じて標本調査を設計し,収集したデータを基にコンピュータなどの情報機器を用いて処理するなどして,母集団の特徴や傾向を 推測し判断するとともに,標本調査の方法や結果を批判的に考察する こと。」とあります.昨年のSUMMITで米国から高校生のポスター参加がありましたけど,米国のように日本でも高校生がJMPを使うなどということも珍しくなくなるかもしれません.
統計教育を重視するという方針そのものは大歓迎ですが,あくまでも数学としてその枠組みの中で教えられることになるので,一つ気になることがあります.小3の算数テスト『3.9+5.1=9.0』が減点された! 採点の理由に議論勃発 という記事のもとになったkennel(@kennel_org)さんのTweetも話題になりました.この子の使っていたという東京書籍の公式見解は,9という解も間違いではないということですが,減点した先生も間違いではないという玉虫色の見解です.算数の能力をテストするのではなく,教えたことをどれだけ覚えているかをテストしているということなのでしょう.統計ではこのような教育は混乱を招きます.統計には算数よりも曖昧な部分が多いからです.例えば,三重大学の奥村先生が指摘されているように,中学数学で教える四分位数の定義が一般的なものと異なっているようです.今回の改定で中学生2年性で箱ひげ図を習うようになるというので,「中学校学習指導要領解説 数学編」 を読んでみました.
ここに書かれている定義では.例えば第一四分位数はデータ全体のメディアンより小さいデータ部分の更にメディアンとして定義されています.データを三つの四分位数と最大・最小との5個の特徴量で記述し,それをもとに箱ひげ図として可視化する手法を考案したのは探索的データ解析(Exploratory data analysis)で有名なJohn.W.Tukey(ジョン・テューキー)ですが,いわばご本家のTukeyの定義とは確かに異なっています.両者ともメディアンを境にしてデータ列を上半分と下半分に分割することまでは同じですが,Tukeyの定義ではメディアンを分割したデータに含めるのに対し,文科省の定義では含めません.因みに,この定義は実際にはMoore and McCabeの定義と呼ばれるもので,文科省はそれを採用したに過ぎません.
これらの定義は人間に理解しやすいという特徴はありますが,その必要がない統計ソフトではまた異なる定義をもとに計算されます.おそらく授業で使われることが多いであろうエクセルには,2010年のバージョンから四分位数を返す関数がQUARTILE.INC関数とQUARTILE.EXC関数との二つに増えました.両者ともにパーセンタイルから四分位数を,例えば,25パーセンタイルを第一四分位数として導出しますが,サイズnのデータのqパーセンタイルを計算する際に,開区間(0,1)に対して求めるか閉区間[0,1]に対して求めるのかというだけの違いで,ちょうどそれぞれTukeyの定義とMoore and McCabeの定義とに対応しています.具体的には,QUARTILE.INC関数ではから,QUARTILE.EXC関数ではから求めるという違いになります.この違いはデータサイズが大きければ無視できますが,サイズが小さい場合は,QUARTILE.INC関数による第一及び第三四分位数はQUARTILE.EXC関数によるものに比べて中央値に寄ることになるので,後に説明する四分位数から定義される外れ値にシビアになります.因みに,QUARTILE関数も実装されていますがこれはQUARTILE.INC関数と同じもので,過去のマクロとの互換性を保つために残されたものです.
試しにJohn W.Tukey(1977), Exploratory Data Analysis, Addison-Wesleyで使われているオリジナルデータ[-3.2, -1.7, -0.4, 0.1, 0.3, 1.2, 1.5, 1.8, 2.4, 3, 4.3, 6.4, 9.8]で確認してみます.このデータに対して中学校では,第i四分位数をQiで表しますと,[Q1=-0.15, Q2=1.5, Q3=3.65]と教えられることになります.「3.9+5.1=9.0」のときとも違い,教えた通りに答えることを正解とするのであれば,これ以外の答えは不正解です.同じデータの四分位数を箱ひげ図の考案者のJohn W.Tukeyは,[Q1=0.1, Q2=1.5, Q3=3]と答えるでしょうし,エクセルを使えば,QUARTILE.EXC関数では[Q1=-0.15, Q2=1.5, Q3=3.65]ですし,QUARTILE.INC関数では[Q1=0.1, Q2=1.5, Q3=3]となるでしょう.
そしてJMPerであれば「1変量の分布」によるレポートを見ればいいわけです.出力結果は[Q1=-0.15, Q2=1.5, Q3=3.65]ですから,一見して文科省の定義に準拠しているかにみえますが,これはたまたまなので注意してください.試しに上記のTukeyのデータに-5を加えた次のデータで確認してみます.
[-5, 3.2, -1.7, -0.4, 0.1, 0.3, 1.2, 1.5, 1.8, 2.4, 3, 4.3, 6.4, 9.8]
文科省定義では[Q1=−0.4,Q2=1.35,Q3=3]となりますが,JMPのレポートでは[Q1=-0.725,Q2=1.35,Q3=3.325]になります.
JMPでの四分位点の定義はマニュアルのP72に書かれています.これによればJMPの四分位数の定義はQUARTILE.EXC関数と同じです.例えば,第一分位点は25%点のことですから,上のデータの場合,3.75となります.3.75番目の数が第一四分位数Q1となるわけですが,これを3番目の−1.7と4番目の−0.4とから比例配分で求めます.即ち,Q1 = -1.7 x 0.25 + -0.4 x 0.75 = -0.725となります.
このように単純な概念である四分位数にもいろいろ定義があるのです.おそらく文科省の定義は教えやすさを優先したのでしょうが,Tukeyの元祖四分位数も同じくらいには単純です.四分位数の定義が乱立している謎を解こうと文献を調べたら,この辺についてまとめてくださっている先生がいらっしゃいました.California州立大学のEric Langford先生が投稿された論文 Journal of Statistics Education Volume 14, Number 3 (2006)でHTMLでWEBでも読めます.Quartiles in Elementary Statistics この論文によればなんと15の定義が示されています.この文献のMethod 3がテューキーの定義で,この定義はMethod1と実質的には同じ数値を返します.文科省の定義はMethod 2で,Method 12がExcelのQUARTILE.INCに相当するものです.JMPの定義はMinitabと同じとのことで,Method11になります.この論文が出版された当時は存在しませんでしたが,エクセルのQUARTILE.EXCもMethod11に分類されます.
このように一つの用語に無数の定義があるなどというのは他の学問分野では珍しいのではないでしょうか.一つには,統計学が比較的歴史の浅い学問であるからかもしれません.Tukey先生は2000年まではご存命だったので,ジャイアント馬場のほうが先に亡くなったくらいですから私の感覚ではまだ最近の人です.(つい最近,ジャイアント馬場夫人が亡くなったので思い出しました.)しかしながら,四分位数の定義が乱立したことの背景には,実世界と紐付いていることが宿命付けられている統計学の実態があるように私には思えるのです.どの四分位数の定義であってもデータの分布を把握するという目的には些細な違いです.優劣をつけることは困難です.JMPが四分位数の定義を一つしか持たないのもこれが理由でしょう.エクセルやRのように複数の定義を実装するならばその使い分けも示されるべきです.そうでなければユーザーは混乱するだけです.
といっても,それぞれの定義で返す数値が異なるのもまた事実で,特に小さいサンプルサイズでは顕著になります.これは外れ値の違いとなって表出します.Tukeyは中央値でのデータの折り返しを蝶番に見立ててヒンジと命名したので,Q3,Q2は「Tukeyのヒンジ」とも言われています.ヒンジは厳密には四分位数ではないと,それぞれを区別する人もいますが,その話はここでは置いておきます.
Q3-Q2を四分位範囲といって箱ひげ図の箱の長さに相当し,この長さをk倍することでフェンスを定義します.箱ひげ図ではフェンスそのものは見えませんが,フェンスに囲まれたデータの最大・最小が髭の先端として示されます.Tukeyはフェンスを超えたデータを外れ値として定義しました.ですから,実務上は四分位数よりもフェンスの方が重要なくらいです.Tukeyは,このkの値を初期にはk=1とk=3としていましたが,後に k=1.5とk=3とに変更しました.ここらへんのことは下記の論文に詳しく書かれています.(David C. Hoaglin(2003), John W. Tukey and Data Analysis,Statistical Science 2003, Vol. 18, No. 3, 311–318)現在ではk=1.5のみでフェンスを定義しますが,Tukeyのフェンスは二重構えで内側をインナーフェンス,外側をアウターフェンスと定義していました.従って外れ値にもに二つの定義があったわけで,おそらく事例における使い分けを想定し,実際のデータの分布によってkの値も修正していったのでしょう.Tukeyは実務的な観点からヒンジやフェンスを定義し,外れ値を分析から除外するものとしてではなく,注目すべき対象としたことが重要です.生きたデータがあってはじめてヒンジもフェンスも,もちろんそれらのベースとなる四分位数も具現化できるものなのです.
大学生ならばともかく,中高生であればはまだ具体的な問題に対峙していないので,架空の問題を想定して統計を学んでいくしかありません.英語をいくら学校で勉強しても話せなくても,米国で生活すれば誰でも話せるようになるという事実を鑑みても,統計学の勉強はこの意味で実際の問題を抱えてからのほうが効率がよいのではないでしょうか.改定された指導要領で中高生が学ぶ統計が,実世界と分離されたものにならないことを願っています.

長くなりましたので本日はこれで.
タグ:統計学 JMP
posted by Tad at 19:00| Comment(0) | TrackBack(0) | 統計教育

2018年05月19日

桜吹雪と統計教育

少し前の話になりますけれど,連休直前に岩手県に出張で出かけました.桜の花びらがまだ舞い落ちている中を集団下校している高校生を見ながら考えたことがあります.彼らはどのように統計を教えられているのだろうかと.
問題解決のコンサルテーションをしていて,ついでに統計を教えて欲しいと言われることが増えてきました.一時のブームは去ったとはいえ,ビッグデータの流行によって人々が以前よりも統計を意識するようになったのは間違いないようです.
社会人教育の難しいところは,学生のように生徒のレベルが揃っていないことにあります.先のFeynman先生の教えにも通じますが,ここで言うレベルには個人の学習意欲や能力というよりは(もちろんそういう要素もありますけど),学生時代に学んだ知識をベースに構成されるフレームワークのことです.
どうやら高校までで習う統計の内容が年齢によって違うのだということに最近気づきました.例えば,「仮説検定」を高校時代に習った人と習っていない人がいるようなので,検索してみると,このことを紹介してくださっているブログがありました.
「あらきけいすけの雑記帳」統計の「検定」が高校数学の教程からいつ消滅したか?
ここには「結論としては、「検定」が正式に入っているのは昭和45年、昭和53年の教程で、平成元年公示の教程から消滅している。」と書かれています.
大学でも統計学は教えますが,やはり高校時代に大学受験に取り組んだ真剣さに欠けるためでしょうか,いま一つ記憶に残っていません.学部にもよるのでしょうけれど,それこそ教える先生のレベルが玉石混交なので,迷講義を引いてしまった私のような単位を取っただけという人もいることでしょう.
そういうわけで高校までで学ぶ統計が後々まで尾をひくことになりますが,自分が教えらえてきたように新入社員も教えられていると思ったら大間違いなんです.なぜならば,学習指導要領というのは変わるものだからです.
つい最近も,「高等学校学習指導要領」の改定案が公開されましたが,これについてジョゼフ・アンリさん(@joseph_henri)のTweet「ベクトルが高校数学Cに移動するので,カッとなって過去の学習指導要領から線形代数の分野を表にしてみた。」が話題になっていました.
高校数学の科目は複雑なので少し補足しておきますと,科目としてI,II,IIIとA,B,Cの系列があって,このうち数学Cは現在の指導要領では廃止されていたものが,今度復活するということになります.(厳密にいうと新旧の「数学C」は名前は同じでも中身は別物ですけれど.)このうち共通の必修科目は数学Iで,標準では文系向けに数学I,Aまたはこれらに加えてII,Bを,理系向けに数学I,II,III,A,B,Cを学ぶことになります.
となると,ベクトルを学ぶのは理系の生徒のみで,ほとんどの文系の生徒はベクトルを学ばずに大学に進むことになります.大学でも学部によっては,ベクトルって何それおいしいの?というところもありますから,ベクトルを知らない社会人なども今後は出てくるのでしょうか.ベクトルは日常生活でも「向きを揃える」というような意味合いで使われている言葉なので「チームでベクトルを合わせてやり遂げよう」なんてスローガンに一部の新人だけ伝わらないなんてこともあるかも知れません.そもそも高度な数学を駆使する経済学部が文系というのもおかしいという議論も古くからあるわけで,学問分野を文系,理系という科目構成を対応して括るのに無理があるのではないでしょうか.
ベクトルが数学Bから追い出されたスペースに統計が入ってくるというので騒ぎがより大きくなっています.統計をベクトルより重視するのは基礎学問分野の軽視だとか,数学と統計は別物として分離すべきであるとかで,今回の改定を問題視している意見もあります.これらの意見についてはいずれブログでも紹介したいと思っています.このような方々の意見もわからなくはありませんけど,少なくとも米国の高校生レベルに統計を学ぶことはこの先どのような進路を進むにも役に立つはずです.まあ,ベクトルよりも重要かと問われれば答えに困りますけれど.
一つ懸念しているのは,数学の限られた分野であるベクトルの住んでいた1DKに統計学という一家4人が住むようなものなので,少し窮屈なのではないかということです.ようするに詰め込みすぎなので,ここから「統計嫌い」な高校生がでてこなければよいのですが...2022年度(平成34年度)から実施予定とのことで,この春に小学6年生なった生徒が最初に新しい指導要領で学ぶことになりますが,どうなることでしょうか.
タグ:統計学
posted by Tad at 19:00| Comment(0) | TrackBack(0) | 統計教育

2018年04月28日

Feynman先生の教え(後編)←追記あり

先週の続きです.以下もう少し意訳を続けますが,もう一度言っておきます.時間をかけて訳していませんので,おそらく聞き間違いや誤訳があるかもしれません.趣旨は大きく外していないはずですが,一つの参考に留めていただき,何かしら間違いあればご指摘いただけるとありがたいです.

この(ミニーおばさんの)例でもわかったように,なぜを問い続けると物事はより深くより面白くなっていくんだ.(the more I ask why, the deeper a thing is, the more interesting it gets.) 「なぜ滑ってお尻を打ったの?」というようにより深く問い続けることもできるよ.重力が関係しているのは間違いないけど,今はそんなことどうでもいい.こんなふうにどんどん続いていくんだ.例えば,なぜ二つの磁石が反発するのかと君が問うとき,多くの異なったレベルの答えがある.それは君が物理の学生か予備知識のない一般人かによるんだ.もし何も知らない人ならば,僕が言えるのは「磁石は反発するもので君はその力を感じる」ということだけなんだよ.

長いので少し端折ります.この後,Feynman先生は磁気力と性質が似ている電気力を例えに出して,手が椅子を突き抜けないという日常的にありふれた現象には電気力の反発が存在していることを指摘し,そのなぜを説明するには多くの人が受け入れることを説明するところから始めなければならないと説いています.そして,説明は続きます.

もしもっと技術的に説明してもいいならもう少し深くできるけれど,初等レベルなら,僕に言えるのは,磁石の反発や電気的磁気的な誘引力はこの世界の要素として捉えるべきものの一つということだけさ.僕には君に馴染深い何かで誘引力を説明できないな.例えば,磁石はゴムバンドのように引き付け合うといったら,君を騙すことになる.なぜなら,それらはゴムバンドでつながっているわけじゃないからね.そんな説明をすればすぐに困ったことになってしまう.君が好奇心旺盛なら,なぜゴムバンドがまたもとに戻ってくるのか質問するかもしれないね.僕はゴムバンドで説明しようとしているまさにそのものである電気力の言葉でそのことを説明するだろう.そう,僕は酷く騙してるんだよ.だから僕は君になぜ磁石が互いに引き付け合うのかという問いにそれはそういうもんだと答えるしかないんだ.そして,それはこの世界の要素の一つであって,電気力,磁力,重力などなど,そしてそれらはいくつかの部分なんだ.もし君が学生だったらもっと深く説明することもできる.磁力は電気力と非常に密接に関係していることや,重力と電気力との関係は未だにわかっていないということなどを説明できるだろうよ.だけど僕には本当にうまく,いやどんなふうにも君がもっと馴染みのあるもので磁力を説明できないんだ,だって君が馴染み深い何かを僕は知らないからね.

Feynman先生はwhyという行為の無限性を指摘しています.この世界は因果関係の無限性で構築されているのです.whyに答えるには質問者のフレームワーク内で理解されている知識・概念だけを用いて説明しなければならないのです,自省も込めて言うのですが,多くの人が自らのフレームワークを理解していないままにwhyに捕らわれてしまっています.この状況では,whyから別のwhyが生じ,結局は何もわからないということになってしまいます.フレームワークには理解しているという現在だけでなく,そこまでは理解したいという未来も含んで構築されていなければなりません.社会人の場合,学歴や経歴,更には学習意欲によってこのフレームワークのばらつきが大きいので,質問に答える側としても,どこからどこまで説明すればよいかの見当がつきません.とはいえ,質問に答える側が自分であれば,このフレームワークの存在を意識していさえすれば,それを把握することは比較的容易なはずです.
一方で,フレームワーク内のwhyは徹底的に追求するという姿勢も重要です.特に統計学ではわかった気になる傾向が強いように思います.統計学を勉強する状況で例を引いてみます.例えば,独立した母集団からサンプリングした二つのサンプルの平均の差の標準誤差は,それぞれのサンプルサイズをN1,N2,分散をS1^2,S2^2として次式で示されます.(MathTypeをpngにして挿入しただけなので美しくはなくて恐縮です.)

042818_f1.png

追記ここから
一番上の式に添字のタイプミスがあります.正しくはこちら.
修正.pdf
追記ここまで

なぜこの式になるのかを説明するのに,二つのサンプルの分散の情報が混ざっているということを教えるだけで十分な人もいれば,σ1,σ2をそれぞれのサンプルの母分散の標本推定として,
042818_f2.png
であることを示し,σ1=σ2=σとして,
042818_f3.png
を導出してはじめて理解できる人もいます.統計を使うだけでいい人ならば公式として最初の式を覚えて,そこでwhyを打ち止めにすべきでしょうし,統計学を理解して学びたい技術者ならば,フレームワークはより深いレベルに展開すべきです.もしも,最後の式のσがなぜ最初の式のように与えられるかが分からなければ,平方和とは何かに立ち戻って理解しておかなければなりません.ここでは平方和の定義から一歩進めて,共通平方和への概念の拡張が必要です.
このように,whyを追求してはいけないということではなく,whyを追求するにしても,社会人の統計学は独学で学ぶことが多いので,このwhyの構造を意識しておくことが重要です.ほとんどの場合は,上の公式(の存在)を知ってさえいればそれで十分ですし,JMPを使うのであれば,それすら忘れても問題解決には全く障害となりません.問題解決を優先する状況では,そうでないとどんどん根元に降りてそこから戻ってこれなってしまい,結局問題解決のタイミングを逸してしまうことがあるのです.自らのフレームワークを知って,その中でwhyを追求していくという割り切りが社会人の独学には欠かせない,そう考えています.この意味では生徒は自らのフレームワークを知ること,教える側では個々の生徒のフレームワークを把握することが肝要なんです.

それではまた.
タグ:統計学
posted by Tad at 19:00| Comment(0) | TrackBack(0) | 統計教育