UA-115498173-1

2018年05月19日

桜吹雪と統計教育

少し前の話になりますけれど,連休直前に岩手県に出張で出かけました.桜の花びらがまだ舞い落ちている中を集団下校している高校生を見ながら考えたことがあります.彼らはどのように統計を教えられているのだろうかと.
問題解決のコンサルテーションをしていて,ついでに統計を教えて欲しいと言われることが増えてきました.一時のブームは去ったとはいえ,ビッグデータの流行によって人々が以前よりも統計を意識するようになったのは間違いないようです.
社会人教育の難しいところは,学生のように生徒のレベルが揃っていないことにあります.先のFeynman先生の教えにも通じますが,ここで言うレベルには個人の学習意欲や能力というよりは(もちろんそういう要素もありますけど),学生時代に学んだ知識をベースに構成されるフレームワークのことです.
どうやら高校までで習う統計の内容が年齢によって違うのだということに最近気づきました.例えば,「仮説検定」を高校時代に習った人と習っていない人がいるようなので,検索してみると,このことを紹介してくださっているブログがありました.
「あらきけいすけの雑記帳」統計の「検定」が高校数学の教程からいつ消滅したか?
ここには「結論としては、「検定」が正式に入っているのは昭和45年、昭和53年の教程で、平成元年公示の教程から消滅している。」と書かれています.
大学でも統計学は教えますが,やはり高校時代に大学受験に取り組んだ真剣さに欠けるためでしょうか,いま一つ記憶に残っていません.学部にもよるのでしょうけれど,それこそ教える先生のレベルが玉石混交なので,迷講義を引いてしまった私のような単位を取っただけという人もいることでしょう.
そういうわけで高校までで学ぶ統計が後々まで尾をひくことになりますが,自分が教えらえてきたように新入社員も教えられていると思ったら大間違いなんです.なぜならば,学習指導要領というのは変わるものだからです.
つい最近も,「高等学校学習指導要領」の改定案が公開されましたが,これについてジョゼフ・アンリさん(@joseph_henri)のTweet「ベクトルが高校数学Cに移動するので,カッとなって過去の学習指導要領から線形代数の分野を表にしてみた。」が話題になっていました.
高校数学の科目は複雑なので少し補足しておきますと,科目としてI,II,IIIとA,B,Cの系列があって,このうち数学Cは現在の指導要領では廃止されていたものが,今度復活するということになります.(厳密にいうと新旧の「数学C」は名前は同じでも中身は別物ですけれど.)このうち共通の必修科目は数学Iで,標準では文系向けに数学I,Aまたはこれらに加えてII,Bを,理系向けに数学I,II,III,A,B,Cを学ぶことになります.
となると,ベクトルを学ぶのは理系の生徒のみで,ほとんどの文系の生徒はベクトルを学ばずに大学に進むことになります.大学でも学部によっては,ベクトルって何それおいしいの?というところもありますから,ベクトルを知らない社会人なども今後は出てくるのでしょうか.ベクトルは日常生活でも「向きを揃える」というような意味合いで使われている言葉なので「チームでベクトルを合わせてやり遂げよう」なんてスローガンに一部の新人だけ伝わらないなんてこともあるかも知れません.そもそも高度な数学を駆使する経済学部が文系というのもおかしいという議論も古くからあるわけで,学問分野を文系,理系という科目構成を対応して括るのに無理があるのではないでしょうか.
ベクトルが数学Bから追い出されたスペースに統計が入ってくるというので騒ぎがより大きくなっています.統計をベクトルより重視するのは基礎学問分野の軽視だとか,数学と統計は別物として分離すべきであるとかで,今回の改定を問題視している意見もあります.これらの意見についてはいずれブログでも紹介したいと思っています.このような方々の意見もわからなくはありませんけど,少なくとも米国の高校生レベルに統計を学ぶことはこの先どのような進路を進むにも役に立つはずです.まあ,ベクトルよりも重要かと問われれば答えに困りますけれど.
一つ懸念しているのは,数学の限られた分野であるベクトルの住んでいた1DKに統計学という一家4人が住むようなものなので,少し窮屈なのではないかということです.ようするに詰め込みすぎなので,ここから「統計嫌い」な高校生がでてこなければよいのですが...2022年度(平成34年度)から実施予定とのことで,この春に小学6年生なった生徒が最初に新しい指導要領で学ぶことになりますが,どうなることでしょうか.
タグ:統計学
posted by Tad at 19:00| Comment(0) | TrackBack(0) | 統計教育

2018年05月12日

JMPer’s Meeting

先日開催されたJMPer’s Meetingに参加してきました.今年最初だということで,そういえば以前はもう少し頻繁に開催していたように思います.講師側になったりもしているので知っているのですが,場所取りが大変でスケジュール調整に苦労されているようです.100名規模の収容となるとあのセミナールームしかないので,取合いの状況らしいです.SASのほうでもよくあそこでセミナーを開催していますね.
まだ先のことですが,以前お知らせしたように,SAS社に場所を提供していただいて「統計的問題解決入門」のゼミを開催することになっていますが,いろいろあって結局あのセミナールームを半分に仕切った部屋でやることになりました.ゼミ形式なので一方的にお話しするのではなく,参加者とコミュニケーションをとって少人数でやりたいので,最初はあのガラス張りの小部屋を希望していたのですが,どうせやるならもう少し人数を増やしませんかと広い部屋を提供して頂いた次第です.ゼミ形式という性格から,JMPer’s Meetingと違って一般募集はかけず,担当営業さんから興味があると思われるユーザーに直接案内していただくことになっています.もしも統計的問題解決ゼミに興味がありましたら,担当営業さんに聞いてみてください.あるいは私にコメントでお知らせくださってもかまいません.
さて,今回のテーマはJMP14の新機能紹介ということで,三部構成の内容でした.最初に私が最もお世話になっている技術の方から,「基本機能に関する新機能」についてお話しいただきました.地味な機能という言葉を連発されていましたが,JMPも14ともなると目立った機能は実装済みですから,しかたないことです.これはAdobeのようなソフト会社の陥るジレンマです.Illstratorなども必要な機能は大昔のバージョンで備わっていましたから,ユーザーのアップグレードを促すためには,何かしらの新機能を定期的に実装しなければならず,ときにそれが改悪だったり,あるいはサードパーティのプラグインを買収したりと悪戦苦闘していました.今では,個人ユーザーをある意味切り捨てクラウドに移行したので,このジレンマから逃れたように見えます.もはやAdobeは純粋なソフト会社とはいえないので,このような業態変化もしやすかったのでしょう.
さて,この地味な新機能の中では,「複数のファイルの読み込み」がおそらく一番目立つ新機能です.スクリプト系の言語を使った別の手段でも可能ですが,そういった知識のない人には特にありがたい機能で,実際,以前から要望は強かったと聞いています.また,「再コード化の機能追加」として簡単な名寄せ機能が実装されましたが,その他のテーブル周りの基本機能の改良,例えば,データクレンジングに計算式が使いやすくなったり,仮想結合の細かい機能追加をみていると,今後のJMPはSASのような上位に頼らないスタンドアローン化を向いているような気がします.Pythonとの連携はαテスター中に試そうと思いつつ時間がなくできなかったので知りませんでしたが,Mac版は非対応のようです.Mac環境でもHomebrewのような優れたパッケージマネージャーがありますので,(初心者でもPythonのようなソフトのインストールの難易度が下がったこともあり)ぜひとも次のバージョンでは(JMP15と言わずに)実装をお願いしたいところです.デモではPythonの機械学習の結果をJMPに取り込んで表示されていました.Pythonの機能をJMPのGUIで使うという流れですが,私にはむしろ逆にPythonでデータ前処理を自動化して,それをJMPの対話型データ分析に持ってくるという流れのほうが魅力です.
第二部は「統計,グラフの新機能」と題したセッション.発表された技術の方は度々SUMMITでも話されていて,いつも独自データを使った面白い話をしてくださるのですが,「SHASH分布のあてはめ」のところなど今回も聞いていて面白い内容でした.いろいろとアイテムがあるなかで私が注目したのは,グラフビルダーに統計機能が実装されたことです.今までも相関係数くらいは表示できましたが,JMP14では層別分析ができるようになったり,箱ひげ図の5数要約の表示や,なんと1サンプルt検定まで実行できるようになりました.わざわざグラフビルダーで統計分析をする意味があるのかと問われれば,返答に窮しますが,わたしは今後のJMPの方向がグラフビルダーをコアにしていくような気がしています.JMPは歴史のあるソフトなのでノスタルジックな昭和のGUIとWeb前提の平成のGUIとが混在しています.例えば,ジャーナルとかIshikawaダイアグラムなどが典型的な前者ですね.パーティションなども古さを感じます.これらの素晴らしい機能がグラフビルダーのような現代的なGUIとうまく融合していってくれればいいなと願っています.それにしても,待望のテキストエクスプローラの日本語対応ですが,JMP Proに実装された機能はおもしろいですね.計量書誌学(Bibliometrics)という学問分野がありますが,JMPでこんな 分析ができるのだとすれば胸熱ですね.(情報知識学会誌に掲載された論文がPDFになってます.)
第3部は「実験計画,品質と工程の新機能」でした.産業分野向けの機能ですが,少なくとも実験計画ではマイナーな改良が二つあるだけです.一つは以前このブログでも書いた記憶があるのですが,カスタム計画のA最適基準が新設されたことと,もう一つは「DSDのあてはめ」で二次項に対する弱い親子関係で変数選択できるようになったことです.今日は時間になったので,これらについてはまた後日この場でお話ししたいと思います.親子関係って?人はしばしお待ちを.それでは.
タグ:JMP
posted by Tad at 19:00| Comment(0) | TrackBack(0) | JMP

2018年05月05日

常識を疑う(追記あり)

追記
数式の修正に漏れがありました.下記でsとあるのは全てsの二乗に読み替えてください.定義の問題と逃げることもできますが,通常sは標準偏差を意味するので,ここは正直に間違えましたと白状します.前回の記事にも修正をいれておきました.この公式は覚える必要もない類のものなので,混乱させてしまったら申し訳ないです.JMPを使うならば導出できなくても全く問題ない類の数式ということも改めてお伝えしておきます.
追記ここまで

先週の投稿で数式にタイプミスがありました.明らかな添字の間違いに気づかず申し訳ございませんでした.ブログのコメントで指摘して頂いたのですが,ちゃんと数式にまで目を通していただいたことに感謝します.さっそく修正しておきました.承認しないでよいとのことでしたので,頂いたコメントは公開しませんが,コメントで指摘してくださった方,どうもありがとうございました.
コメントとしてときどき質問は頂くので,ここに誰も来ていないとは思ってはいませんでしたが,わざわざブログ記事を読んでいる人がいるのだろうかと,ときどき思っていたところなので素直に嬉しいです.書籍のサポートブログとして開設して,一年は何らかの投稿を続けようと思っていましたが,ネタが続く限り,読んでくださる人がいるならば続けようと思いをあらたにしました.幸いネタはどんどん増えていっているくらいなので,今のペースであればなんとかなりそうです.そういえば去年の今頃は「統計的問題解決入門」の執筆中でした.あのときと同じく,鶯の鳴き声が今もしています.
ということで,MathTypeを起動したついでに今週のネタを変更して,先週の数式について少し説明を加えます.(以下では先週定義した記号を使いまわします.)例にあげたのは二つのサンプルの平均の差の標準誤差についての公式でした.(この式にタイプミスがあったわけです.)
F1.png
平方根内の右側については先週の説明でわかると思うので,左側を導出します.即ち,2サンプル共通の不偏分散σ^2が次式で示されることを証明します.プレビューを見て気づいたのですが,以下の数式では画像の解像度を低くしてしまったようで読みにくくてすいません.
2.png
ここで,2サンプルをまとめて1つのサンプルとみなしたときの平方和SSを考えると,σ^2は次式で表せます.
3.png
ここでSSはサンプル1の平方和SS1とサンプル2の平方和SS2を合わせたものですから
4.png
となることは容易にわかるでしょう.SS1は次式のようにサンプル1の標本分散s1をN1倍したものであることが証明できます.
5.png
SS2も同様なので,SSは次のようになり,これで最初の式が証明できました.
6.png
母分散の不偏推定量として不偏分散をサンプルサイズから1引いた数で割ったものと覚えているだけでは,上記の証明で2サンプル共通の平方和と不偏分散との関係を理解するのが難しいかもしれません.ここでは自由度という概念を境にしたフレームワークが存在します.
このフレームワークを意識するということは常に心掛けています.例えば,数式が初見でフォローできない場合には,まずフレームワークに照らし合わせ,それを超える必要があるかを自らに問うことにしています.そしてフレームワーク内にあると考えたならば徹底的に突き詰めますが,それがフレームワーク外であればまずは素直に受け入れることにしています.
数式ならばそれでいいけれど,疑問と一緒にしていいのかと質問されたことがあります.たしかに,Feynman先生の教えとして「持ってよい疑問」と「持ってはいけない疑問」とがある,ということについてお話ししていて,字面を読むだけではミスリーディングを誘うかもしれません.PHPサイエンス・ワールド新書という新書シリーズがあるのですが,その表紙にEinsteinの言葉というかQuoteが書かれています.”The important thing is not stop questioning.”
このEinsteinの言葉は,自らのフレームワーク内で常に疑問を問い続けよと限定してとらえるよりも,フレームワーク外に疑問を見出してその疑問をいつの日か解明する志を抱けというメッセージとして捉えたほうがロマンがあります.一見するとFeynman先生の言葉と矛盾するようにも思えますが,わたしがFeynman先生の言葉を引いたのは,問題解決の場という学習のコストを意識しなければならない状況を意識してのことです.学習のコストという意味では独学する場合も似たような状況がある考えています.
山口周,『知的戦闘力を高める独学の技法』,ダイヤモンド社というビジネス書があります.書かれている内容がやや抽象的で,参照している例に?なこと(ベートーベンがモーツァルトの弟子だったと断言していたりとか)が多々あり,書籍そのものはお薦めするか迷うところですが,イノベーションについて良いことを言われています.(そもそもこの著者はよい本を書くお方なので,本書では同じエピソードが二度出て来たりして,編集が雑という感じです.)

以下引用
ここに、よく言われる「常識を疑え」という陳腐なメッセージのアサハカさがあります。イノベーションに関する論考によく見られる「常識を捨てろ」とか「常識を疑え」とかいった安易な指摘には「なぜ世の中に常識というものが生まれ、それが根強く動かし難いものになっているのか」という論点についての洞察がまったく欠けています。「常識を疑う」という行為には実はコストがかかるのです。(中略)重要なのは、よく言われるような「常識を疑う」という態度を身につけることではなく、「見送っていい常識」と「疑うべき常識」を見極める選球眼を持つということです。
引用ここまで

わたしが言いたかったのはまさにこのことです.「常識を疑え」という陳腐なメッセージのアサハカさとまで言っていただいたのは痛快でした.私のことばで言い換えると,「常識」にはフレームワーク内のものと外のものがあって,両者を混同してはいけない.疑っていいのはあくまでもフレームワーク内の「常識」であって,そのためにはフレームワークがどこにあるかを意識する力が必要である,ということです.その力をどうやって養うのかについてはまた別の日に.
それでは,また.
posted by Tad at 19:00| Comment(0) | TrackBack(0) | 統計的問題解決