UA-115498173-1

2018年06月16日

シンギュラリティなるもの

今の時期はいろいろな会社のカンファレンスが目白押しで,先日もIBMの統合イベントに参加してきました.去年まではクラウド系のイベントとWatson Summitという別のイベントを分散して開催していました.クラウドあってのWatsonで参加者も被るでしょうから自然な流れとはいえます.私自身はクラウドでシステムを構築するような仕事はしませんが,コンサルテーションでときどきこういった知識が必要になることもあります.前日にはデベロッパー向けのイベントも開催されて,私もその端くれとして参加しました.IBMはデベロッパーを育て,スタートアップ企業を支援する懐の深い会社と毎度のように感心します.今年はこれらのイベントを「Think」というキーワードのもとに一つに統合しました.
Thinkと言えばIBMがThinkPadをレノボに売却したのが2005年,あのときから今のクラウドの時代を見据えていたとすれば,先を予測することがいかに重要性なのかがわかります.とはいえ,7年間にわたって米IBMと一緒に仕事していたわたしにとって,昔のIBMが変わっていくのは寂しい気もしています.少し前に当時の同僚というかルームメイト(あちらでは執務環境として個室あるいは2人部屋が与えられていました.)と連絡とりあったら,彼はもう半導体には関わっていないでIT関連のマネージャーをやっているとのことでした.
少し前にBOXのイベントもあってそちらにも参加してきたのですが,そこにIBMが出展していたので「呉越同舟」なのではとも思いましたが,聞けばIBMはプライベートクラウドとパブリッククラウドとをわけて考えていて,それらを統合したハイブリッドクラウドが自社の強みと考えているようです.確かに大企業では既にクラウド上で構築したシステムが稼働しているでしょうし,セキュリティ面でも現実的なソリューションだと思います.
基調講演はこの4月に社長になったばかりのエリー・キーナンさんからスタートしました.前のポール与那嶺さんは米国籍の日系三世とのことで日英語ネィティブなので流暢な日本語で話されていましたが,キーナンさんは英語です.とはいえ大変聞きやすい英語で,しかも話し方がうまいですね.その後に登壇した某日本企業の講演が原稿を読んでいたのに比べると対照的でした.BOXのCEO兼共同創業者のアーロン・レビーさんの講演も自分の言葉で話していることがよくわかりました.何よりもお二人のスピーチは勢いがありました.これに比べると,日本人の講演はリズムが感じられません.自らの話し方についても反省するところあります.
セッションの講演内容はここでお話しするには少しズレているのでやめておきますが,一つだけ言及しておきます.電気通信大学大学院 人工知能先端研究センターの坂本真樹先生の「AIの進化・ビッグデータ活用がもたらす近未来予想」に興味があり,会場もキャンセル待ちが出るほど人気だったのですが,一般人向けの市民大学講座というような内容で,あのイベントにくるレベルの人には少し物足りない内容でした.第3次AIブームとかはどうでもいいので,ご自身が研究されている「感性」に関するお話を中心にして下さったほうが面白かったと思います.気になったことが一つ.シンギュラリティを説明するくだりで,AIが人間を超えるとかAIによって職を失うとかの危機感をあおるマスコミ論調が垣間見えたことが気になりました.
シンギュラリティは特異点ですが,この文脈で使うシンギュラリティはレイ・カーツワイルが使いだしました.この人,神出鬼没というか得体のしれない天才です.その昔,わたしが入社して初めてのボーナス(+α)で買ったのがKurzweilという電子ピアノでした.Kurzweilはカーツウェルと呼ばれていたので最近まで気付かなかったのですが,Wikiによればなんでもカーツワイルさんがスティービー・ワンダーに乞われてKurzweilの電子ピアノを開発したのだそうです.YAMAHAやRoland,KORGでなく,なぜこのメーカーのものにしたかと言うと,圧倒的にピアノの音質が良く,しかも鍵盤のタッチが生ピアノに大変近かったからです.このKurzweilが故障して修理してくれたサービスマンにMacintoshを勧められて,それ故にJMPユーザーになって今に至るということを思い起こせば,カーツワイルさんがいらっしゃらなければこのブログを書いていることもなかったかもしれません.
私は自分のセミナーでもAIの話をすることがありますが,そこでシンギュラリティの話は避けて通れません.そこではシンギュラリティ(技術的特異点)とはAIが人間の知能を超える時点(2045年とされています)であるというマスコミの論調は間違いであること,正しくは人類の能力が無限大になる(特異点)であって,それにより生物的進化速度を技術(AI)で加速することなのだと言っています.著作をよむと彼は非常にオプチミストとわかりますから,AIは人類に明るい未来をもたらすものであって脅威にはなり得ないとお考えでしょう.Ray Kurzweil(2005),The Singularity Is Nearにはシンギュラリティ以降の世界として,脳のスキャンによるデジタル化とかナノボットで臓器が不要になるとか現時点ではSFの技術が出てきますが,五感全てを組み込んだ完全没入型のVRというのは最近ではSFとも言えないようになってきました.人間は騙すのは簡単ですから.
人間とAIの競争という点で言えば,人間がAIに囲碁で負けたと聞いて驚いても,人間がF1マシンに100m走で負けたと聞いて驚きますか?という点につきます.いわば負けるのが当たり前と思います.但し,消費電力は人間の脳が20WでGoogleのアルファ碁が25万Wといいますから,単位電力当たりでは間違いなく人間の勝ちです.最近はボタン電池で稼働する低消費電力マイコンなどもありますが,20Wでは一手指すのにどれくらい時間がかかるのか.名人戦のリーグ戦では5時間ある持ち時間もNHK杯戦では「なし」ですから.AIが電気的なスイッチでなく,人間の脳のような化学的スイッチを採用したコンピューターに実装されれば,そこらへんも変わってくるかもしれません.けれどこのときは,人間並みの遅さになるように予想します.もちろん,今の人間の脳が最適解というわけではないのですが..
私のセミナーでは,シンギュラリティにはじまって強いAI(あるいはAGI)へと展開し,今の時代の技術者はどうあるべきかをお話ししているのですが,今日は時間になったので,そのうちここで書こうと思います.
本日は完全に無駄話でした.それでは,また.
posted by Tad at 19:00| Comment(0) | TrackBack(0) | 雑記

2018年06月09日

なぜ系統的レビューに仮説検定は向かないのか?

先週の続きです.といっても,あの報告書には例の系統的レビューの詳細には触れられていないことが判明したので,続きは書けません.一般的に仮説検定の結果を系統的レビューに含めるのはやってはいけないとされています.もしも,ナラティブな研究をレビューしたのであったとしても,せいぜい表として提示するくらいにとどめておくべきで,それらを棒グラフ(即ち,量的な比例尺度の数値としての視覚化)にするのはやりすぎのような気もします.あの報告書からはそのへんがどうなのかは読めません.厚生労働省が背後についている研究会ですから,統計に詳しくない人々を黙らさせるために,あのような権威に裏打ちされたデータを提示したのかもしれませんが,いずれにせよ(禁煙派だけに)誤解を招くグラフなのは残念です.レビュー対象の論文を読んでいないのでこれ以上の言及は避けます.
ところで,系統的レビューの対象として仮説検定による研究が向いていないという理由は,例えば,こんなことを考えてみればわかります.タバコ産業関連以外の研究では「差がない」ことを示した研究が多いわけですが,その際の検定のロジックはすべての研究で同じであったのでしょうか.帰無仮説が棄却できなかったわけですから,そこから事後検証として検出力分析に移った研究もあるでしょうし,あるいは最初からJMPを使って「同等性の検定」を実行した研究もあったかもしれません.いずれにせよ,研究の取り組み方によって効果量をどのように見積もったのかが異なってくるはずです.おそらくレビュー対象となった研究には一つとして同じものはないのではないでしょうか.その他にも,有意水準,サンプルサイズ,検出力(これと関連して母分散)など,仮説検定にはその前提となった意識的,無意識的な条件が数多くあります.系統的レビューは一つ一つの研究報告がデータになるわけですから,それらから定量的な結論(例えば棒グラフ)を導くには本来は実験計画によるべきです.このような多数の因子に影響されるデータをモデリングする場合,サンプルサイズが大きければ多変量解析の手法も使えますが,86論文では微妙なところです.しかも共変量がないことを前提としますが,この場合それもちょっと怪しいです.
因みに,JMPでは「同等性の検定」実行すると「等しいと見なす量」Difference considered practically zeroを聞いてくるだけなので,右側と左側で検定を実行しているだけのようです.これは非常に現実的かつわかりやすい手法と思います.一般的には効果量を見積もってa posteriori(事後) 的に検証するわけですが,これがわたしにはどうも曖昧です.効果量は対立仮説が明確に定義できるという特殊な状況でのみ意味を持つように思うからです.ましてや,差がないことを確認したいのに,その効果を見積もらなければならないというのは抵抗があります.効果量がわからなければベータリスクは計算できず,従って検出力もわからないわけです.
しかも,効果量にもいろいろ定義があってCohenのdとかHodgesのgとかが有名ですが,他にも二つのサンプル間の相関を補正したものなど様々な指標があります.社会心理学の学会誌のBASP(Basic and Applied Social Psychology)がp値を使った研究の投稿を受け付けないと発表したのをきっかけとしてでしょうか,仮説検定という手法には逆風が強い昨今です.以前と比べて効果量に言及した論文が増えてきているようです.
わたしはBASPの決定について少し疑問に思うところがあります.ある会社でカッターを使用中に怪我をした人が出て,以降その会社ではカッターの使用が禁止されてしまったそうです.カッターというツールで怪我をすることを心配するならば,それを必要とする行為がなくすか,まずは怪我をしないようなツールの使い方を徹底させるべきです.そうでないとハサミで怪我をすることになります.
BASPのp値禁止例は苦渋の決断であったことが文面から読み取れますが,ここに書いてある代替手法を使ったとしてもすべてがクリアになるわけではありません.このQ&Aに書いてあるように,信頼区間もダメでベイズも積極的にはすすめないということであれば,何を使えばいいかというとstrong descriptive statisticsとのことです.そしてこの中に効果量の算出も含まれると.サンプルサイズが正義というのは社会心理学的にはそうなんでしょうけれど,少ないサンプルで開発をしていかなければならない技術者の立場からは違和感があります.社会心理学であっても,サンプルサイズを大きくするには費用もかかるのでそれこそスポンサーの有無が研究結果に影響を及ぼすことになりかねません.p値のかわりに効果量を使うだけならば,カッターを禁止されてハサミで怪我をすることになるだけではないでしょうか.
昨今のp値をめぐる議論については,わたしは技術者の立場からは以下のように考えています.従来通りp値で検定して,その結果を効果量で検証して両者の結果が食い違ったならばそのことを明確に報告し,必要であれば追加で実験をする.その際に,仮説検定のロジックは完璧に理解しておくべきです.心理学と違って技術者があつかう問題は通常シンプルです.素直な仮説検定が有効に使える事例も間違いなくあります.他の分野では「仮説検定は使いものにならないから禁止する」というのはある意味正しいのかもしれませんが,そういうノイズに惑わされることはありません.その上で,仮説検定は主観的な意思決定のツールなのだという認識が必須です.主観的に許容するType Iエラーとして有意水準をスタートに置くのだから,たとえ「差がある」「差がない」という定性的な判断であっても,そこに主観が入り込んでくるのは避けられないのはむしろ当然ですよね.
思いついたことをそのまま文章にしているので,なんかまとまりなくてすいません.それではまた.
タグ:統計学 JMP
posted by Tad at 19:00| Comment(0) | TrackBack(0) | Stat Spotting

2018年06月02日

サンプルサイズ1で予測する先が読めていない一部の人々

先日,何かの拍子に「Stat Spotting」を検索したところ,日本語ページではここがトップに上がってきて驚愕しました.ジョエル・ベスト(2011)『あやしい統計フィールドガイド』,白楊社では,スタット・スポッティングとカタカナ表記であることが,本家を差し置いてしまった要因と思われますが,そもそも日本語では馴染みがない言葉だからということも理由の一つにあるのでしょう.
このブログでもカテゴリーに登録したもののなかなか記事が書けないStat Spottingですが,実はネタはゴロゴロしてはいるのですが,それらを題材にして記事を書くのはなかなか難しい面があります.それはなぜかというと,基本的にクリティカルな考察に基づくので,誰か(たとえそれが法人であっても)を批判することに繋がってしまうからです.しかもこちらは後出しジャンケンで有利ですから卑怯な真似はしたくない.いえ,別に戦っているわけではないんですけど.
そいうわけでオリジナルの論文にも目をとおしたネタがいくつもあるのですが,掲載を控えております.そんな中,最近目にしたのがこちらの記事です.
大西英男議員の事務所から受けた、受動喫煙記事への抗議に対する回答最初にいっておきますが,この記事を批判するわけではないです,これをきっかけとしてあることを言いたいだけです.この記事はダイヤモンド社の書籍オンラインの連載の最新のもので,いつかここでも紹介した中牧先生と津山先生との共著である『「原因と結果」の経済学』がテーマです.お読みになっていただければわかりますように,受動喫煙について衆議院議員とやりとりした経緯が書かれています.著者が受動喫煙規制推進の立場で,議員がそれに待ったをかけている側です.疑問4のところに出てくる「「自分の周辺エピソード」で政策を形成する前時代的な一部の国会議員たち」という表現はうまいですね.わたしなら「サンプルサイズ1で予測する先が読めていない一部の国会議員たち」とでもいいましょうか.
受動喫煙防止に関する議論を深めることは公益に資するというのは全くそのとおりと賛同します.とはいえ,このブログではその議論には踏み込みまず,「疑問1 受動喫煙規制で売上が下がった飲食店の意見は無視か」について言及します.この論点では,受動喫煙対策を推し進めると飲食店の売り上げが減るのではないかという仮説の検証がポイントになっています.実際,この議員の言うように売り上げが減ったお店もあったのでしょうか.そういうクレームには「そんな小サンプルのデータからでは何もいえません.」と返せばいいのですが,真面目にIARCによる系統的レビューの結果を紹介してくださっています.
更に,別の先生がこのレビューにタバコ産業との関連性という因子を導入して視覚化したグラフも掲載されています.このグラフがStat Spottingの双眼鏡の中に入ってきました.このグラフによれば,タバコ産業に研究助成を受けている研究結果ではタバコ産業に都合の良い結論が多いのは間違いないようです.この手の研究が食品業界に多いのはよく知られています.事実,アメリカに住んでいたときに**は健康に良いという類のときにとんでもニュースを度々目にしました.そういうニュースのソースはその食品業界の企業がスポンサーとなっていたり,あるいは自社の研究であることも批判されていました.とはいえ,このこととは別にして,アメリカの企業には社会に貢献するという意志が感じられるのは,素直に素晴らしいと思います.(もちろん,データの捏造はしていないということが前提です.)統計学でも有名なジョージア工科大学には当地の有力企業であるコカ・コーラがスポンサーになっている講座があると聞きました.だからといってコカ・コーラが健康に良い(胃閉塞の治療に使われているとどこかで読んだ記憶があります)などという研究と関係があるのかは不明ですけど.
念のために言っておきますが,わたしはタバコが苦手です.その昔新幹線に喫煙車両があった頃には喫煙車両の隣の禁煙車両も避けていたくらいです.(今でもわざわざ喫煙室から最も離れた席に座ります.)このため,乗れる号車が少なかったので苦労しました.こんなことを申しますのも,これからこのグラフに疑問を呈するので,喫煙者と思われるのが心外だからです.この系統的レビューのグラフの解釈に違和感を感じています.わたしには,このグラフから「質と中立性の高い研究のほとんどが、受動喫煙規制が売上に与える負の影響はないと結論付けている」とは言えないように思えます.タバコ産業の助成を受けた研究であってもデータの捏造まではしていないとすれば,このグラフから言えるのは「研究結果はスポンサーとの関連性という因子の影響を大きく受ける」ということに過ぎないのではないでしょうか.WHOの研究所で「厳密で科学的な方法」と認定された研究ですから,タバコ産業の関与があったとしても質的には高い研究であるはずですし,中立性という点ではタバコの健康被害を懸念する研究者の研究も中立ではないでしょう.(良い方向とはいえどもある意味でバイアスしているので.)
このようにグラフにしたことで視覚的に訴える力は強力なので,このような見せ方をするならば,系統的レビューの統計手法に焦点を当てたメタ分析にまで突っ込むべきと思います.オリジナルのIARCによる系統的レビューがどちらかというとナラティブなレビューに留まっているのはなぜか.例えば「有意性」という言葉は一箇所しか出てきません.このグラフだけでは,一次研究の統計手法にまで立ち入って新たにメタ分析をしたものなのか不明で,この記事ではそこには触れられていないので,おやっと思いました.
ここからはこの記事を離れてあくまでも一般論ですのでご注意ください.そもそも「厳密で科学的な方法」により導出された結果にどうしてこのような大きな違いがあるのでしょうか.系統的レビューやメタ分析の対象となる一次研究ではその多くに仮説検定が使われています.仮説検定はもちろん科学的なデータ分析の手法ですが,メタ分析の素材としては不向きなのです.というのも,ご存知のように有意水準の設定によって結果はいかようにも変えることができるからです.(誤解のないように言っておきますと,実験後に有意水準を変えるのはもちろんご法度ですが,実験前に予め意図的により厳しくあるいは緩く有意水準を決めるのは合法です.)有意水準であれば,まだ0.05というしきたりを踏襲することで結果に普遍性をもたらすことはできるかもしれません.特定の研究分野で有意水準が慣習的に定まっているケースとして,素粒子物理では有意水準は3x10^−7といいます.ノーベル賞候補の研究だと騒ぎになって,実は間違いでしたでは済まされないからなのでしょうか.
しかしながら,有意水準はまだしもサンプルサイズはすべての研究で揃えるわけにはいかないでしょう.例えば,t検定ではt値の分母は標準誤差ですからサンプルサイズのルートに反比例します.サンプルサイズを大きくすれば有意性が出しやすくなるといわれる所以です.とはいえ,こういうことをもっともらしくいう人は実務を知らないのかもしれません.実務ではサンプルサイズを大きくすると様々なノイズが混入してきやすくなり,それらが有意差を見えにくくするという影響もあるので,サンプルが大きければどんな有意性でも出せてしまうというのは言い過ぎと思います.平均の回帰という統計現象も考慮すべきという説もあります.技術者としては,サンプルサイズが少ないと有意差が出せないことのほうを危惧すべきです.タバコの例でいうならば,むしろ資金の少ないであろう中立の研究で必要な検定力に足るサンプルサイズがあったのかを確認すべきです.
技術者の場合,その検定結果を使って意思決定するのは自分ですから,有意水準にせよサンプルサイズにせよ二種類の過誤を自ら引き受けて決めればいいのですが,社会科学における検定ではその覚悟は研究の立場によって変わってきます.例えば,受動喫煙の健康被害を食いとどめるという志の高い研究者であれば,(有意差を示したくない研究では)ベータリスクが大きくなることを覚悟してアルファリスクを小さくするでしょう.結果としてタバコ産業に厳しい結果になるはずです.タバコ産業に支援を受けている研究者であれば,もしかしたらベータリスクが大きいことのほうを気にするかもしれません.このように厳密に科学的な手法であっても,仮説検定にはそこにある程度の分析者の意思(決意)がはいってくることは避けられないので,それらの総意をメタ分析として抽出するのはよろしくないのです.
社会科学的な実験では,サンプル抽出においても非サンプリングエラーを皆無にするには極めて困難です.(調査を覆面でやったりするとか,低減する手段はいくつもありますが,そうなると回収率が悪くなるとかの問題も出てきます.)このような実験デザインにも研究者の熱意というパラメーターが入ってきます.例えば,その熱意が人々の健康のために向くか,スポンサーのご機嫌とりに向くのかによって検定の結果が変わってしまう.ですが,どちらも厳密に科学的な手法による結論には違いありません.
何が言いたいかというと,系統的レビューにおいては,すべてのデータを統合して結論を導くのが基本だと思うので,タバコ産業との関係のありなしで研究を層別化するのは,趣旨にはずれているのではないか,ましてやそれらをはずれ値として除外して結論を出すのは,わざわざ系統的レビューをする意味がないように思います.このことは一次研究に検定が採用されていなくても言えることと考えます.更に,一次研究が仮説検定であって,それらのメタ分析をするならば,それぞれの検定手法の詳細(サンプルサイズや有意水準)が明らかになって,それが異なっている場合は何らかの調整が必要です.あるいは,近年では効果量をベースにしたメタ分析を実施することが一般的になっています.連載記事にはこのグラフの引用先が書かれているので,行ってみると「厚生労働科学研究成果データベース」の「たばこ規制枠組み条約を踏まえたたばこ対策に係る総合的研究」がソースらしいのですが,この報告書はお役所特有の分割されたPDFになっているので,パッと見では探せませんでした.
というわけでこれからこの報告書を読んでこのグラフの背景について調べてみます.とはいえ,時間がかかりそうなのでこの続きはまた来週.それでは.

追記:引用元にちゃんと書かれていました.「分担研究報告書2-2」にこの図があるようです.これから読みます.
タグ:統計学
posted by Tad at 19:00| Comment(0) | TrackBack(0) | Stat Spotting

2018年05月26日

Tukeyのヒンジ

前回のコラムで指摘しましたように,指導要領は時代とともに変化しているので,会社側ではその変化に対応して教育内容を変えていく必要があります.今までも高校で統計は教えられてきたのですが,今回それがパワーアップするというので,具体的に何が変わるのかと「高等学校学習指導要領(案)」に目を通してみました.それによると,数学Iで「具体的な事象において仮説検定の考え方を理解すること。」,数学Bで「正規分布を用いた区間推定及び仮説検定の方法を理解すること。」 と書かれていますが,どの程度まで仮説検定に踏み込むのかは不明です.実際,「高等学校学習指導要領解説 数学 統計関係部分抜粋」の「確率分布と統計的な推測」の項には,仮説検定という言葉は出てきません.とはいえ,標本調査では母集団の平均値を推定することを学ぶのでしょうから,少なくとも検定の入口はほぼ全ての高校生が学ぶことになるのは間違いなさそうです.
興味深かったのは,この6ページの文書の中に「コンピュータ」という言葉が5箇所に出てくることです.例えば,数学Bに「目的に応じて標本調査を設計し,収集したデータを基にコンピュータなどの情報機器を用いて処理するなどして,母集団の特徴や傾向を 推測し判断するとともに,標本調査の方法や結果を批判的に考察する こと。」とあります.昨年のSUMMITで米国から高校生のポスター参加がありましたけど,米国のように日本でも高校生がJMPを使うなどということも珍しくなくなるかもしれません.
統計教育を重視するという方針そのものは大歓迎ですが,あくまでも数学としてその枠組みの中で教えられることになるので,一つ気になることがあります.小3の算数テスト『3.9+5.1=9.0』が減点された! 採点の理由に議論勃発 という記事のもとになったkennel(@kennel_org)さんのTweetも話題になりました.この子の使っていたという東京書籍の公式見解は,9という解も間違いではないということですが,減点した先生も間違いではないという玉虫色の見解です.算数の能力をテストするのではなく,教えたことをどれだけ覚えているかをテストしているということなのでしょう.統計ではこのような教育は混乱を招きます.統計には算数よりも曖昧な部分が多いからです.例えば,三重大学の奥村先生が指摘されているように,中学数学で教える四分位数の定義が一般的なものと異なっているようです.今回の改定で中学生2年性で箱ひげ図を習うようになるというので,「中学校学習指導要領解説 数学編」 を読んでみました.
ここに書かれている定義では.例えば第一四分位数はデータ全体のメディアンより小さいデータ部分の更にメディアンとして定義されています.データを三つの四分位数と最大・最小との5個の特徴量で記述し,それをもとに箱ひげ図として可視化する手法を考案したのは探索的データ解析(Exploratory data analysis)で有名なJohn.W.Tukey(ジョン・テューキー)ですが,いわばご本家のTukeyの定義とは確かに異なっています.両者ともメディアンを境にしてデータ列を上半分と下半分に分割することまでは同じですが,Tukeyの定義ではメディアンを分割したデータに含めるのに対し,文科省の定義では含めません.因みに,この定義は実際にはMoore and McCabeの定義と呼ばれるもので,文科省はそれを採用したに過ぎません.
これらの定義は人間に理解しやすいという特徴はありますが,その必要がない統計ソフトではまた異なる定義をもとに計算されます.おそらく授業で使われることが多いであろうエクセルには,2010年のバージョンから四分位数を返す関数がQUARTILE.INC関数とQUARTILE.EXC関数との二つに増えました.両者ともにパーセンタイルから四分位数を,例えば,25パーセンタイルを第一四分位数として導出しますが,サイズnのデータのqパーセンタイルを計算する際に,開区間(0,1)に対して求めるか閉区間[0,1]に対して求めるのかというだけの違いで,ちょうどそれぞれTukeyの定義とMoore and McCabeの定義とに対応しています.具体的には,QUARTILE.INC関数ではから,QUARTILE.EXC関数ではから求めるという違いになります.この違いはデータサイズが大きければ無視できますが,サイズが小さい場合は,QUARTILE.INC関数による第一及び第三四分位数はQUARTILE.EXC関数によるものに比べて中央値に寄ることになるので,後に説明する四分位数から定義される外れ値にシビアになります.因みに,QUARTILE関数も実装されていますがこれはQUARTILE.INC関数と同じもので,過去のマクロとの互換性を保つために残されたものです.
試しにJohn W.Tukey(1977), Exploratory Data Analysis, Addison-Wesleyで使われているオリジナルデータ[-3.2, -1.7, -0.4, 0.1, 0.3, 1.2, 1.5, 1.8, 2.4, 3, 4.3, 6.4, 9.8]で確認してみます.このデータに対して中学校では,第i四分位数をQiで表しますと,[Q1=-0.15, Q2=1.5, Q3=3.65]と教えられることになります.「3.9+5.1=9.0」のときとも違い,教えた通りに答えることを正解とするのであれば,これ以外の答えは不正解です.同じデータの四分位数を箱ひげ図の考案者のJohn W.Tukeyは,[Q1=0.1, Q2=1.5, Q3=3]と答えるでしょうし,エクセルを使えば,QUARTILE.EXC関数では[Q1=-0.15, Q2=1.5, Q3=3.65]ですし,QUARTILE.INC関数では[Q1=0.1, Q2=1.5, Q3=3]となるでしょう.
そしてJMPerであれば「1変量の分布」によるレポートを見ればいいわけです.出力結果は[Q1=-0.15, Q2=1.5, Q3=3.65]ですから,一見して文科省の定義に準拠しているかにみえますが,これはたまたまなので注意してください.試しに上記のTukeyのデータに-5を加えた次のデータで確認してみます.
[-5, 3.2, -1.7, -0.4, 0.1, 0.3, 1.2, 1.5, 1.8, 2.4, 3, 4.3, 6.4, 9.8]
文科省定義では[Q1=−0.4,Q2=1.35,Q3=3]となりますが,JMPのレポートでは[Q1=-0.725,Q2=1.35,Q3=3.325]になります.
JMPでの四分位点の定義はマニュアルのP72に書かれています.これによればJMPの四分位数の定義はQUARTILE.EXC関数と同じです.例えば,第一分位点は25%点のことですから,上のデータの場合,3.75となります.3.75番目の数が第一四分位数Q1となるわけですが,これを3番目の−1.7と4番目の−0.4とから比例配分で求めます.即ち,Q1 = -1.7 x 0.25 + -0.4 x 0.75 = -0.725となります.
このように単純な概念である四分位数にもいろいろ定義があるのです.おそらく文科省の定義は教えやすさを優先したのでしょうが,Tukeyの元祖四分位数も同じくらいには単純です.四分位数の定義が乱立している謎を解こうと文献を調べたら,この辺についてまとめてくださっている先生がいらっしゃいました.California州立大学のEric Langford先生が投稿された論文 Journal of Statistics Education Volume 14, Number 3 (2006)でHTMLでWEBでも読めます.Quartiles in Elementary Statistics この論文によればなんと15の定義が示されています.この文献のMethod 3がテューキーの定義で,この定義はMethod1と実質的には同じ数値を返します.文科省の定義はMethod 2で,Method 12がExcelのQUARTILE.INCに相当するものです.JMPの定義はMinitabと同じとのことで,Method11になります.この論文が出版された当時は存在しませんでしたが,エクセルのQUARTILE.EXCもMethod11に分類されます.
このように一つの用語に無数の定義があるなどというのは他の学問分野では珍しいのではないでしょうか.一つには,統計学が比較的歴史の浅い学問であるからかもしれません.Tukey先生は2000年まではご存命だったので,ジャイアント馬場のほうが先に亡くなったくらいですから私の感覚ではまだ最近の人です.(つい最近,ジャイアント馬場夫人が亡くなったので思い出しました.)しかしながら,四分位数の定義が乱立したことの背景には,実世界と紐付いていることが宿命付けられている統計学の実態があるように私には思えるのです.どの四分位数の定義であってもデータの分布を把握するという目的には些細な違いです.優劣をつけることは困難です.JMPが四分位数の定義を一つしか持たないのもこれが理由でしょう.エクセルやRのように複数の定義を実装するならばその使い分けも示されるべきです.そうでなければユーザーは混乱するだけです.
といっても,それぞれの定義で返す数値が異なるのもまた事実で,特に小さいサンプルサイズでは顕著になります.これは外れ値の違いとなって表出します.Tukeyは中央値でのデータの折り返しを蝶番に見立ててヒンジと命名したので,Q3,Q2は「Tukeyのヒンジ」とも言われています.ヒンジは厳密には四分位数ではないと,それぞれを区別する人もいますが,その話はここでは置いておきます.
Q3-Q2を四分位範囲といって箱ひげ図の箱の長さに相当し,この長さをk倍することでフェンスを定義します.箱ひげ図ではフェンスそのものは見えませんが,フェンスに囲まれたデータの最大・最小が髭の先端として示されます.Tukeyはフェンスを超えたデータを外れ値として定義しました.ですから,実務上は四分位数よりもフェンスの方が重要なくらいです.Tukeyは,このkの値を初期にはk=1とk=3としていましたが,後に k=1.5とk=3とに変更しました.ここらへんのことは下記の論文に詳しく書かれています.(David C. Hoaglin(2003), John W. Tukey and Data Analysis,Statistical Science 2003, Vol. 18, No. 3, 311–318)現在ではk=1.5のみでフェンスを定義しますが,Tukeyのフェンスは二重構えで内側をインナーフェンス,外側をアウターフェンスと定義していました.従って外れ値にもに二つの定義があったわけで,おそらく事例における使い分けを想定し,実際のデータの分布によってkの値も修正していったのでしょう.Tukeyは実務的な観点からヒンジやフェンスを定義し,外れ値を分析から除外するものとしてではなく,注目すべき対象としたことが重要です.生きたデータがあってはじめてヒンジもフェンスも,もちろんそれらのベースとなる四分位数も具現化できるものなのです.
大学生ならばともかく,中高生であればはまだ具体的な問題に対峙していないので,架空の問題を想定して統計を学んでいくしかありません.英語をいくら学校で勉強しても話せなくても,米国で生活すれば誰でも話せるようになるという事実を鑑みても,統計学の勉強はこの意味で実際の問題を抱えてからのほうが効率がよいのではないでしょうか.改定された指導要領で中高生が学ぶ統計が,実世界と分離されたものにならないことを願っています.

長くなりましたので本日はこれで.
タグ:統計学 JMP
posted by Tad at 19:00| Comment(0) | TrackBack(0) | 統計教育

2018年05月19日

桜吹雪と統計教育

少し前の話になりますけれど,連休直前に岩手県に出張で出かけました.桜の花びらがまだ舞い落ちている中を集団下校している高校生を見ながら考えたことがあります.彼らはどのように統計を教えられているのだろうかと.
問題解決のコンサルテーションをしていて,ついでに統計を教えて欲しいと言われることが増えてきました.一時のブームは去ったとはいえ,ビッグデータの流行によって人々が以前よりも統計を意識するようになったのは間違いないようです.
社会人教育の難しいところは,学生のように生徒のレベルが揃っていないことにあります.先のFeynman先生の教えにも通じますが,ここで言うレベルには個人の学習意欲や能力というよりは(もちろんそういう要素もありますけど),学生時代に学んだ知識をベースに構成されるフレームワークのことです.
どうやら高校までで習う統計の内容が年齢によって違うのだということに最近気づきました.例えば,「仮説検定」を高校時代に習った人と習っていない人がいるようなので,検索してみると,このことを紹介してくださっているブログがありました.
「あらきけいすけの雑記帳」統計の「検定」が高校数学の教程からいつ消滅したか?
ここには「結論としては、「検定」が正式に入っているのは昭和45年、昭和53年の教程で、平成元年公示の教程から消滅している。」と書かれています.
大学でも統計学は教えますが,やはり高校時代に大学受験に取り組んだ真剣さに欠けるためでしょうか,いま一つ記憶に残っていません.学部にもよるのでしょうけれど,それこそ教える先生のレベルが玉石混交なので,迷講義を引いてしまった私のような単位を取っただけという人もいることでしょう.
そういうわけで高校までで学ぶ統計が後々まで尾をひくことになりますが,自分が教えらえてきたように新入社員も教えられていると思ったら大間違いなんです.なぜならば,学習指導要領というのは変わるものだからです.
つい最近も,「高等学校学習指導要領」の改定案が公開されましたが,これについてジョゼフ・アンリさん(@joseph_henri)のTweet「ベクトルが高校数学Cに移動するので,カッとなって過去の学習指導要領から線形代数の分野を表にしてみた。」が話題になっていました.
高校数学の科目は複雑なので少し補足しておきますと,科目としてI,II,IIIとA,B,Cの系列があって,このうち数学Cは現在の指導要領では廃止されていたものが,今度復活するということになります.(厳密にいうと新旧の「数学C」は名前は同じでも中身は別物ですけれど.)このうち共通の必修科目は数学Iで,標準では文系向けに数学I,Aまたはこれらに加えてII,Bを,理系向けに数学I,II,III,A,B,Cを学ぶことになります.
となると,ベクトルを学ぶのは理系の生徒のみで,ほとんどの文系の生徒はベクトルを学ばずに大学に進むことになります.大学でも学部によっては,ベクトルって何それおいしいの?というところもありますから,ベクトルを知らない社会人なども今後は出てくるのでしょうか.ベクトルは日常生活でも「向きを揃える」というような意味合いで使われている言葉なので「チームでベクトルを合わせてやり遂げよう」なんてスローガンに一部の新人だけ伝わらないなんてこともあるかも知れません.そもそも高度な数学を駆使する経済学部が文系というのもおかしいという議論も古くからあるわけで,学問分野を文系,理系という科目構成を対応して括るのに無理があるのではないでしょうか.
ベクトルが数学Bから追い出されたスペースに統計が入ってくるというので騒ぎがより大きくなっています.統計をベクトルより重視するのは基礎学問分野の軽視だとか,数学と統計は別物として分離すべきであるとかで,今回の改定を問題視している意見もあります.これらの意見についてはいずれブログでも紹介したいと思っています.このような方々の意見もわからなくはありませんけど,少なくとも米国の高校生レベルに統計を学ぶことはこの先どのような進路を進むにも役に立つはずです.まあ,ベクトルよりも重要かと問われれば答えに困りますけれど.
一つ懸念しているのは,数学の限られた分野であるベクトルの住んでいた1DKに統計学という一家4人が住むようなものなので,少し窮屈なのではないかということです.ようするに詰め込みすぎなので,ここから「統計嫌い」な高校生がでてこなければよいのですが...2022年度(平成34年度)から実施予定とのことで,この春に小学6年生なった生徒が最初に新しい指導要領で学ぶことになりますが,どうなることでしょうか.
タグ:統計学
posted by Tad at 19:00| Comment(0) | TrackBack(0) | 統計教育