2017年08月17日

使うための統計とは

昨日に続いての呟きです.
本書のタイトルには統計的とついているので,統計が勉強できると思った人は当てが外れたら申しわけないと思っています.「統計を知らなくても,統計を使って問題解決に挑もう」という趣旨で書いた本なので,統計の説明はしていません.統計学を勉強するには時間も労力も費やさなければならないのは他の学問と同じです.統計学を日常的に使う必要のある医療関係やデータ分析関連の業務に従事されている方々であれば,それは必要なことと諦めるしかありません,しかしながら,本書が対象としている一般の技術分野の皆さんには,最初に統計学の勉強に取り組むことで息切れしてしまい,本業の勉強が疎かになったり肝心の問題解決に十分なリソースを投入できないという状況は避けてほしいのです.
それは山登りで例えるならば,アプローチ(交通機関から登山口までの行程)で体力を費やしてしまい,登頂を断念するようなものです.駅から登山口まではスニーカーで歩き,そこで登山靴に履き替えれば,登山するための体力が温存できます.問題解決という山に登る場合でも,できるだけアプローチを楽にするためにJMPを使って技術者のリソースを温存するというのが本書の提案なのです.ですから,統計を最初から説明すると,いたずらに読者の消耗を招き,本末転倒になってしまうということを懸念していました.
もちろん医療関係者に限らず,誰にとっても統計学の勉強は投資に見合うので,JMPで統計を勉強することに価値はあります.多くの書籍がありますが,いずれも統計が目的になっている視点で書かれているようです. 一方で,統計(という道具)を使うことを目的とした書籍は(少なくとも技術者向けには)そう多くはないように思えました.『JMPではじめる統計的問題解決入門』を執筆したというのはこのような理由からです.
例をあげます.以下では既に問題がきちんと定義されているものとします.例えば,カスタム計画を使って製品を最適化するには,JMPとその最低限の操作を覚えさえすれば,実験のリソースと既存の知見さえあれば十分です.どこにも統計は出てきませんし,全く統計を知らなくても問題解決は可能です.問題によっては平均とか分散といった初歩の概念は知っておいたほうが無難ですが,それさえ知らずとも問題解決できる可能性があります.本書に書いたように,カスタム計画の実験数は「最小実験数」に最低でも1を加えたものという決まりを知っていさえすれば,既存の知見をもとに実験計画が作成でき,その実験データをもとに問題を解くことができます.ここまでは,統計はJMPの処理アルゴリズムの中にあるものの,おもてには出てきません.ところが,ある程度上級者になってくると,何故+1なのかと疑問を抱くようになります.この疑問に答えるのが統計学なのです.
「モデルのあてはめ」でのパラメータ推定の検定における誤差の自由度を考慮しなければならないため,というのがその答えです.JMPの提示する最小実験数で実験すると誤差の自由度は0になってしまいます.シミュレーション実験ではない一般の実験ではデータには必ずばらつきがあるので,この状況では(方程式の数が少なくて)パラメータ推定の計算ができません.それでは+1でいいのかというと,自由度3以上でF分布に極値が出現するため,統計学的には+4が望ましいと言われています.根拠は定かでないのですが,+6とする先生もいらっしゃると聞きました.もちろん実験数は多ければそれに越したことはありませんが,簡単に実験数を増やせない状況も多々あります.統計学はその実験がどれだけ大変なことなのかとか実験に許されているリソースを知りません.最適化の結果によって得られるコストが実験のコストを上回るくらいなら,何もしない方がマシかもしれません.実験数は統計学だけでは決められないのです.そこで+1から始めてJMPの「計画の評価」をもとに横目で実験のリソースを睨みながら落とし所を見つけるというのが本書で提案している手法です.ここには(少なくとも表だっては)統計は出てきません.
いずれにしても,必要な実験数を統計学として理解するには,確率分布から始めてF分布から検定へと勉強しなければならず,勉強し終わる頃には今起こっている問題が手遅れになるかもしれません.私が実験計画で問題を解決することを優先し,統計の勉強は必要になった時点でもいいのではないかと考えるのはこのような理由からです.仮に余分なリソースがあったとしても,自らの専門分野の勉強を優先するほうが賢いでしょう.統計を知らないと,とんでもない結果を出してしまいかねないと危惧される方もおられるかもしれませんが,実戦的な実験計画ではその結果の信頼性の検証というセーフティネットが控えているので安心です.
但し,医療関係の分野では事情は少々異なります.それはこの分野では統計学が共通言語として確立されているので,それを知らないとレポートが書けないどころではなく,論文の一つも読めないからです.更には,一般の技術分野と異なって医療分野では実験計画という実戦的な手法が比較的採用しにくいという事情も関係あるかもしれません.再現実験というセーフティネットがなければ結果の信頼性は統計学に頼るしかありませんから.SASの本ですが,大橋渉(2012)『統計を知らない人のためのSAS入門』オーム社という書籍があります.本書の企画段階で出会った本で,統計を知らない人のためのとあるので,興味を惹かれて読んでみました.冒頭のマンガで主人公が先輩に「あなたは正しく統計学を理解したうえで,SASの使い方を学んだほうがいいわ」と言われます.やはりSASを使って統計を知らない人が統計を勉強するための本なのでした.SASのユーザー事例によると著者は東京医科歯科大学にいらっしゃる医療分野の先生だそうです.やはり医療分野においては統計学というのは始めに統計ありきとして必須のものなのでしょう.
他にもAmazonで「JMP」をキーにして検索するといろいろな書籍が出てきます.例えば,長田理(2016)『JMP医学統計マニュアル』星雲社内田治,石野祐三子,平野綾子(2012)『JMPによる医療系データ分析』東京図書がJMPの本で売れているようですが,両方とも医療関係者を対象として書かれた本です.そういえば,今年のDSJ(Discovery Summit Japan)でも医療関係の発表が多いのです.産業分野からの発表をもっと期待したいのですが,本書を読んで出した結果を発表してくださる方がいらしたら嬉しいのですけれど.

それでは.

2017年08月16日

Amazonでの「内容紹介」について思うこと

『JMPではじめる統計的問題解決入門』がAmazonに登場したとしばらく前に書きましたが,そこに掲載されている内容紹介は以下のとおりです.

JMPを使った「仕事の流儀」の入門書!
実務に使える強力なアドインを初公開!
本書は、「消化の仕組みが理解できていなくても美味しく食事ができるのと同様、統計を理解できていなくても統計を使ってその恩恵にあずかることはできる」という考えの基、JMPによる統計的データ分析の方法を解説します。
JMPの入門書でもありますが、操作手順だけではなく、「どんなときに何をどう使うのか」、「なぜその手法が必要なのか」という背後にある考え方について重きを置き、問題に対処できる応用力を身につけることができます。
さらに、本書購入者は、実務に使える強力なアドインは本書購入者を対象にSAS社のサイトから入手できます.(お申込みフォームに所定の情報を入力していただくことが必要です) 原文ママ

これは,私が書いたものではなくて,オーム社の編集の方が本書の「はじめに」を参照して書かれたようです.(一部,日本語が変なのでオーム社経由で修正をお願いしているのですが,何しろあれだけの書籍数ですから修正に時間がかかるようです.)この内容紹介ですが,間違いではないのですけど,いささかミスリーディングがあるかもしれません.
「仕事の流儀」というと,どんな仕事にも通用するビジネス一般におけるハウツー的な本のようです.現代の技術者は「今までとは違う仕事」に向き合わなければならないので,そのためには「今までとは違う流儀」に従うべきというような意味のことを「はじめに」に書いています.ある意味では「仕事の流儀の入門書」ではあるかもしれませんが,あくまでも本書の対象読者は問題解決に挑む(あるいはその必要に迫られている)人を想定しました.
問題解決の入門ではあってもJMPの入門書と名乗るのも少しおこがましいかもしれません.本書ではある程度JMPの操作をご存知の方を前提にして,技術者が使いこなすべきJMPの機能を説明しているからです.とはいっても,「はじめてのJMP」という付属マニュアルの最初の三章(JMP12の日本語版ではp77まで)に目を通していただければそれ以外の参考書は不要ですし,JMP以前のデータ分析の一般的な手順にも言及していますので,入門書としてもお使いいただけるかとは思います.そもそもマニュアル本を書く気は全くありませんでした.世にあるJMP関連本がどちらかというとJMPを使った統計本で,それらはそれで価値があるとはいえ,JMPらしさという点では十分にはアピールできていないと考え,そこを埋めることを意図しました.そのために最新版のJMP13をもとにして書きました.(一度JMP12で書いた原稿を書き直しています.)
ミニマルなJMPの説明という割には本書はA5より大判で320ページと類書中ではボリュームがある本です.それはJMPの操作説明を対話式にしたことに加え,JMPとは直接関係ない話もいろいろ書かせていただいたからです.そもそも本書のオリジナル原稿は私が講演やセミナー等でお話ししたことをまとめたものなので,講演などでは聴衆を飽きさせないために入れるエピソードが数多挿入されていました.これでも随分と割愛しましたが,余計な説明が多すぎると感じる方もいらっしゃるでしょう.とはいえ,下手な「解説」よりも一つのうまい「格言」で目が開かれることもありますし,そこにはエピソード記憶として留めて欲しいいうメッセージがあります.
「実務に使える強力なアドイン」というのも大げさですが,間違いなくJMPの機能拡張として実験計画によるパラメータ設計に大いに役に立つものです.今回このアドインを読者限定とはいえ一般に公開できたことは社会に貢献できたと自負しています.とはいえ,JMPでデータ分析をするだけならば使いどころが限られてきますので,このアドインについては,その使いどころなどを後日もう少し紹介します.ブログを開設することで,従来よりも補足説明を加えることが容易にできるのは大変ありがたいです.
以上いろいろと書いたことは,書店でパラパラとページをめくれば判断つくはずですが,ネット販売ではそれも困難ですね.Amazonの「なか見!検索」もこの分野の本にはないものがほとんどです.このような事情で,特にAmazonでは書籍のレーティングが割れやすいのではないでしょうか.ネット書店で購入した本には思っていたのと違うという不満も出やすいですから.いわゆる当てが外れたというやつです.当てが外れたということに関しては常々思っていることがあるのですが,本日は長くなってしまったので次回にします.

2017年08月14日

Stat Spotting

先日のStat Spottingカテゴリーの記事で,そもそもSpot Spttingとは何かについてお話しするのを忘れていました.Stat Spttingとは私の知る限りでは,Joel Best(2008), Stat-Spotting: A Field Guide to Identifying Dubious Data, University of California Pressで最初に使われた言葉のように思います.今調べたら日本語訳も出ていました.ジョエル・ベスト (2011),林大 (訳)『あやしい統計フィールドガイド―ニュースのウソの見抜き方』白揚社です.翻訳者はタイトルを訳されるのに苦労なさったと想像しますが,Stat-Spottingをそのまま訳すのは避けたようです.
イギリスというかスコットランドを舞台とした有名な青春(といっては陰鬱な)映画にユアン・マクレガー 出演のトレインスポッティングがありました.(そういえば続編の「T2 Train Spotting」が今年公開されましたね.)現地の鉄道操車場跡に薬物中毒者らが集っていたことから,彼ら不良のことをTrain Spotting(鉄道ファン)と現地のスラングで呼んだということをどこかで読んだ記憶があります.Spottingのそもそもの意味は偵察ですし,レーダー探知で敵を発見したときなどもSpottingと言います.電車を見ると目がついそちらに行ってしまう,いわゆる鉄オタ趣味のことをTrain Spottingというのですね.
というわけでStat Spottingは直訳すると統計(情報)の偵察とでもいいましょうか.あるいは統計で偵察するというのでも意味としては良さそうです.具体的に何を偵察するかというと,統計的に表現された世の中の(ときとして怪しげな)言説や報道及びそれらに使用されているグラフなどの統計情報をチェックするのです.TVや新聞等のメディアだけでなく電車の吊り広告などもStat Spottingのターゲットになります.世の中を見回してどこかにこのようなターゲットがないかを探す趣味がStat Spottingなのです.
Stat Spottingを趣味とする人は世の中にたくさんいらして,私もその一人なのですが,ちょうど今Spttingした広告に関する論文を読んでいるところです.近いうちにStat Spottingのカテゴリーで紹介したいと思います.

それでは.
posted by Tad at 12:08| Comment(0) | Stat Spotting

2017年08月12日

チャートジャンク

昨日の『僕らが毎日やっている最強の読み方』の紹介で,TVで使用されたグラフに問題があったことをお話ししました.TVというメディアは新聞と違って中立性が求められています.電波という公共財産を占有して営まれる事業には公共性が求められるからで,そのために放送法という法律では,その第4条で
一  公安及び善良な風俗を害しないこと。
二  政治的に公平であること。
三  報道は事実をまげないですること。
四  意見が対立している問題については、できるだけ多くの角度から論点を明らかにすること。
が放送事業者に求められているのです.ですから,TVで使用されるグラフはデータを正しく可視化したものであるべきで,そこに人間の思惑が入った何らかの主張をサポートするために視覚化したものであってはならないはずです.(因みに,新聞はこの限りでありません.)この点が,プレゼンで使われるグラフとの違いですね.
一方で,視聴率を取らなければならないという制約下では,TVというメディアが見た目を飾るためにチャートジャンクを多用するのは責められません.チャートジャンクとはグラフを構成する要素の中で情報量を担わないもの,あるいはそれらを多用したグラフのことで,詳しくは三重大学の奥村先生のブログをご覧になってください.
単にグラフを装飾するだけといっても,そこには人間の意志が入り込んでしまいます.このため,チャートジャンクは時として人間の思惑そのものでもあるのです.ですから,グラフのチャートジャンク量がそのグラフの信頼性をが判断する一つの指標でもあるのです.自分であればそのデータをシンプルなグラフにしたらどうなるかを考えてそれとの差分で判断すればいいのです.ここで重要なことがシンプルなグラフを描く技術です.
それではシンプルに描いたグラフとはどのようなものかというと,一つのヒントがJMPのグラフ(デフォルト設定)だと考えています.エクセルで描いたグラフはデフォルトでさえ幾つかのチャートジャンク(グラフのグレーの背景がその一つです.)が含まれていますが,その点,JMPで描いたグラフはデフォルトではシンプルなものです.JMPでは特定の3Dグラフ(曲面プロットと三次元散布図)も描くことはできますが,あくまでもそれが表現できるデータである場合に限ります.変数が三つないと三次元グラフは描けません.一方,エクセルでは悪名高い3D円グラフなども描けてしまうのでチャートジャンクが紛れ込む危険性があります.念のために補足しますが,3Dグラフがいけないのではなくて,何ら情報をもたらさない三次元化が良くないということです.グラフの3D化は究極のチャートジャンクです.SASの方に伺ったのですけれど,以前からJMPで3Dグラフを実装して欲しいという要望はあるそうです.(おそらくSAS社はその要求には応じないのではないでしょうか.)
『統計的問題解決入門』でもグラフの可視化と視覚化についてお話ししていますので参考になさってください.
それではまた.
タグ:JMP

2017年08月11日

Stat Spotting

このブログのカテゴリーに「Stat Spotting」というのを設けてあるのですが,まだ一本も記事がないのでこのカテゴリについてちょっと書きます.と言っても今回は書籍のレビューのようになってしまいそうです.

池上彰,佐藤優(2016)『僕らが毎日やっている最強の読み方』東洋経済新報社を読んでみました.「読み方」と題名にありますが,ここで公開されている手法・方法は特にユニークなものとも思えませんので,ハウツー本というよりは著者の知的活動の一端をファンに公開するといった類の本です.お二人とも新聞や雑誌,更には書籍等から大量の情報を仕入れていて,書籍の中ほどにそれらのリストが綴じ込んであります.(わざわざ別刷りの綴込みとしているのはどういう趣旨なのでしょうか?)このリストによると,ときどき読む類のものまで入れると新聞では池上さんが14紙,佐藤さんが18紙だそうです.雑誌では,週刊誌や月刊紙それに季刊,隔月やWEB雑誌なども含めて,池上さんが29誌で,佐藤さんにいたってはなんと55誌です.いくら仕事とはいえよくやりますね.真似をしようともできるとも思いませんけれど,そもそも私たちが真似をすべきではないでしょう.というのも彼らはそれが仕事の一部なのであって,私たちはお金を出して苦行ともいえる作業を彼らにやってもらっているという図式があるからです.かつて司馬遼太郎さんが,作家は読者からお金を貰って考えるという仕事をさせてもらっている,という趣旨のことをどこかで書かれていました.お金を出せばやってもらえる仕事を自分でやるのは無駄です.しかも自分でやるとなるとその何倍もの費用も時間もかかるのですから.
 それならばなぜこの本を読んだかというと,池上さんの統計リテラシーがいかほどのものなのかが判断できると期待したからです.といいますのも,統計リテラシーのセミナーの準備をしている最中なのですが,その中で池上さんの絡んだ最近の話題を取り上げようかと思案しているのです.その話題というのはtwitterでも拡散されてましたからご存知の方も多いでしょう.ご存知なければ「池上彰 グラフ」で検索してみてください.特に画像検索すると問題となった例のグラフが出てきます.グラフの軸のスケールを変えてデータを比較するという初歩的な間違いなのですけれど,偏向報道に敏感な世相というかネットが即座に反応しました.検索結果には正しいグラフではどのように可視化されるかという記事もあります.報道番組というヒューリスティックなソースとして発信されたことを考えると,このグラフで騙される人がいてもおかしくありません.
池上さんはNHK時代から好感を持っているので悪くはとりたくないのですが,考えられれることは以下の三つです.まず池上さんが統計リテラシーをお持ちだったとして, 
1.意図してやった.
2.スタッフの分析による台本とそれをもとにしたグラフをチェックしなかった.
という場合があります.前者であれば,何も言うことはありません.ただ,動機が弱いのでおそらく意図したことではなかったと信じたいです.後者についても,あれだけの情報を自ら取得してながら,番組の台本をスタッフ任せにしてチェックもしないというのは考えにくいです.
そこで大変失礼ながら,
3.新聞は読むのは上手いけれどデータはそれほどでもない.
のではないかと想像したのです.ご自身がデータに騙されてしまった,あるいはデータに騙されたスタッフの言説を信じてしまったのではないかということを,この本を読んでその確信を深くしました.そもそも,あれだけ日々を忙しくされていたらデータを自らダウンロードして分析するというようなことはできないはずです.データから情報をとるという作業は新聞や雑誌を読むのとはことなり,地味で時間も手間もかかる作業を強いられます.一日に新聞を14紙も読む人にはその時間はないはずです.定型的なデータを分析するだけならばJMPなどの統計ソフトを使うことで大幅に時間は節約できますし,そもそもデータ分析を外注することも可能でしょう.ですが,この場合でも統計リテラシーは必須です.しかもそれは新聞を読むこととはまた異った能力です.
データ分析を人に依頼したとしても,その結果を統計的に読んで,その情報をもとに統計的な情報を発信することまで人に依頼するのは困難です.少なくとも自らがチェックしていなければ,それはジャーナリストではなく単なるタレントです.何かの事情があったのかもしれませんが,池上さんの事例は他山の石として取り上げてもいいのではないでしょうか.何しろ有名人ですし,これだけの人でも統計的解釈を間違えることもあるのだということは(私自身も含めて)自覚すべきことです.
もう一人の著者の佐藤さんについてはあまり存じ上げなかったのですが,独自のデータを持っているのが強みと感じました.ただ,手法としてはKKDライクな根性論のように見受けます.また,沖縄問題には門外漢な私でさえ,それを専門と称されている方が沖縄タイムスと琉球新報を読んで八重山日報を読まれていないのかが不思議です.おそらく佐藤さんから発信される情報は少し偏っているかもしれません.もちろん,こういうことをお金を払う私たちが意識して使い分ければいいのです.これがメディアリテラシーですね.とはいえ,佐藤さんは猫好きということもこの本を読んで初めて知りました.きっとお人柄は良い方に違いないでしょう.
さて,私たち技術者の場合でも,問題を発見しそれを解決するためのデータ分析では外注は困難です.専門外の分野であれば,それらはむしろ外注すべきと考えますが,その外注先やソースの信頼性には十分な吟味が必要です.外注に出す出さないを問わず,いずれの場合でも統計リテラシーという能力が問われます.特に,統計的に情報を発信する能力の欠如は周囲(組織)に弊害をもたらすことの危険性を感じています.そこで,私が教える統計リテラシーは統計を読むことよりも書くことに重点を置く予定です.そのためのコンテンツをここ暫く探していこうと考えています.
最後にこの本について気になったことを一つ.紫色のマーカーがポイントとなるところどころの文に引かれていることです.とにかく目障りです.この手の類の本は最近は読んでいなかったのですが,流行なのでしょうか.そんなに難しいことが書かれているわけでもなく,しかも対談本なので会話文です.この方が本の売り上げが増すのか,想定している読者は読解力がないと考えたからなのか.そのことを謎に思いつつ,それではまた.
タグ:books
posted by Tad at 12:30| Comment(0) | Stat Spotting