2017年08月03日

再現について思うこと

このブログを見ている人はまだいないと思うと,何か星空を眺めてつぶやいているという孤独な気持ちです.とはいえブログ書きの練習の意味もあって雑文を書きます.週末に定期的にアップしようと思っていたのですが,そうするといざ書こうとしても書きたいと思っていたことを忘れてしまっているので,思いついたときに書くことにしました.
「統計的問題解決入門」ではテーブルの結合(join)と連結(concatenate)について,日本語ではそれらの言葉の使い分けが曖昧であることを指摘しました.その他にも,計測不能という言葉も英語のimmeasurableとunmeasurableという使い分けがそもそも日本語にないことも触れています.最終的にはページ数の制限のために割愛しましたが,同じような英語と日本語との言葉の齟齬についても初期の原稿にはその他にも幾つかの例を書いていました.その一つが再現という言葉です.再現実験という言葉は本書でも用いていて,言葉の意味からは確認実験と呼ぶ人もいるということを言及しています.
再現実験を確認実験という言葉に置き換えること自体には抵抗はありませんが,再現実験は英語ではReproducible experimentであり,再現という日本語にはRepetitionとReplicationとに対応した意味があるということには注意が必要です.Repetitionとは空間的時間的に異なった複数点での観測のことで,Replicationとは空間的時間的に限定された複数の観測のことです.前者を反復,後者を繰り返しと呼んで区別している方もいらっしゃいますが,一般には厳密には使い分けられていないように思います.ややこしいのはあのFisherでさえ,RepetitionとReplicationとの区別はしているものの,それらを合わせてReplicationと呼んでいたりしていることです.(出典を探したのですがすいません,どこで読んだのか失念してしまいました.)
計測技術に長く関わってきた者として再現性は装置評価には必須の指標です.再現性はRepeatabilityとReproducebilityの二つで定義されます.それぞれはRepetitionとReplicationとに対応しているものと考えています.従って,厳密には繰り返し再現性と反復再現性と呼ぶべきなのかもしれませんが,計測分野ではそういう区別はなされていません.従って,再現実験をパラメータ設計で求められた解における推定値と実実験での値との反復再現性を評価するための実験と定義すれば,これを再現実験と呼んでも問題ないように思います.確認実験と呼ぶべきだという主張は,繰り返し再現性のイメージが強いのかもしれません.
 これらの言葉の齟齬は統計学に限ったことではなく,日本語と外国語とではあって当たり前のものです.例えば,龍は和英を引けばDragonですが,龍とドラゴンとは違う概念ですし,そもそも龍は竜とも違う概念です.りんごも厳密にはAppleとは異った概念を示す言葉です.わかりやすいのが画像検索で「なし」と「pear」をそれぞれの言語で検索してみてください.日本人の梨とアメリカ人のpearとは想うものが違うことが一目でわかりますね.
統計を学ぶ際に英語で学ぶことのメリットについては常々思っていることです.概念の理解にはその言語の原産地の言葉で学ぶのがベストですが,それもなかなか難しいのが現実です.いつかのブログでも書きましたが,新しい学問分野を輸入する際には先生方には後学の徒のために最適な日本語を考えてくださることを願うばかりです.Alternative hypothesisを対立仮説と訳した先生も(ご存命とは思いませんけど)もしかしたら後悔なさっているかも知れません.
タグ:統計学
posted by Tad at 20:48| Comment(0) | 雑記

2017年07月31日

Amazon初登場

『JMPではじめる統計的問題解決入門』がAmazonに並びました.まだ最終原稿は手元にあるので何か不思議な感じです.これは本音の話なのですが,私が気にしていたのがAmazonのレビューです.低い評価をつける人がいても別にいいんです.例えば最近読んだ本の中で一番読んでよかった,國分功一郎(2011)『暇と退屈の倫理学』朝日出版社でさえ星一つをつける人がいるくらいです.しかも大学生の卒論レベルと手厳しいコメントもあります.大学生の卒論レベルではあそこまで文献を読み込まないと思うんですけど.着想があって構想を広げて論理展開しているのもよくわかるし,スピノザやカントは読む気になれないけれど,國分先生の本には引き込まれました.何よりも読んで理解できた哲学(とは言えないかもしれませんが)の本というのは人生体験としても貴重です.
こういう名著にも星一つをつける人がいるくらいなのです.統計関係の本でも,本書でも言及している西内啓(2013)『統計学が最強の学問である』ダイヤモンド社の本日現在のレビュー総数240に対して星一つが27(11%)で星五つが58(24%)です.書籍の価値と星の数の相関はどのように考えたらよいのでしょう?要約統計量として平均で十分なのか,それともメディアンなどの他の指標を考えるべきなのか.おそらく陪審員定理などを使って合理的に考えることはできそうです.
ちなみにこの西内さんの本は最近まで『統計学は...』と思ってました.前回の校正でこの間違いに気づき訂正しましたが,改めて「統計学が...」というのはすごいコピーですね.「統計学は」ならば最強クラスの学問は他にもいろいろあって統計学もそれらにひけをとらないぞというニュアンスになりますが,「統計学が」ですと統計学が一番強いことになってしまいます.コピーとはいえこれは言い過ぎですね.おそらくこのコピーに感ずるところで両極端の評価になっているのでしょう.実際この本にはなぜ物理や経済学を凌いで統計学が最強なのかは書かれていなかったので,少々期待外れでした.それでは統計学はどういう学問なのかというと,最強***学問であるというのが『JMPではじめる統計的問題解決入門』での答えです.***は伏字です.書籍がリリースされてから改めてこのブログで回答を書きますので,当ててみてください.
「統計的問題解決入門」の性格からおそらく評価(があれば)は割れると予想してます.ですから,評価の高低は良いとして,それよりも気になるのは散見される品位に欠けるレビューです.おそらく品位あるであろうJMPユーザーが読む本でさえ,某書のレビューでは酷いことも書かれていますね.わたしは何を言われても甘んじて受けようと覚悟していますけれど,精神的な平和のためにレビューは当面は見ないことにします.もちろん,どんなレビューであれしてくださったならばそれだけでも嬉しいです.

2017年07月29日

ソクラテスと大燈国師

このブログのタイトルは「統計的問題解決研究所」です.来月出版予定の「JMPではじめる統計的問題解決入門」のサポートブログですが,実は最近まで書籍名を勘違いしていました.「JMPではじめる統計的問題解決」とばかり思い込んで,後半の執筆では入門書ということを忘れて飛ばしすぎてしまったかもしれません.その意味でも,できる限りこのブログで入門者の皆さんのサポートをしていこうと思っています.
このブログのタイトルの下の説明文も修正しなければなりません.そういえば,このブログのデザインはいささか寂しかったのでイラストレーターの原山みりんさんにお願いしてロゴをつくってもらいました.原山さんには書籍の表紙や章扉のマンガを描いていただきました.(この本に登場するJMPくんについては後日書きます.)このお地蔵さんのようなロゴは哲学者ソクラテスをイメージして描いてもらったものです.本書の「あとがき」では有名なソクラテスの産婆の例えに言及しました.この他にもソクラテスは自分を「アブ」に例えたり,人に「シビエレイ」のようだと言われたことを肯定しています.アブの比喩も気に入っていてロゴをアブにしてもらおうとも思ったくらいです.
皆さんはソクラテスというとどのようなイメージがありますか.ソクラテスというと毒杯を仰いだ哲学者というイメージが強いかもしれません.東洋大学の創立者の井上円了は古今東西の聖賢として「孔子」「釈迦」「ソクラテス」「カント」の4人を四聖としたそうです.四聖というと一般には,「釈迦」「キリスト」「孔子」「ソクラテス」の4人を指すことが多いようです.いずれにせよソクラテスは聖人に列せられていますが,私にはソクラテスと孔子は聖人というのには違和感があります.論語で有名な孔子は儒教思想を体系化したという点では始祖と言ってもいいかもしれませんが,私には自分の言葉で語っているという迫力が欠けているように思えます.一方,ソクラテスの言葉はプラトンという代弁者を通じたものではありますが,実践に生きた哲学者です.
私には大燈国師として有名な宗峰妙超の生き様に重なります.大燈国師は大応,大燈,関山と引き継がれて中興の祖白隠に到る日本臨済宗の系譜の中心に聳える人物です.京都で乞食同然の暮らしで修行(乞食行と言います)すること20年,その当時を描いた白隠の絵は有名です.白隠記念館というブログで公開されています(このページの大灯国師2がそうです)ので一度ご覧になってください.(沼津に白隠記念館が建設されることを夢見てというこのブログには大いに賛同します.)この絵を見ればおわかりのように,ギョロリとした目玉が印象的でWikiにも峻烈無比の禅風とあるように大燈国師の生き様が伺えます.この絵を見るたびに私はなぜかソクラテスを思い出していました.
どうでもいいことですが,このブログのタイトルロゴを見てこれは何なのかと疑問に思う人もいるかと思いここに書いておきます.まだ校正が済んでいないので今週も雑記ですいませんが,今週はここらへんで.
posted by Tad at 13:11| Comment(0) | 雑記

2017年07月22日

ソフィーの選択(「選択の科学」の続き)

原稿でカットした内容を次回紹介すると書いておきながら,話を引き延ばして申し訳ないのですが,今回は「選択の科学」についての続きにします.早く書いておかないと忘れてしまうということがその理由です.おそらく現時点でこのブログを見ている人はいないはずですが,書籍がリリースされればこのブログに来てくださる方もいらっしゃるでしょう.その方々に過去に遡っていただくのも申し訳ないので「JMPではじめる統計的問題解決」の内容に関することは本書リリース後に書き始めることにしました.
というわけで「選択の科学」です.自宅にはTVがないので知りませんでしたが,NHKで取り上げられて人気があったそうです.TVで紹介されたりすると,どうしても製作者のバイアスの影響を受けてしまうので,何事もまずは自分で考えたいという主義が次第にTVから遠ざかっていった理由です.この意味では,著者の略歴や表紙などもできるだけ見ないようにして読み始めるようにしています.と思いつつも表紙だけは見ないわけにはいかないので,「選択の科学」のように著者の写真にひきこまれたりもしています.
表紙や本文のレイアウトが読者に与える印象は強いです.特に著者の見た目が良ければ注目も浴びます.ケリー・マクゴニガル(2012)『スタンフォードの自分を変える教室』大和書房,などが印象に残っています.先ほどAmazonで確認したら,中表紙のような地味な表紙なので,この著者の写真は帯だったのかと今更ながらに気づきました.出版社のサイトでは帯のついた写真が見れます.この本の英語版の表紙が
Kelly McGonigal(2013),The Willpower Instinct: How Self-Control Works, Why It Matters, and What You Can Do to Get More of Itでしたので日本語版との違いが際立っていました.
パラメータ最適化設計もある意味では科学的に選択をしていると言えるので,その重要性は常々考えていました.幾つかのヒントを得られたので,「選択の科学」は読んでよかった本でした.前半では長いこと疑問だったことの答えを見つけられました.それは,人が対処できる選択肢の数はその性質によって変わるという説です.これは先にお話ししたことの繰り返しになりますが,人が一度に扱える選択肢の数の上限は7と言われているわけですが,ロングテールではそうでもないと米国でのスーパーマーケットの体験から感じていました.この説では一つひとつの選択肢の重要性が高くない場合では,徹底的な検討をする必要はないので選択肢の多さをむしろ楽しめるというわけです.しかもその場合,専門知識が多すぎる選択肢へ対処する能力を飛躍的に向上させるということです.例えば私の場合,車に乗るとすればFRに限るので,FF車は真っ先に対象から外します.そうすると選択肢は激減してしまうのです.ある程度の車についての専門知識が選択の負荷を低減してくれるわけで,これは定石を知り尽くしたチェスの名人が次の一手を打つ場合と同じとのことです.
 後半には,統計的問題解決にとっても重要なことが書かれていました.一つは「ソフィーの選択」(ウィリアム・スタイロン(1991)『ソフィーの選択』新潮文庫)です.この有名な小説はご存知の方も多いと思います.(映画もありますが原作の邦訳はなんと絶版なんです.何か間違ってるような気がします.)ネタバレすべきではない小説なので詳細は書きませんが,「選択の科学」では ルイス・ハイド(2002)『ギフトーエロスの交易』法政大学出版局から引いた価値についての次の分類を紹介しています.それは絶対的価値(worth)と相対的価値(value)との分類です.前者が,自分が大切にしていて値段がつけられないものに対する(本来備わっている)metricであり,後者はあるものを他のものと比較することによって導き出せるmetric,ということです.(metricという言葉は私が勝手に使っています.)その分類にときとして私たちは対峙せざるをえないのです.例えば,人の命をworthとvalueのどちらかのmetricにより幾つかの選択肢の比較を余儀なくされる状況があるということです.
 私は今まで人生の問題も特性値の指標をうまくとればパラメータ最適化設計で解決できるのではないかと(自覚はしていませんでしたが)考えていた節がありましたが,それは間違いと気づきました.パラメータ最適化で扱えるのはあくまでも特性のmetricがvalueである時に限ります.それがworthである場合にはせいぜい参考にするくらいではないでしょうか.何事もできることとできないことを見極めることが大事です.とはいえ,worthをmetricとした場合の最適化については研究課題として今後深く考えてみたいと思います.
もう一つは「選択の代償」です.選択は痛みをともなうということです.「選択の科学」ではある事例で選択のための情報開示と選択権の有無で三つのシナリオ(情報なし,選択権なし)(情報あり,選択権なし)(情報あり,選択権あり)で実際の調査データをもとに考察しています.
私の事例指導のスタイルはクライアントに選択肢を与え,あるいは見つけさせて,その上で選択権は委譲するというやり方です.それはよくある事例コンサルテーションでのやらされ感を低減し,成功体験をより強く感じてもらうためです.とはいえ,この本を読んで人によっては不必要なストレスを与えていたのかもしれないと気づきました.ある意味自らも紋切り型のコンサルテーションの罠に陥っていたようです.必要な場合は選択権を奪うこともありかもしれません.このためには,やはりクライアントとの対話が重要であると思っています.

まだブログ書きの練習中ですので,まとまりのない文章をご容赦ください.それではまた.
タグ:books
posted by Tad at 16:25| Comment(0) | 雑記

2017年07月15日

ページ数の制限に苦しむ

原稿を書き終えてから気になっていた箇所が色々とあって,それらに手を入れたりしています.書籍という媒体にはページ数という制限があることを今回今更ながらに思い知りました.どこで見切りをつけるのかが悩みどころです.「JMPではじめる統計的問題解決」は300ページを少し超えるくらいになりそうですが,栗原伸一(2011),『入門統計学』,オーム社が319ページですからほぼ同じくらいのページ数なので類書の中では標準というところでしょうか.
書籍にはページ数という制限があって,その中で厚い本薄い本いろいろあるわけですが,言語や国によっての違いもあるようです.アメリカに比べて日本の本は比較的薄いように思います.本棚をパッと見渡すと厚い本はほとんど洋書です.和書では松原始(2012)『カラスの教科書』雷鳥社が厚い本ですが,調べると399ページしかありません.特に理工系の本ではこの差は大きい(アメリカの本は厚い)ような気がします.例えば,Jesse Liberty and J.Mark Hord (1996), Teach Yourself Cplusplus in 21 Days, SAMSなどが目に付きますが,これが848ページの本です.プログラミングの本だから厚いというわけでもないのは,いわゆるK&R本の改定版は272ページしかありません.英語だと文が長くなるという事情もあるかもしれませんが,Amazonで調べると日本語版のB.W.カーニハン,D.M.リッチー(1989)『プログラミング言語C 第2版 ANSI規格準拠』共立出版,は360ページだそうですから,そういうわけでもありません.過去に読んだ本の中でとりわけ厚かったのが,Taguchi et al.(2004),Taguchi's Quality Engineering Handbook,Wiley-Interscienceでなんと1696ページあります.しかもこれがハードカバーの本なので読む以外にも使えるモノなのです.日本の品質工学関連の本で武器(あるいは防具)になる本なんてありません.
思うに,アメリカでは丁寧に説明するためにはページ数が増えても仕方ない,また読者もページ数の多い本は親切丁寧な本であるというコンセンサス(合意形成)がなされているのではないでしょうか.アメリカの出版社も本は厚い方が売れると判断しているのか,無意味に本を厚く見せている節さえあります.多分に文化の違いもあるでしょう.日本では本は通勤時間に電車の中で読む人も多いですし,日本の住宅事情では厚い本は敬遠されるのは仕方ないですね.
そもそも英語の文章を英語にすると膨張するのでしょうか.同じようなことを考えた方がいらっしゃいました.本の1ページあたりの情報量を英語と日本語で比較するというブログ記事では,「Random Houseから出ている村上本に限って言えば,1ページあたりの情報量は,英語の方が日本語の2倍近くある.」と結論なさっています.少し突っ込みますと,この回帰分析ではXを日本語,Yを英語とする方が推定の方向としては正しく,また英語でも日本語でも0ページの本は変わらないはずですから,原点比例で回帰直線を引いた方がより正確なR2乗を求められたように思います.それと1ページの大きさ行間や余白等のレイアウトなども考慮すべきですし,何よりもフォントサイズの影響は無視できません.漢字はローマ字よりもフォントサイズを大きくしないと読みにくくなるということです.と,突っ込みを入れましたが,最初にこのような分析をしていただいたこと対して著者に敬意を表します.
さて,論文要旨を英訳したときなどの自分の経験からは常々日本語と英語の情報量は一文字あたりでは日本語の方が大きいと思っています.日本語では「ていねい文」にしなければかなり端的に情報を込めることができます.例えば,新幹線の車両先頭に乗ると目に付くあの表記,東海道新幹線車内・駅における案内表記の追加について.具体的には,このPDFの別紙1にある一番左の「客室内荷物注意」を見ると「ああ,あれか」と思う人もいるでしょう.三つの文章の中で最初の「こちらに荷物を置かれた場合には,乗務員が通りました際にお知らせください.」だけが英語のほうが「Please inform the crew when leaving your baggage in this area.」と少し短いようですが,英訳では(乗務員が)通りました際にはという部分が入っていません.この情報だけならば,日本語で「ここに荷物を置いたら乗務員に知らせてね.」ですみます.
ますます脱線していくのを自覚しつつ,三番目の文の比較は面白いですね.日本語では「自分の責任で管理せよ.」とあるのが,なぜか英語では「紛失やダメージあっても我々の責任じゃないからね.」となってます.文章って情報を伝えるだけではないのだとつくづく思います.その下の中国語では日本語の直訳になっているようですから,英訳の際に文化の違いを意識してあえて直訳していないのであれば,さすがですね.
それで何がいいたいのかというと「JMPではじめる統計的問題解決」でも書籍にするにあたり大幅に原稿をカットせざるを得ませんでした.ドラフトでは第8講まであったのを5講にしています.具体的にはドラフトでは第6講として独立していたものを大幅に簡略化して第5講の後半にマージしています.第5講が急ぎ足になっているのはこれが理由です.その他ビッグデータとノート術に関した講を削除しました.内容に不満があるわけではないので,これらについてはそのうち公開していきたいと考えています. 
独立した講としては書いてはいませんでしたが,その他にも削除した記述があって,例えば「問題の発見」と「掟破りの問題解決」という文章がありました.これらについては機会を見つけてこのブログでお話ししたいと考えていますが,本日は長くなってしまったので,次回以降で簡単に紹介することにします.
タグ:books
posted by Tad at 12:11| Comment(0) | 雑記