UA-115498173-1

2017年12月30日

統計とは

問題解決のコンサルテーションをしていて,ときどき統計をお教えすることもあります.統計は知らなくても問題解決できるという考えには変わりはありませんが,統計を知っていればより深いレベルで問題解決に挑めるのは間違いありません.そのときに必要になるのは良い教科書ですが,技術者に使える統計を教えたいというわたしの目的に合うものがなかなか見つからずに困っています.
多くの企業で実施されている社内教育ではパワーポイントの資料(あるいはそれを製本したもの)で済ませることがほとんどですが,これでは生徒の予習,復習ができません.良い大学の授業では,(基本はその先生がお書きになった)教科書があって,それを生徒が読んでいるという前提でパワーポイントを使って(あるいは今でも板書して)講義が進められます.パワーポイントには教科書と同じことを書くのではなく,それの理解を深めるような内容でなければ生徒は授業に興味を失ってしまいます.ですから教科書は適度に難しいことも重要です.しかしながら,これは学生相手だからなのであって,一般の技術者には「限られた学習時間で」という制約があることも考慮しなければなりません.
そこでここ数ヶ月,わたしの求める良い教科書を探して統計の本を洋書和書かまわずに手当たり次第に読んでいます.その中で気づいたことがあって,統計とは何かについての説明がそれぞれの本で微妙に異なっているのです.比較的難易度が低い和書でいくつか紹介しますと,例えば栗原伸一他(2017)『統計学図鑑』,オーム社,では「統計学とは,データを統計量(平均など)や図・表にまとめて,その特徴をとらえる学問です(p2)」という統計は手法であるという立場ですが,同じ著者でも,栗原伸一(2017)『入門統計学』,オーム社では「実験や調査を行って得られたなんらかの数値データを統計と呼ぶ(P2)」と書かれていて,こちらではデータそのものが統計という見方です.続けると,小島寛之(2006)『完全独習 統計学入門』,ダイヤモンド社,では「「生の現実」から,何かその分布の特徴や癖を引き出すための手法(p17)」と『統計学図鑑』と同じく統計とは手法であると書かれています.涌井良幸他(2015)『統計学の図鑑』,技術評論社,では「ある集団についての傾向や特徴を知るために「観測」したり,「調査」をしたり,実験した結果を「数字」や「文字」でまとめたものを統計と呼びます(p10)」と統計とはデータそのものであるという説明です.林雄亮他(2017)『SPSSによる実統践計分析』,オーム社,には「社会科学(特に社会学)における統計分析には,関心のある社会現象の「記述」と「説明」という二つのねらいがある(p3-4)」という趣旨のことが書かれています.この本は社会科学系の統計を解説している本なので社会現象と限定していますが,これを自然現象と言い換えても良いと思います.
わたしが思っている統計に一番しっくりくる説明は青本として有名な,東京大学教養学部統計学教室編(1992)『自然科学の統計学』,投稿大学出版会,の序文にあります.そこには「統計学とは何かということについては,昔からいろいろ面倒な議論がある」と書かれていて,その上で「簡単にいえば,それは数字データというものを,どのように分析し,どのような判断をくだしたらよいかを論ずる学問であるといってよい」とあります.
このようないろいろな統計の捉え方があって,それらのどれもが間違いではありません.とはいえ,この状況は「群盲像を触る」というインドの寓話を思い出させます.昔インドの6人の盲人が像のそれぞれ異なった部位を触って,それぞれ樹木の幹(足)や大蛇(鼻)のようなものだと主張したというお話はご存知でしょう.この話は学生時代に勉強したDavid Bohm(1989),“Quantum Theory”,でも(7人の盲人が鼻はロープで足は木と,細部は微妙に異なっていましたが)光の定義にこの寓話が引かれていて,Can we find a single concept that will unify our different experiences with light?と問いかけるフレーズを鮮明に覚えています.
今改めて,Can we find a single concept that will unify our different experiences with statistics?と思うのです.上述したそれぞれの統計のイメージは間違いではありませんが,わたしには何か物足りない気がしています.統計現象の観察,記録である数値を統計情報に変換して,それをもとに意思決定をくだし,それに従って行動する,この一連の流れすべてが統計であり,それを研究する学問が統計学ではないでしょうか.
残念ながら,青本の中身は序文と少し乖離していて,必ずしもこの流れに沿った本ではないことと,(赤本同様に)扱っている範囲が広く,何よりもこの本は東大生の教科書ですから,1コマとして年間30回の講義によるサポートを受けられない一般の技術者には敷居が高いのも事実です.洋書にはいくつか良い本があるのですが,自分の専門分野でもない英語の本を昨今の技術者に読めというのも現実的ではありません.良い教科書探しをこの年末年始に続けます.その結果次第ではありますが,本書の執筆で懲りてはいるのですが,自ら執筆することも検討するかもしれません.
それでは皆様良いお年をお迎えください.
タグ:統計
posted by Tad at 12:29| Comment(0) | TrackBack(0) | 統計教育

2017年12月23日

Global OptimizationとTotal Optimization

先日のSUMMITでの発表についてのアンケート結果をSAS社からフィードバックしていただきました.少々詰め込みすぎた内容で皆様にうまく伝わったかを心配していましたが,思ったよりも好意的な反応を頂けたようで安心しました.ほとんどのコメントが「解から理解へ」というメッセージに言及してくださっていて,多くの皆様に賛同して頂けたことが何よりも嬉しいですね.
頂いたコメントを拝見して,Global OptimizationとTotal Optimizationとについての違いを(おそらく)意識していない方がおられることに気づきました.わたしの発表でもここらへんについては曖昧でしたし,巷でも厳密に両者を使い分けるケースはむしろ稀です.ですが,異なる意味を持つ概念に異なる言葉をつける必要があるのは「可視化」と「視覚化」との使い分けが必要なのと同じことです.そこで,この場で今一度説明します.
まずは言葉を定義します.単一の最大値や最小値が存在する同じ実験空間内のシステムが複数寄せ集まった拡大システムを考えます.この拡大システムは個々のシステムの実験空間の拡張空間になります.英語では前者をLocal System,後者をGlobal Systemと呼び,このときのそれぞれのシステムの最適化をLocal Optimization,Global Optimizationと定義します.厳密にはLocal Systemには単一の極大点が内包されていると考えていいでしょう.
ここまでは明快なのですが,これを日本語に訳すときに混乱が生じます. Localを局所的とするのはいいとして,Globalを全体と訳すとこの後でお話しするTotal Optimizationとの区別がつきにくくなってしまいます.そこでGlobalには大域的という訳をあてます.この日本語訳であればLocalとGlobalとでは基本的に同質の実験空間に存在するものということが明確になります.
一方,異質なシステムが寄せ集まった複合システムを考え,それらの最適化も考えられます.例えば,紙ヘリコプターを例にとると,紙ヘリコプターの製造メーカーが材料の紙の製造も一緒にしているとします.このとき,飛行時間の最適化の設計因子の一つである紙の厚みは紙の製造工程の特性(の一つ)になります.ですから,このメーカーが紙ヘリコプターの設計と紙の製造工程を総動員して目指す最適化が全体最適化で,英語ではTotal Optimizationとなります.個別のシステムの最適化はいわゆる普通の最適化なので特定の名称はついていませんが,全体最適化を意識して部分最適化あるいは個別最適化と呼ぶことがあります.部分最適化を英語に訳すとPart Optimizationになるのでしょうか.聞いたことはありませんけど.
実験空間と抽象化すると大域的最適化も全体最適化も同じことをしているにすぎませんが,重要なことは大域的最適化では同じ特性が隅々まで行き渡っているのに対し,全体最適では様々な特製のごった煮であるということです.別の見方をすると大域的最適化は全体最適化の一つであるということもできます.
大域的最適化はCAEソルバーによるシミュレーション実験と相性が良く,最適化ソフトと連成してGA(遺伝的アルゴリズム)法やSA(シミュレーテッド アニーリング:焼きなまし)法,粒子群法などの各種アルゴリズムで最適化を目指します.これが実実験の場合となると山あり谷ありの地形を探検するようなもので,真の最適化に辿り着くのはなかなか困難です.ここでものを言うのが技術者の勘と経験です.
一方,全体最適ではそれを支配するモデル式を作成するために最大の問題となるのが壁の存在です.例えば一つの企業をシステムと捉えれば,企業内にはそれぞれ異なったミッションを持つ組織が個別システムとして共存しています.それぞれのシステムの最終的なゴールは共有されているものの,ときとして利害が対立することがあります.全体システムで収益や顧客満足度の最大化を目指すには,個別システムの最適化に先駆けてそれらの利害関係を調整することが必須なのです.この調整に必須となるのが交渉です.このことは一般的な製品や製造工程のシステムでも同じことです.この場合の交渉を本書では技術的交渉と呼びました.
勘と経験それに交渉といった人間固有の能力が必要になることがとても興味深いですね.統計的問題解決ではこれら人間固有の能力に頼るのではなく積極的に活用するという立場です.
それではまた.
タグ:問題解決
posted by Tad at 13:10| Comment(0) | TrackBack(0) | 統計的問題解決

2017年12月16日

条件振りはなぜいけないか

昨日は東京ビッグサイトで開催されていたSMICON JAPANにいってきました.半導体製造関連の展示会として40年以上も続いている歴史のある展示会で,少し前までは幕張メッセが会場だったのですが,2014年からビッグサイトに場所を移しています.社会人になって以来ずっと半導体に関わってきたこともあって,SEMICONには毎年参加しているのでわかるのですが,イベントとしてはだんだんと寂れてきているのを肌で感じます.ビッグデータ関連の展示会のほうが出展社も参加者もぜんぜん多いように思うのですが,公式の来場者数を見る限りではそれほど大きな違いはありませんから気のせいかもしれません.とはいっても,往年の賑わいとは比べるまでもなく,今年はWORLD OF IoTというエリアが設けられていたりと,関係者の方々もご苦労されているようです.
今年は本来の情報収集にあわせて,半導体製造分野でDOEがどれだけ普及しているのか古くからお世話になっているいくつかの装置メーカーの技術統括者の方々に聞いてみました.乱暴を承知で要約すると「目先の仕事に追われてそれどころではない」ということのようです.サンプリングが足りませんが,医薬メーカーとの温度差は確かにあるようです.展示会なので基本は営業さんが多いのですが,説明要員として展示会に駆り出される技術者も多いので,彼・彼女らともお話しましたが,その中で上司が実験計画の結果に不安を感じているので結局すべての実験をやらざるを得ないという同情すべき方がいました.
実験計画をするにしてもそれが完全実施要因計画に限定されるのであれば,そのメリットは損なわれるのはもちろん,結局膨大な実験数を低減するために無理な因子の絞り込みをしてしまうという弊害があります.そして何よりも問題なのは単なる条件振りとして考えずに計画を立てた結果として,それが完全実施要因計画になっているという場合,その計画で得られたデータから統計モデルを得ることが考慮されていないことが多いのです.
例えば,水準の設定が興味によってなされているため,それらの間隔が等しくなかったり,特定の因子の影響が無い状況を「0」としていたり,温度の水準の一つが「室温」となっていたりします.この措置が正しい場合もあるので質的因子で計画を作ることが良くないというわけではありませんし,質的因子で統計モデルを作るのであれば話はまた別です.
しかし,問題なのはすべての条件を実験しないとその結果の妥当性が判断できないという上司の頭の中です.その発想はすべての組み合わせの中からベストを選べばそれが最適解であろうという単純なものです.確かにこのような格子点解は連続量空間での最適解の近似になってはいます.
しかしながら,それは単特性のような単純な場合に限ります.多目的では状況が全く異なってくる可能性があります.今,簡単のため二つの特性Y1とY2とがこんな感じで 1因子Xで支配されている場合を考えてみます.
DraggedImage.be841667054e4ff1b3b984ac0e5a0840.png
それぞれ最小化,最大化するとしてたまたま10間隔で実験していれば,このような質的な計画でも解としてX=80, X=10という正しい解は得られます.ですが,Y2のダブルピークの構造は質的な因子の扱いでは見えにくいことが問題です.場合によっては全く見えません.ですから,2特性を考慮した場合の最適解を求めようとすれば,例えば,二つの解の平均をとって45とするくらいのものでしょう.こんな単純な場合だからできることではありますが,その上司がこの解で満足するのであれば絶望的です.この状況でしかるべき連続量の実験空間で実験計画を組み,その結果から統計モデルを得たならば,「満足度の最大化」で解が求まります.
DraggedImage.3367f90fe65048a78ea09d03fb723cb9.png
ここでは二つの特性の重みは等しいとしていますが,その解は,X=82.3と先ほどの最適解もどきとは大きな乖離があることが理解できるはずです.

もしも身近に「条件振り→ベストをチョイス」というKKD手法でなければ安心できないという上司がいるならばこの記事を見せてください.どのような反応をするのか興味があります.
それではまた.
タグ:JMP
posted by Tad at 11:27| Comment(0) | TrackBack(0) | 統計的問題解決