UA-115498173-1

2018年06月09日

なぜ系統的レビューに仮説検定は向かないのか?

先週の続きです.といっても,あの報告書には例の系統的レビューの詳細には触れられていないことが判明したので,続きは書けません.一般的に仮説検定の結果を系統的レビューに含めるのはやってはいけないとされています.もしも,ナラティブな研究をレビューしたのであったとしても,せいぜい表として提示するくらいにとどめておくべきで,それらを棒グラフ(即ち,量的な比例尺度の数値としての視覚化)にするのはやりすぎのような気もします.あの報告書からはそのへんがどうなのかは読めません.厚生労働省が背後についている研究会ですから,統計に詳しくない人々を黙らさせるために,あのような権威に裏打ちされたデータを提示したのかもしれませんが,いずれにせよ(禁煙派だけに)誤解を招くグラフなのは残念です.レビュー対象の論文を読んでいないのでこれ以上の言及は避けます.
ところで,系統的レビューの対象として仮説検定による研究が向いていないという理由は,例えば,こんなことを考えてみればわかります.タバコ産業関連以外の研究では「差がない」ことを示した研究が多いわけですが,その際の検定のロジックはすべての研究で同じであったのでしょうか.帰無仮説が棄却できなかったわけですから,そこから事後検証として検出力分析に移った研究もあるでしょうし,あるいは最初からJMPを使って「同等性の検定」を実行した研究もあったかもしれません.いずれにせよ,研究の取り組み方によって効果量をどのように見積もったのかが異なってくるはずです.おそらくレビュー対象となった研究には一つとして同じものはないのではないでしょうか.その他にも,有意水準,サンプルサイズ,検出力(これと関連して母分散)など,仮説検定にはその前提となった意識的,無意識的な条件が数多くあります.系統的レビューは一つ一つの研究報告がデータになるわけですから,それらから定量的な結論(例えば棒グラフ)を導くには本来は実験計画によるべきです.このような多数の因子に影響されるデータをモデリングする場合,サンプルサイズが大きければ多変量解析の手法も使えますが,86論文では微妙なところです.しかも共変量がないことを前提としますが,この場合それもちょっと怪しいです.
因みに,JMPでは「同等性の検定」実行すると「等しいと見なす量」Difference considered practically zeroを聞いてくるだけなので,右側と左側で検定を実行しているだけのようです.これは非常に現実的かつわかりやすい手法と思います.一般的には効果量を見積もってa posteriori(事後) 的に検証するわけですが,これがわたしにはどうも曖昧です.効果量は対立仮説が明確に定義できるという特殊な状況でのみ意味を持つように思うからです.ましてや,差がないことを確認したいのに,その効果を見積もらなければならないというのは抵抗があります.効果量がわからなければベータリスクは計算できず,従って検出力もわからないわけです.
しかも,効果量にもいろいろ定義があってCohenのdとかHodgesのgとかが有名ですが,他にも二つのサンプル間の相関を補正したものなど様々な指標があります.社会心理学の学会誌のBASP(Basic and Applied Social Psychology)がp値を使った研究の投稿を受け付けないと発表したのをきっかけとしてでしょうか,仮説検定という手法には逆風が強い昨今です.以前と比べて効果量に言及した論文が増えてきているようです.
わたしはBASPの決定について少し疑問に思うところがあります.ある会社でカッターを使用中に怪我をした人が出て,以降その会社ではカッターの使用が禁止されてしまったそうです.カッターというツールで怪我をすることを心配するならば,それを必要とする行為がなくすか,まずは怪我をしないようなツールの使い方を徹底させるべきです.そうでないとハサミで怪我をすることになります.
BASPのp値禁止例は苦渋の決断であったことが文面から読み取れますが,ここに書いてある代替手法を使ったとしてもすべてがクリアになるわけではありません.このQ&Aに書いてあるように,信頼区間もダメでベイズも積極的にはすすめないということであれば,何を使えばいいかというとstrong descriptive statisticsとのことです.そしてこの中に効果量の算出も含まれると.サンプルサイズが正義というのは社会心理学的にはそうなんでしょうけれど,少ないサンプルで開発をしていかなければならない技術者の立場からは違和感があります.社会心理学であっても,サンプルサイズを大きくするには費用もかかるのでそれこそスポンサーの有無が研究結果に影響を及ぼすことになりかねません.p値のかわりに効果量を使うだけならば,カッターを禁止されてハサミで怪我をすることになるだけではないでしょうか.
昨今のp値をめぐる議論については,わたしは技術者の立場からは以下のように考えています.従来通りp値で検定して,その結果を効果量で検証して両者の結果が食い違ったならばそのことを明確に報告し,必要であれば追加で実験をする.その際に,仮説検定のロジックは完璧に理解しておくべきです.心理学と違って技術者があつかう問題は通常シンプルです.素直な仮説検定が有効に使える事例も間違いなくあります.他の分野では「仮説検定は使いものにならないから禁止する」というのはある意味正しいのかもしれませんが,そういうノイズに惑わされることはありません.その上で,仮説検定は主観的な意思決定のツールなのだという認識が必須です.主観的に許容するType Iエラーとして有意水準をスタートに置くのだから,たとえ「差がある」「差がない」という定性的な判断であっても,そこに主観が入り込んでくるのは避けられないのはむしろ当然ですよね.
思いついたことをそのまま文章にしているので,なんかまとまりなくてすいません.それではまた.
タグ:統計学 JMP
posted by Tad at 19:00| Comment(0) | TrackBack(0) | Stat Spotting

2018年06月02日

サンプルサイズ1で予測する先が読めていない一部の人々

先日,何かの拍子に「Stat Spotting」を検索したところ,日本語ページではここがトップに上がってきて驚愕しました.ジョエル・ベスト(2011)『あやしい統計フィールドガイド』,白楊社では,スタット・スポッティングとカタカナ表記であることが,本家を差し置いてしまった要因と思われますが,そもそも日本語では馴染みがない言葉だからということも理由の一つにあるのでしょう.
このブログでもカテゴリーに登録したもののなかなか記事が書けないStat Spottingですが,実はネタはゴロゴロしてはいるのですが,それらを題材にして記事を書くのはなかなか難しい面があります.それはなぜかというと,基本的にクリティカルな考察に基づくので,誰か(たとえそれが法人であっても)を批判することに繋がってしまうからです.しかもこちらは後出しジャンケンで有利ですから卑怯な真似はしたくない.いえ,別に戦っているわけではないんですけど.
そいうわけでオリジナルの論文にも目をとおしたネタがいくつもあるのですが,掲載を控えております.そんな中,最近目にしたのがこちらの記事です.
大西英男議員の事務所から受けた、受動喫煙記事への抗議に対する回答最初にいっておきますが,この記事を批判するわけではないです,これをきっかけとしてあることを言いたいだけです.この記事はダイヤモンド社の書籍オンラインの連載の最新のもので,いつかここでも紹介した中牧先生と津山先生との共著である『「原因と結果」の経済学』がテーマです.お読みになっていただければわかりますように,受動喫煙について衆議院議員とやりとりした経緯が書かれています.著者が受動喫煙規制推進の立場で,議員がそれに待ったをかけている側です.疑問4のところに出てくる「「自分の周辺エピソード」で政策を形成する前時代的な一部の国会議員たち」という表現はうまいですね.わたしなら「サンプルサイズ1で予測する先が読めていない一部の国会議員たち」とでもいいましょうか.
受動喫煙防止に関する議論を深めることは公益に資するというのは全くそのとおりと賛同します.とはいえ,このブログではその議論には踏み込みまず,「疑問1 受動喫煙規制で売上が下がった飲食店の意見は無視か」について言及します.この論点では,受動喫煙対策を推し進めると飲食店の売り上げが減るのではないかという仮説の検証がポイントになっています.実際,この議員の言うように売り上げが減ったお店もあったのでしょうか.そういうクレームには「そんな小サンプルのデータからでは何もいえません.」と返せばいいのですが,真面目にIARCによる系統的レビューの結果を紹介してくださっています.
更に,別の先生がこのレビューにタバコ産業との関連性という因子を導入して視覚化したグラフも掲載されています.このグラフがStat Spottingの双眼鏡の中に入ってきました.このグラフによれば,タバコ産業に研究助成を受けている研究結果ではタバコ産業に都合の良い結論が多いのは間違いないようです.この手の研究が食品業界に多いのはよく知られています.事実,アメリカに住んでいたときに**は健康に良いという類のときにとんでもニュースを度々目にしました.そういうニュースのソースはその食品業界の企業がスポンサーとなっていたり,あるいは自社の研究であることも批判されていました.とはいえ,このこととは別にして,アメリカの企業には社会に貢献するという意志が感じられるのは,素直に素晴らしいと思います.(もちろん,データの捏造はしていないということが前提です.)統計学でも有名なジョージア工科大学には当地の有力企業であるコカ・コーラがスポンサーになっている講座があると聞きました.だからといってコカ・コーラが健康に良い(胃閉塞の治療に使われているとどこかで読んだ記憶があります)などという研究と関係があるのかは不明ですけど.
念のために言っておきますが,わたしはタバコが苦手です.その昔新幹線に喫煙車両があった頃には喫煙車両の隣の禁煙車両も避けていたくらいです.(今でもわざわざ喫煙室から最も離れた席に座ります.)このため,乗れる号車が少なかったので苦労しました.こんなことを申しますのも,これからこのグラフに疑問を呈するので,喫煙者と思われるのが心外だからです.この系統的レビューのグラフの解釈に違和感を感じています.わたしには,このグラフから「質と中立性の高い研究のほとんどが、受動喫煙規制が売上に与える負の影響はないと結論付けている」とは言えないように思えます.タバコ産業の助成を受けた研究であってもデータの捏造まではしていないとすれば,このグラフから言えるのは「研究結果はスポンサーとの関連性という因子の影響を大きく受ける」ということに過ぎないのではないでしょうか.WHOの研究所で「厳密で科学的な方法」と認定された研究ですから,タバコ産業の関与があったとしても質的には高い研究であるはずですし,中立性という点ではタバコの健康被害を懸念する研究者の研究も中立ではないでしょう.(良い方向とはいえどもある意味でバイアスしているので.)
このようにグラフにしたことで視覚的に訴える力は強力なので,このような見せ方をするならば,系統的レビューの統計手法に焦点を当てたメタ分析にまで突っ込むべきと思います.オリジナルのIARCによる系統的レビューがどちらかというとナラティブなレビューに留まっているのはなぜか.例えば「有意性」という言葉は一箇所しか出てきません.このグラフだけでは,一次研究の統計手法にまで立ち入って新たにメタ分析をしたものなのか不明で,この記事ではそこには触れられていないので,おやっと思いました.
ここからはこの記事を離れてあくまでも一般論ですのでご注意ください.そもそも「厳密で科学的な方法」により導出された結果にどうしてこのような大きな違いがあるのでしょうか.系統的レビューやメタ分析の対象となる一次研究ではその多くに仮説検定が使われています.仮説検定はもちろん科学的なデータ分析の手法ですが,メタ分析の素材としては不向きなのです.というのも,ご存知のように有意水準の設定によって結果はいかようにも変えることができるからです.(誤解のないように言っておきますと,実験後に有意水準を変えるのはもちろんご法度ですが,実験前に予め意図的により厳しくあるいは緩く有意水準を決めるのは合法です.)有意水準であれば,まだ0.05というしきたりを踏襲することで結果に普遍性をもたらすことはできるかもしれません.特定の研究分野で有意水準が慣習的に定まっているケースとして,素粒子物理では有意水準は3x10^−7といいます.ノーベル賞候補の研究だと騒ぎになって,実は間違いでしたでは済まされないからなのでしょうか.
しかしながら,有意水準はまだしもサンプルサイズはすべての研究で揃えるわけにはいかないでしょう.例えば,t検定ではt値の分母は標準誤差ですからサンプルサイズのルートに反比例します.サンプルサイズを大きくすれば有意性が出しやすくなるといわれる所以です.とはいえ,こういうことをもっともらしくいう人は実務を知らないのかもしれません.実務ではサンプルサイズを大きくすると様々なノイズが混入してきやすくなり,それらが有意差を見えにくくするという影響もあるので,サンプルが大きければどんな有意性でも出せてしまうというのは言い過ぎと思います.平均の回帰という統計現象も考慮すべきという説もあります.技術者としては,サンプルサイズが少ないと有意差が出せないことのほうを危惧すべきです.タバコの例でいうならば,むしろ資金の少ないであろう中立の研究で必要な検定力に足るサンプルサイズがあったのかを確認すべきです.
技術者の場合,その検定結果を使って意思決定するのは自分ですから,有意水準にせよサンプルサイズにせよ二種類の過誤を自ら引き受けて決めればいいのですが,社会科学における検定ではその覚悟は研究の立場によって変わってきます.例えば,受動喫煙の健康被害を食いとどめるという志の高い研究者であれば,(有意差を示したくない研究では)ベータリスクが大きくなることを覚悟してアルファリスクを小さくするでしょう.結果としてタバコ産業に厳しい結果になるはずです.タバコ産業に支援を受けている研究者であれば,もしかしたらベータリスクが大きいことのほうを気にするかもしれません.このように厳密に科学的な手法であっても,仮説検定にはそこにある程度の分析者の意思(決意)がはいってくることは避けられないので,それらの総意をメタ分析として抽出するのはよろしくないのです.
社会科学的な実験では,サンプル抽出においても非サンプリングエラーを皆無にするには極めて困難です.(調査を覆面でやったりするとか,低減する手段はいくつもありますが,そうなると回収率が悪くなるとかの問題も出てきます.)このような実験デザインにも研究者の熱意というパラメーターが入ってきます.例えば,その熱意が人々の健康のために向くか,スポンサーのご機嫌とりに向くのかによって検定の結果が変わってしまう.ですが,どちらも厳密に科学的な手法による結論には違いありません.
何が言いたいかというと,系統的レビューにおいては,すべてのデータを統合して結論を導くのが基本だと思うので,タバコ産業との関係のありなしで研究を層別化するのは,趣旨にはずれているのではないか,ましてやそれらをはずれ値として除外して結論を出すのは,わざわざ系統的レビューをする意味がないように思います.このことは一次研究に検定が採用されていなくても言えることと考えます.更に,一次研究が仮説検定であって,それらのメタ分析をするならば,それぞれの検定手法の詳細(サンプルサイズや有意水準)が明らかになって,それが異なっている場合は何らかの調整が必要です.あるいは,近年では効果量をベースにしたメタ分析を実施することが一般的になっています.連載記事にはこのグラフの引用先が書かれているので,行ってみると「厚生労働科学研究成果データベース」の「たばこ規制枠組み条約を踏まえたたばこ対策に係る総合的研究」がソースらしいのですが,この報告書はお役所特有の分割されたPDFになっているので,パッと見では探せませんでした.
というわけでこれからこの報告書を読んでこのグラフの背景について調べてみます.とはいえ,時間がかかりそうなのでこの続きはまた来週.それでは.

追記:引用元にちゃんと書かれていました.「分担研究報告書2-2」にこの図があるようです.これから読みます.
タグ:統計学
posted by Tad at 19:00| Comment(0) | TrackBack(0) | Stat Spotting

2018年02月24日

「お国柄」をコントロールする

先週の続きをもう少し.『原因と結果の経済学』では回帰分析は「ありもののデータ」を分析するための手法として紹介されています.その上で「回帰分析」では因果関係を明らかにすることが困難であり,そのためにはRCT(あるいは擬似実験)によらなけらばならないという説明に違和感があると書きました.
「ホルモン補充療法の罠」と題したコラムにも,女性ホルモンが動脈硬化を起こしにくくしているという仮説に対して,観察データを用いた(回帰分析による)研究ではこの仮説が肯定されたものの,この効果を確認するために実施されたRCTではこの仮説は否定されたというよく知られている話が紹介されています.Women’s Health Initiative(WHI) の中間報告でホルモン補充療法(HRT)を受けるとむしろ心筋梗塞のリスクが高くなることが示された経緯は堂地先生の日本産科婦人科学会雑誌の解説(日産婦誌58巻9号)に詳しく書かれています.わたしも当時のメディアでセンセーショナルに報道されたことを覚えています.上記の日産婦誌のを読むとその後の研究でWHIの報告にもいくつかの疑問があって,未だHRTのリスクとQOLとの間の線引きはグレーのようです.RCTといえども完璧ではないことの良い例ですね.
いずれにせよ,観察データの分析ではHRTのリスクが見逃されたのは事実です.RCTと逆の結果となったことのカラクリはHRTを受けるような女性は,所得が高く健康への関心も強い,したがって生活習慣も動脈硬化を起こしにくい人々であったからとコラムでは説明されています.その一節を引用すると
「健康への関心」といった交絡因子の存在を検討せず,見せかけの相関に過ぎないものをあやまって因果関係と解釈していたのではないか.」(引用ここまで)
おそらく,このとおりなのだと思いますが,とはいえ,このミスは回帰分析という手法のせいではありません.
わたしは一度に並行して何冊もの本を読む癖があるのですが,ちょうど同じ時期に読んだ,畑農・水落(2017),『データ分析をマスターする12のレッスン』,有斐閣,に面白い例があったのでそれをここで紹介します.因みに,こちらの本は社会科学分野を対象としています.特に後半では個票データの回帰分析を扱っているので,技術者向けのデータ分析とは少々毛色が異なるのですが,二つの標本分散についてきちんと説明していたり,ダミー変数を導入した質的変数の扱いについての説明は優れていますし,何よりも著者自らがデータに向き合っていることがわかるよい本です.
ここの計算は統計ソフトを使えば簡単にできます,とあっさり流している箇所が度々でてきますが,統計ソフトのありがたさが実感できます.データの性質から質的データの分析が多く紹介されていて,JMPで名義尺度の「モデルのあてはめ」を実行すると,その背後でどのような処理が走っているのかを知ることで,データ分析の理解は一層深まります.
さて,『12のレッスン』にある女性労働力率と合計特殊出生率との関係をJMPで3分間分析してみました.このデータ分析の背景は女性が働くようになると少子化が進むという仮説に対する検証です.この段階で(この本では明示的には触れてはいませんが),交絡因子として「経済の低迷といった社会背景」が考えられます.この状況で社会実験を実施しなければ因果関係はわからないと評論するのは簡単ですが,まずはデータに向きあうことが重要です.このデータでは1980年と2000年のそれぞれで都道府県ごとの上述した二つの変数が記載されています.相関をみるだけならJMPのグラフビルダーを使えば簡単です.『12のレッスン』にあるデータ全体の相関係数と年を層別にした場合の相関係数は正負が逆になるという「シンプソンのパラドックス」もこのようになります.本日は時間がなくPDFでアップしますのでサムネイルはありません.
PastedGraphic-1.pdf
PastedGraphic-2.pdf
ここで経験ある分析者であれば警戒のアラームが鳴るはずです.『12のレッスン』ではこのパラドックスの背景には「都道府県における地域背景」が関与しているのではないかとの仮定のもとに次の分析にすすみます.ここで問題となるのはこの地域ごとの社会経済環境という「お国柄」はデータには直接現れていないこと,そもそもデータとして観察することすら困難であるということです.このようなサンプルの固有の特徴を個体効果と呼ぶわけですが,これは上述したHRTのリスク調査における被験者の収入や教育レベルあるいはその総合指標としての生活習慣に相当するものでしょう.
この個体効果を如何にしてコントロールするかということが重要になってくるわけですが,都道府県を名義尺度にしてモデルをたてると,ダミー変数を46個導入することになってしまい,このような説明変数が多いモデルはオーバーフィッティングのリスクが大きく,できるだけ避けたいところです.実際にやってみると寄与率はかなり高くなりますが,そのモデルの価値はどれだけのものなのか再現実験なしにはなにもわかりません.この場合,再現実験を実施することは不可能です.産業分野の技術者はなんと恵まれていることか.
本文にも言及されていますが,関東,京阪とか中部,北陸といった地域ごとにまとめるのも一つの手ではありますが,県境が地域特性の境になっているわけではないという日本の特殊事情がどのような影響をもたらすか.出張で天浜線(天龍浜名湖鉄道)や遠鉄(遠州鉄道)に何回か乗ったことがありますが,静岡県でも静岡市と浜松市とでは全く異文化の感があります.静岡市でも旧清水市とはまた違ったお国柄のような気もします.
個体効果をコントロールするための手法として,年の差分データで回帰分析するという方法が『12のレッスン』でも紹介されています.差分データの回帰モデルの定数項をトレンド項ということを知れば,この手法で何をしているのかが理解できることと思います.少しだけしくみをお話ししておくと,都道府県ごとの回帰モデルの切片が個体効果をあらわしているとして,それは経年変化はしないだろう(少なくとも数十年のタイムスパンでは)と仮定すると,これが1980年と2000年との差分データで消えてしまうことがポイントです.JMPでの結果を示しておきます.
PastedGraphic-3.pdf
相関は弱いとはいえ負の相関が示され,女性が働きに出ると出生率が低下する傾向が示唆されています.もちろん,他の年度のデータだけでなく各種経済指標などをデータに取り込むなどで回帰分析による結果の信頼性は高まっていき,因果関係に近づくことになることが理解できます.WHIのデータが入手できればこの手法を適用してみたいところです.
というわけで,因果関係の探求には回帰分析という手法そのものではなく,データの質が問題なのであって,直ちに着手できる回帰分析をとおして考察を深めていくことの価値は過小評価すべきではないと考えます.
もちろん,実験計画が大事であるという『統計的問題解決』の趣旨と回帰分析よりもRCTのほうがエビデンスレベルは上とする主張は矛盾はしません.とはいえ,穿った見方をすれば,RCT第一義を主張する背景には別の理由もあるのではないでしょうか.大掛かりな実験を実施できれば,自らの研究を社会的に認知してもらうのには大いに効果があることでしょう.特に,経済学の分野では実験といっても多くの人や政府を巻き込んだ大掛かりなものになるので,それなりの額の研究費も得られます.
一般人にRCTの威力と効果を知ってもらいたいというのはよくわかります.そのうえでRCTが直ちに実施できないような場合に,様々な手法でデータ分析を試みることの重要性も併記すべきと思うのです.
今週も書きなぐりですいません.それではまた.

補足
少し紛らわしい部分があったので補足します.『原因と結果の経済学』では差分データで分析する手法が「差の差分析」という擬似実験の一つとして紹介されています.差の差分析は英語ではDifference in Differencesあるいは略してDIDなどとも呼びます.一方,『12のレッスン』でやっている差分データの回帰分析はDID分析ではありません.因果関係を究明するためには措置群と対照群とを明確に示せなければなりませんし,そもそもDID分析に必要な三つの仮定が成立していないからです.
とはいえ,データの差分を取ることのエッセンスは同じです.名称は異なっていても回帰分析という手法における一つのテクニックに過ぎません.私が回帰分析と考えているもの(それはごく普通に統計学の教科書に書いてあるものですが)とこの本で回帰分析と定義しているものは異なるので注意が必要ですね.もちろん,措置群と対照群とを明確に意識してとったデータであるか否かということが(因果関係の)エビデンスレベルには重要ということは全くその通りです.
タグ:統計学 books JMP
posted by Tad at 13:15| Comment(0) | TrackBack(0) | Stat Spotting