あなたがあなたの救世主

あなたがあなたの救世主

「悟り」のこととか、この世界から「戦争」「差別」「暴力」を本当になくすという無謀な挑戦とか

あなたがあなたの救世主

NESARAとGESARA
アドレノクロム
淡路島とパソナ
ロジャー・ストーン
ロックステップ計画
火ヴァッチャ経

統計で嘘をつくためのレッスン

Hatena Feedly

f:id:kazzhirock:20201112201107p:plain
 

ようこそ、みなさん。

今日の記事は「とても多くの方々のお役に立つ」ようなものだと思います。

※ 特に企業にお勤めの方になど。

はじめに。

先日の記事は『ベンフォードの法則』というものが、どのような「不正選挙の証拠として利用されようとしているのか?」についてでした。
kazzhirock.hatenablog.jp

その記事の中で、「バイデン候補側の不正の証拠と思われるデータ」として取り上げられている図ですら「何者かの修正が加わり広まっているのではないか?」という疑いを持っているコメントもご紹介させていただきました。

※ 「Skeptics Stack Exchange」というサイトでのコメント欄でのこと。

私は2番目のチャートだけに対処します。

 

『統計で嘘をつく方法』の中からまっすぐに出てきたものだからです。

 

コメンターが指摘したように、垂直方向のスケールは異なります。狭い縦のスケールは、変化を大きく見せます。一方、広い垂直方向のスケールは変化を滑らかにします。バイデンのグラフはトランプのグラフよりも狭いスケールを使用しています。

 

同じ尺度で1つのグラフにまとめてみると、彼らはもうそんなに違って見えません。

https://i.stack.imgur.com/uzYKg.png

グラフから数字を目測していましたが、もっと正確な数字を出しても結果は変わりません。その数字が正しいかどうかもわからない。ある程度の確信を持って言えるのは、このグラフは嘘を売るために意図的に作られたものだということです。0から最大にするか、最小から最大にするか、どちらか一方の尺度を選択するのは当然のことです。誰かがそれぞれのグラフの縦軸を使い分けることを選択しなければならなかった。

ジョー・バイデン候補の獲得した票は『ベンフォードの法則』に反しているのか?【海外記事より】 - あなたがあなたの救世主

で、このコメントの中に出てきた『統計で嘘をつく法』という本なのですが。

統計でウソをつく法―数式を使わない統計学入門 (ブルーバックス)

こちらの本は「伝説の名著」扱いされている一冊でして、実際に私もかなり昔読んだことがあるのですが、非常に「役立った実感のある」本でした。

gendai.ismedia.jp

そんなわけで、みなさんにご紹介したいなぁと思っていたところ、非常に上手にまとまった海外記事を見つけましたので、いつものように翻訳してご紹介させていただきたいと思います。

 

それでは、早速。

統計で嘘をつくためのレッスン

時代を超えたデータリテラシーのアドバイス

 

『統計で嘘をつく法』は、1時間で読める65年前の本で、"ビッグデータ "や "ディープラーニング "に関するどの本よりも、毎日使える実用的な情報を教えてくれます。機械学習ペタバイト規模のデータによって約束されたすべてのことのために、データサイエンスで最も効果的なテクニックは、まだ小さな表やグラフ、あるいは状況を要約し、私たち - あるいは私たちの上司 - がデータに基づいて情報を得た意思決定をするのに役立つ単一の数字である。

 

私は何度も何千もの作業時間をかけて複雑なアルゴリズムを1つの数字にまとめているのを目の当たりにしてきました。最終的には、人間が処理できる数個のデータを使って、最大の意思決定が行われるのです。だからこそ、『統計で嘘をつく法』(ダレル・ハフ著)の教訓は、この本を書いた時点では、私たち一人一人が一日に全世界に存在するデータよりも多くのデータを生成しているにもかかわらず、関連性のあるものなのです。表やグラフの生産者として、私たちは効果的に有効な要約を提示する必要があります。情報の消費者として、私たちは、私たちを操作して、私たちを犠牲にして誰か他の誰かに利益をもたらす行動を取るために誤解を招くような/誇張された統計を見極める必要があります。

 

これらのスキルは「データリテラシー」と呼ばれるカテゴリーに該当します。アルゴリズムビッグデータ処理に比べれば、データリテラシーは刺激的には見えないかもしれませんが、データサイエンス教育の基礎となるはずです。幸いなことに、これらのコアとなる考え方は時が経ってもあまり変わらず、多くの場合、このテーマに関する最高の本(『THE VISUAL DISPLAY OF QUANTITATIVE INFORMATION(定量情報の視覚的表示)』など)は数十年前のものになります。この記事で取り上げた古典的な本は、データの責任ある消費について、簡潔で効果的で楽しい形式で取り上げています。ここでは、『統計で嘘をつく法』から学んだ私の教訓を、私の経験からの解説とともに紹介します。

How to Lie With Statistics

※ データリテラシーの古典『統計で嘘をつく法』

The Visual Display of Quantitative Information

 ※ 『THE VISUAL DISPLAY OF QUANTITATIVE INFORMATION(定量情報の視覚的表示)』

 

1.相関関係に気をつける

2つの変数XとYが相関している場合、つまり「一緒に増加したり、一緒に減少したり、一方が増加して他方が減少したりする場合」には4つの可能な説明があります。

 

A. XはYを引き起こす

 

B. YがXを引き起こす

 

C. 第3の変数Zは、XとYの両方に影響を与える

 

D. XとYは全く関係ない

 

私たちは、CやDがそうである可能性が高い場合、すぐにAやBに飛びつくことがよくあります。例えば、大学教育の年数が多いほど高収入になるという話を聞いたとき、私たちは大学の年数が多いほど裕福になると結論づけます。しかし、高学歴化と高所得化の背景には、勤労意欲や親の収入などの第3の要因がある可能性もあります。第3の隠れた変数は、因果関係について誤った結論を導く可能性がある。

 

また、2つの変数が相関しているように見えても、実際にはお互いに何の関係もないこともあります。データセット間で十分な比較を行えば、同期して動いているように見える興味深い関係を見つけることができるでしょう。Tyler Vigen氏はSpurious Correlationsでこれらを文書化しています。

https://miro.medium.com/max/700/1*pCaQmd_yr-bEKZg9Isbctw.png

※ 疑わしい相関図 (出典)

 

相関関係は因果関係を意味しないというアドバイスは誰もが聞いたことがあると思いますが、因果関係があったとしても、それがどっちに向かうのかわからないことが多いですよね。教師が生徒をより多く褒めると、成績が上がるのでしょうか?成績が上がれば褒められることも増えるのでしょうか?それとも第三の要因があるのでしょうか、クラスの人数が少ない、またはクラスに自然な照明があると、両方の変数が増加するのでしょうか?原因の質問には、測定していない追加の要因を除外できない観察研究ではなく、無作為化比較試験によって答えが得られます。誤解を避けるために、交絡因子を探すことで、変数間の相関関係に懐疑的にアプローチしてください。人間はきちんとした因果関係のある物語が好きですが、それは通常、データが私たちに伝えていることではありません。

2. 関係は永遠に続かない

相関関係を特定することに成功したとしても、それが正の方向にも負の方向にも永遠に続くと思い込んではいけません。線形関係(訳注:直線でモデル化されるデータの傾向)は、ほとんどの場合、両方の変数の限られた領域でのみ線形になります。ある点を超えると、関係は対数的になったり、完全に消えたり、逆になったりすることがあります。

 

これは、時間をかけて外挿した成長曲線で観察することができます。成長が一定の速度で起こる線形性の期間があるが、ほとんど何も無限に成長し続けるので、最終的には成長は平らになる。

https://miro.medium.com/max/700/1*Ymk6DD7s4P54zSoAOJ8Y_A.png

※ 男性の身長と年齢は成長曲線の平準化を示している(出典)。

 

関係の適用範囲を超えて外挿することは、一般化エラーとして知られています。局所的な現象を取り上げて、それをグローバルに適用しようとしているのです。人々は貧困から抜け出すと、生活に満足する傾向があります。しかし、ある時点(おそらく年間75,000ドル)に到達すると、幸福度は富とともに増加せず、減少することさえあります。このことは、テスト勉強のように人間の活動の多くの側面にあるように、富を増やすことにもリターンが減少することを示唆しています。

https://miro.medium.com/max/700/1*-KO91D8OpTIvHJJ9cpK8yQ.png

※ ある程度の所得レベルまでは豊かになると幸福度が上がる (出典)。

 

企業の成長率、人口統計、株価、国の支出など、私たちはいつも外挿を見ています。多くの場合、ある地域で有効な関係を利用して、チャートから外れた地域についての主張をすることがあります(例えば、年間100万ドルで純粋な至福をもたらすと主張するなど)。地域の関係性が必ずしもグローバルに適用されるとは限らないことを覚えておいてください。因果関係を検証したとしても - またはチャートで1つを参照してください。 - 有効性の限られた地域以外では理解できないようにしてください。

3. 常にチャートの軸を見る

グラフの軸を調整して主張することは、チャートを操作する際の古典的なテクニックです。第一原理として、棒グラフのy軸は常に0から始まるべきですが、そうでない場合は、例えば、小さな増加を大きな変化に変えるなど、範囲を操作することで議論を証明することは簡単です。

https://miro.medium.com/max/560/1*r-R68dG4eslhV6w-7j3B3Q.png

※ Y軸が0から始まらない誤解を招くグラフ(左) (出典)。

 

誤解を招くようなグラフのもう一つの例は、異なるスケールのY軸です。慎重に値を調整することで、何もないところに驚くようなトレンドを生み出すことができます。

https://miro.medium.com/max/430/1*0Jwut4EBcSU6MyEItg_0tA.jpeg

※ 「わずかな増加しかないところ」に極端なトレンドを生み出す誤解を招くグラフ(出典)。

 

これは明らかな操作のように見えるかもしれませんが、人々は情報を読まないので、広告主や新聞社はそれで逃げることができます。ほとんどの人はグラフを見て、グラフを作った人の思い通りに、線や棒の形からすぐに結論を導き出します。これに対抗するために、軸の値を読んでみてください。簡単に調べれば、変化が見た目ほど大きくなく、何もないところからトレンドが生まれていることがわかるかもしれません。

 

グラフを作る練習をすれば、グラフを操作することがいかに簡単にできるかがわかります。不正確な数字を防ぐには、自分でグラフを作る練習をするのが一番かもしれません。

 

(正当なデータの可視化についての良書が欲しい場合は、Edward Tufteの『The Visual Display of Quantitative Information』やClaus Wilkeの『Fundamentals of Data Visualization』をチェックしてみてください)。

Fundamentals of Data Visualization: A Primer on Making Informative and Compelling Figures

※ 『Fundamentals of Data Visualization(データ可視化の基礎知識)』

4. 小さなサンプルは衝撃的な統計を生む

癌の発生率が最も高いのは人口の少ない郡で発生する傾向があると言ったら驚きますか?それほど衝撃的ではありません。がんの発生率が最も低いのは、人口が最も少ない郡で発生する傾向があることを付け加えてみてはどうでしょうか?これは、サンプルサイズが小さいと何が起こるかの検証された例です:極端な値。

 

研究者はいつでも研究を行う際に、サンプルと呼ばれるものを使用します。サンプルが十分に大きく、より大きな母集団と同じ分布を持つ場合には、これはうまくいくかもしれませんが、資金や回答率が限られているために、心理学、行動学、医学の研究は小さなサンプルで行われることが多く、その結果は疑わしいものであり、再現できないものになってしまいます。

 

科学者は通常、正当な問題によって小さなサンプルに限定されます。しかし、広告主は、多くの小さな研究を行うことによって、自分の利益のために少数の参加者を使用しています。そのうちの1つが肯定的な結果をもたらすことになります。人間は研究を評価する際にサンプルサイズを調整するのが苦手で、実際には1000人の試験の結果を10人の試験と同じように扱うことになります。これは、「サンプルサイズに対する鈍感性」または「サンプルサイズの無視」として知られています。

 

ここにもう一つの例があります。もしあなたが自分自身がデータリテラシーがあると考えているなら、この質問には何の問題もありません。

ある町には、2つの病院があります。大きい方の病院では一日に約45人の赤ちゃんが生まれ、小さい方の病院では一日に約15人の赤ちゃんが生まれます。ご存知のように、赤ちゃんの約50%は男の子です。しかし、正確な割合は日によって異なります。50%より高い時もあれば、低い時もあります。

 

各病院では、1年間を通して、生まれた赤ちゃんの60%以上が男の子であった日を記録しています。そのような日の記録が多いのはどの病院だと思いますか?

 

1. 大きい方の病院

2. 小さい方の病院

3. ほぼ同じ(つまり、お互いに5%以内)。

あなたが「2. 小さい方の病院」を当てたのなら、おめでとうございます。この推論は、サンプルサイズが小さいほど、値が極端になるというものです。(これは、TverskyとKahnemannの『Judgment under Uncertainty: Heuristics and Biases(不確実性の下での判断:ヒューリスティックとバイアス)』からの引用です。私は、この論文とThinking, Fast and Slowを読んで、私たちの意思決定に影響を与える認知バイアスについて学ぶことを強くお勧めします)。

(訳注)

認知バイアス(にんちバイアス、英: cognitive bias)とは、認知心理学や社会心理学での様々な観察者効果の一種であり、非常に基本的な統計学的な誤り、社会的帰属の誤り、記憶の誤り(虚偽記憶)など人間が犯しやすい問題である。 転じて認知バイアスは、事例証拠や法的証拠の信頼性を大きく歪める。

認知バイアス - Wikipedia より

Judgment under Uncertainty: Heuristics and Biases

※ 『Judgment under Uncertainty: Heuristics and Biases(不確実性の下での判断:ヒューリスティックとバイアス)』

 

小さなサンプルが極端な結果を生む」という原理を、コインをひっくり返して試すことができます。小さなサンプル、例えば5回トスした場合、4枚の裏が出る可能性が高いとします。これはコインが常に80%の確率で裏を取るということでしょうか?いいえ、これは「サンプルが小さすぎて有意な結論を出すことができない」ことを意味します。

https://miro.medium.com/max/700/1*_8fs9NMTBAZKQp_vR1bPuA.png

※ サンプルサイズが小さいと、より極端な結果が得られる(出典)。

 

このトリックは、特定のブランドについて少数の人に尋ねることで、商品をマーケティングするときによく使われます。少人数のグループに繰り返し調査を行い、好ましい結果だけを報告すれば、印象的な数字を得ることができます(90%の医師はこの歯磨き粉が好き)。少人数のグループに聞いて、結果を見て、悪いことは捨てて、必要な統計が取れるまで繰り返しましょう!

 

小さな標本サイズに騙されないための解決策は、データ中のオブザベーション(観察事項)の数を探すことです。もし与えられていなければ、その研究を行った人は何か隠していることがあり、その統計は無価値だと仮定してください。行動科学者は、私たちのほとんどがサンプル・サイズを無視することができることを示しています。同じ轍を踏むまないでください - 小さなサンプルからのショッキングな統計ではなく、多数のオブザベーションを信頼する。 

5. データセットを記述するすべての数字を見る

サンプルサイズをチェックすることは、データに騙されないための1つの方法ですが、サンプルサイズが提供されている場合に限ります。データの消費者を惑わすために使われるもう一つのトリックは、オブザベーションの数、データの広がり(範囲)、データの不確実性(標準誤差)、データの分数など、データセットを説明する関連する数字をリストアップしないことです。これらはそれぞれ、データをより深く掘り下げるために使われることがありますが、これはデータセットを提示する人の関心に反していることが多いのです。

 

例えば、ある都市の年間平均気温が62度F(訳注:華氏)だと聞いても、最高気温と最低気温を知らなければ意味がありません。都市は-20 F のように寒く、120 F のように暖かいが、まだ快適な値に平均を取得することができます。この場合も他の多くの場合と同様に、データセットを記述するのに1つの数値だけでは十分ではない。

 

 

本の中のもう一つの例として、 二人の子供がいて、そのうちの一人がIQで99を記録して、他の人がIQ102を記録する場合。あなたは本当に彼らに比較を避けるように言うべきではありません。どうして?IQテストの標準誤差は約3ポイントである可能性があるため、99を1回得点した子供は、約68%の確率で96から102の得点が期待されます。全体的な違いは有意ではないかもしれませんし、繰り返しテストで逆になる可能性があります。言い換えれば、結果から予想される標準誤差を除外することで、データから得られる結論よりも思い切った結論を導き出すことができるのです。

 

複数の数字を報告していない研究は、通常、何か隠していることがあります。同様に、グラフがデータの一部を切り取ったように見える場合、それは信頼できません。データをサブセット化することで物語を変えるのはあまりにも簡単です。

https://miro.medium.com/max/805/1*jMJEFDVcQOe3E8D-SDahuw.png

※ グラフは表示されているデータによって変化することがあります(出典)。

 

このように考えてみてください。平均して2年寿命が延びる薬があったら、それを服用しますか? 最悪の影響が12年の生命の喪失であり、最大で14年の増加であった場合、それはあなたの考えを変えるでしょうか? 通常、重要なのは詳細であり、1つの要約統計量では全体像を伝えることはできません。

6.どの平均値を使用しているかを確認する

データで必要なストーリーを伝えるもう1つの便利な方法は、「平均」の定義を変えることです。 3つのオプションがあります(賢い場合はもっと多いかもしれません):

 

  1. 平均:値を合計し、観測数で除算します

  2. 中央値:値を最小から最大の順に並べ、中央値を見つけます

  3. モード:最も頻繁に発生する値を見つける

 

この問題については以前にも書きましたが(詳細はこちらをご覧ください)、基本的な考え方は次のとおりです:分布の平均と中央値が同じであるのは、分布が正規であり、我々はほとんどが正規ではないデータを持つ世界に住んでいる場合に限ります。これは、データセットの平均値と中央値が同じ値ではないことを意味し、多くの場合、かなりの量の差があります。

https://miro.medium.com/max/653/1*yokKkjFG9kHf9U0V3L2_kg.png

※ 正規データと歪んだデータの平均値と中央値とモードの比較(出典)。

 

例えば、米国の平均所得と中央値は約16,000ドルの差があります。どの値を平均として報告するかを選択することで、政治家、マーケティング担当者、CEOは同じデータから相反する結論を導き出すことができます。

https://miro.medium.com/max/805/1*hnwpANl0JbCLE6tnlzizvA.png

※ 平均と中央値が異なる偏った分布(平均のタイプに関する私の話から)。

 

これを回避する方法は、データセットの平均、中央値、および最頻値を調べることです(ここでも、これらすべての数値が必要です!)。 どれが最も適切かを判断し(通常、収入、都市のサイズ、寿命、住宅価格などの非常に偏ったデータセットの中央値)、1つの数字の要約が必要な場合はそれを使用します。 可能であれば、値のセット全体をヒストグラムでグラフ化し、分布を確認します。 データセットを説明するために複数の数値を使用するようにしてください。平均を報告する場合は、使用している数値を指定してください。

7.共通のベースラインとの比較を使用する

統計量を見るとき、重要な質問は、多くの場合、その値が何であるかではなく、現在の値が以前の値と比べてどのように比較されるかということです。言い換えれば、絶対的な大きさと比較して相対的な変化は何かということです。2017年のアメリカのGDPが19兆3900億ドルだったと言えば、それはあなたが日常的に経験していることだから、信じられないように聞こえます。しかし、それを前年のアメリカのGDP18.62兆ドルと比較してみると、それほど印象的には見えません。

 

データはよく知らないスケールのものが多く、統計量が実際の変化を表しているかどうかを知るためには、他の数字との比較が必要です。火星の平均半径3389kmは大きいのでしょうか?他の惑星と比較してみないと、それが何を意味しているのか全く理解できません。

https://miro.medium.com/max/1150/1*dvVH8tJgdVb7Pg_1gvON3w.png

※ 統計を他の同様の数値と比較する(出典)。

 

統計値を過去の値と比較したり、同じカテゴリーの数字と比較したりするだけでなく、統計の定義が変わらないようにしたいものです。『嘘のつき方』によると、国勢調査局の農場の定義が変わったため、1930年から1935年までにアメリカの農場の数が50万件も増えた!ということです。失業率を下げる一番簡単な方法は、仕事を探さなくなった人を除外するように定義を変えることです。

 

データの収集方法や価値観の定義の変更は、しばしば実際の傾向とは異なる極端な結果を生み出すことがあります。これに対抗するには、まず、一連の値の全体を見て見通しを立てます。次に、定義が時間の経過とともに変化していないことを確認します。そうして初めて、データ系列から結論を導き出すことができます。2018年にニューヨークで289件の殺人があったと言って人々を怖がらせることができますが、それを1990年の2245件と比較すると、ニューヨーク市は決して安全ではないことがわかります。通常、重要なのは比較であり、孤立した数字で合理的な思考を揺さぶらないようにしましょう。

8.サンプル選択でバイアスを探す

母集団を代表するものであると期待するサンプルから収集されたすべてのデータについて話したときのことを覚えていますか? サンプルサイズを気にすることに加えて、サンプルのバイアスを探す必要もあります。

 

これは、使用された測定方法に起因する可能性があります。固定電話の画面は、裕福で年配の参加者を支持する可能性があります。 また、物理的な場所から発生する可能性もあります。都市に住んでいる人だけを調査する方が安いため、結果がより進歩的な見方に偏る可能性があります。 サンプルバイアスは、2016年の政治的世論調査では、サンプルが全人口を代表するものではない場合があることが示されています。

https://miro.medium.com/max/805/1*slehHUwSUPJGwDaEeRu_vg.png

※ サンプリングバイアスの働き(出典)。

 

研究を検討するとき、誰がサンプルに含まれ、誰が除外されているかを尋ねる必要があります。 何十年もの間、心理学と社会学の研究は奇妙なバイアスによって傷つけられてきました。 サンプルには、西洋、教育、工業化、金持ち、民主主義、国家の人々(多くの場合大学生)のみが含まれていました。 参加者がこれほど限られている場合、調査がすべての人類を代表していると合理的に言うのは難しいです!

 

また、情報源のサンプリングバイアスを探す必要があります。 現在、私たちのほとんどは、同意する傾向のある情報源を選択することによって、自分自身に情報選択バイアスを課しています。 これは、意見の異なる人々に出会うことができないという危険な状況につながり、私たちの見解に固執するようになります。 これに対する解決策は単純ですが難しいです。さまざまなニュースソース、特にあなたに同意しないものを読んでください。

 

ニューヨーク・タイムズの読者であれば、ウォール・ストリート・ジャーナルをしばらく読んでみてください。冒険心がある人は、自分と意見が合わない人と話してみるのもいいでしょう。これは威圧的に見えるかもしれませんが、私は、外見的には同意しない人々は、多くの場合、より多くの共通点を持っていることを発見しました - 同じコアの駆動欲求 - それぞれの側を選択するためにそれらを動機づけます。個人的には共通の理解を得るのははるかに簡単ですが、オンラインで市民的な議論に参加することは可能であり、生産的であり、自分に課せられた情報選択の偏りから逃れるのに役立ちます。

 

要約すると、私たちはメディアのソースを選択する際に、外部からのサンプリング・バイアスと自分で作成したサンプリング・バイアスの両方に注意する必要があります。あなたは、誰かに新聞一つだけを読めと言われたくないでしょうから、自分自身にも同じことをしないようにしましょう。多様な視点はより良い結果につながり、様々な意見を持つ様々な情報源を取り入れることで、出来事の全体像をより良く把握することができます。私たちは、物事の完全な真実に常にたどり着くことはできませんが、少なくとも多面的に見ることはできます。同様に、研究を読む際には、サンプルが母集団全体を示しているとは限らないことを認識し、バイアスがどのように作用しているかを把握するようにしましょう。

9. 研究の「ビッグネーム」に注意し、権威を精査する

ハフ氏は、「O.K.ネーム」という考え方を、研究に権威を持たせるために付け加えられたものだと説明している。医学の専門家(医師)、大学、科学機関、大企業などには名前があり、彼らが生み出す結果を自動的に信頼するように導いてくれます。しかし、多くの場合、これらの「専門家」は実際に仕事をしたわけではなく、ただ関係者であり、その名前は私たちを揺さぶるために付け加えられたものです。他にも、たばこメーカーが医師を使って命がけの商品を販売していた時のように、当局が直接お金をもらって嘘をついていることもあります。

 

印象的な名前に説得されないようにする一つの方法は、「調査の名前が調査の横ではなく、調査の後ろにあることを確認すること」ことです。機関名を確認せず、すぐに研究が間違いないと思い込むのはやめてください。私たちが自分自身に課す無意識の偏見を避けるために統計を分析するまで、著者や大学を見るべきではないと思います。

 

結果が確認された「専門家」からのものであっても、それはあなたが疑いなくそれらを受け入れるべきであるという意味ではありません。 権威からの議論は、より大きな力を持った人が正しい可能性が高いと私たちが仮定したときに起こる誤謬です。 過去の成功は現在の結果が正しいかどうかには関係がないため、これは誤りです。 カール・セーガン博士が述べたように、「当局は他の皆と同じように彼らの主張を証明しなければなりません。」『悪霊に苛まれる世界(The Demon-Haunted World:Science as a Candle in the Dark)』 から。

(訳注)

カール・セーガン博士は「私の大好きな人物」の一人ですし、その著書『悪霊に苛まれる世界』もオススメの本です。

悪霊にさいなまれる世界〈上〉―「知の闇を照らす灯」としての科学 (ハヤカワ・ノンフィクション文庫)

https://miro.medium.com/max/805/1*yNW0nRMj5NJElzIrdSXazg.png

※ 権威に訴える論理的誤謬(出典)。

 

科学の歴史を通して見てきたように、誰も懐疑的ではありません(アリストテレスが5つの要素があると言ったときまたはIBMの社長が「おそらく5台のコンピューターの世界市場があると思う」と言ったときを覚えています)。 偉大な発見の多くは、権威や常識に挑戦することから生まれてきました。大物の名前がついた統計は、他のものと同じように精査されるべきである。統計やデータは、より高い権力に忠誠を誓うものではない。

10.1つの統計に過度の信頼を置かないでください

「統計でウソをつく方法」の全体的なテーマは、「どのような単一の統計も懐疑的に見る」ということです。どんな数字でも、ある時点で常に変化する条件の中で、不完全なツールを使って、ミスをしやすい人間が母集団のサンプルを採取したデータセットの蒸留を表しています。データは、異なる動機を持つ外部の資金提供者がいるかもしれない機関のために働く別の人間によって分析されました。最後に、統計やグラフは、ある考えを信じさせることに興味を持っている出版社によって、あなたに届けられました。

 

これはすべて、2つの結論につながります。

 

  1. すべての信仰を1つの数字に当てはめると、その数字を生み出した特定の状況に過剰適合することになります。

  2. 統計とデータが純粋に客観的であることは決してありません。 統計は、説得するように設計された不確実なデータの1つの解釈です。

 

統計やデータ収集を完全に放棄するべきではありません。 適切な設計により、研究は重大な傾向を見つけることができます。喫煙はあなたにとって悪いことであり、クロロフルオロカーボンはオゾン層に穴を開け、富が増えると幸福が増し、フッ素化された水は歯の健康を大幅に改善します。 むしろ、データの収集と処理は不確実なプロセスであり、最終的な数値に影響を与える多くの要因があることを認識する必要があります。

https://miro.medium.com/max/805/1*jSJ5ib50VZaWXJQ66zk3NA.jpeg

※ オゾン層の穴を塞ぐための特定と作業は、データと環境のサクセスストーリーです(出典)。


人間は変化するものであり、世界は変化するものである - それが世界に生きていることの素晴らしさの一部である - 。したがって、1つのグラフまたは表にきちんと要約していると主張する統計には注意する必要があります。 値の範囲を探し、信頼区間で数値を報告し、結論にジャンプする前にさらにデータを収集し、複数の研究を比較し、データ収集プロセスの設計について質問する必要があります。

 

立証責任が反駁できない場合、私たちは自分が間違っていることを認め、考えを変える必要があります。 宇宙全体に当てはまる客観的な真実はないかもしれませんが、時間の経過とともに間違いが少なくなる可能性があります。 それが基本的に科学の目標です。新しい研究のたびに、暗闇をもう少し明るくしてください。 これはデータサイエンスの目標でもあるはずです。新しいデータセットごとに、私たちの世界の構造をもう少し明らかにしてください。 同時に、データの限界を認識し、過度に一般化しないようにする必要があります。 より多くのデータは万能薬ではありませんが、討論、複数の分析、精査を伴うより多くのデータは、より良い現実世界の意思決定につながる可能性があり、それがデータリテラシー市民として私たちが望んでいることです。

結論

データサイエンスの分野で学んだことがあるとすれば、自分の時間を最も効果的に使う方法は、4つの数字で棒グラフを作ることだということです。機械学習モデリングは最先端ですが、最終的にCEOが見たいのはシンプルなチャートで、そこから結論を導き出すことができるのです。データサイエンティストとしての私たちの仕事は、大量のデータから意味を抽出することです。意味とは、何百もの数字を表示することを意味するのではなく、価値の高い限られた少数の数字を表示することを意味します。これらの数字をどのように表示するかで、その数字がどのように使われるか、あるいは使われるかどうかに大きな影響を与えることができます。

https://miro.medium.com/max/1150/1*nt9ZfEKHtNrtaRFqt-0Iyg.png

※ シンプルなチャートが一番効果的なことが多い(出典)。

 

データリテラシーとは、グラフ、チャート、統計を解釈し、実用的な結論を導き出すスキルを持っていることを意味します。 これらの結論は、チャートを作成した人に同意する必要はありません。同意する場合は、懐疑的である必要があります。 データ製品の消費者として、私たちはデータを操作してポイントを証明したり、ネガティブをポジティブに変えたりすることがいかに簡単であるかを理解する必要があります。 統計と視覚化を読む練習をすること、つまり実際に図を読むことは役に立ちます。 もう1つの便利な戦術は、自分でたくさんのチャートを作成することです。 最高のテクニックを使って練習し、故意に他人を誤解させないようにしてください。

 

世界は悪い場所ではありませんが、心からあなたの最高の願いを持っていない人々がいます。 多くの場合、彼らはデータをツールとして使用して、自分の利益のために、自分の利益に反して行動するように説得します。 これらの戦術に対する最善のシールドは、基本的なデータリテラシーです。データを操作する方法と、誤解を打破する方法を理解してください。 健康的な懐疑論は、個人的にもデータサイエンスの分野全体にとっても良いことです。 これらの教訓を念頭に置いて、そこに出て、データの責任あるプロデューサーとコンシューマーになりましょう。

 

(翻訳ここまで)

 

towardsdatascience.com

最後に

いかがでしたでしょうか?

 

個人的には「とても素晴らしい要約」であると感じましたし、自分の姿勢を改めて「間違ってないな」と思わせてくれるものでした。

 

本文には、こうあります。

権威からの議論は、より大きな力を持った人が正しい可能性が高いと私たちが仮定したときに起こる誤謬です。

私は「天邪鬼」というか「へそ曲がり」というか...基本的に、何事も「自分なりに考えて、自分で納得しないと気が済まない」タイプでして、徹底的に「他人が言ってることを鵜呑みにしない」ような人間です。

 

カッコつけさせていただくのならば、私は「己自身に知的怠慢を許さない」というわけです。

 

だって、カッコ悪いじゃないですか?

※ 誰かの言いなり(もしくは『虎の威を借る狐』)になってるみたいで。

 

そういう「精神的な誤謬とも言えるもの」というのは、自分の中から排除しておきたいものです。

※「論理的誤謬」に関して興味がございましたら、コチラの記事をご参照ください。

kazzhirock.hatenablog.jp

 また、次のようにも書かせていただいておりました。

一番いいのは、横断歩道を渡るときと同じように「右見て、左見て、もう一度右」ではありませんが「左右どちらの意見にも目を通し、最終的には『中立(だと思われる)』の立場から発せられる『純粋に科学的視点からの分析』に目を通すこと」だと、個人的には思います。

ジョー・バイデン候補の獲得した票は『ベンフォードの法則』に反しているのか?【海外記事より】 - あなたがあなたの救世主

個人的には「できるだけ日本であまり紹介されていない)色んな立場からの記事を翻訳してご紹介しよう」と心がけております。

 

みなさんは「ALLSides」というサイトはご存じでしょうか?

www.allsides.com

このように

https://www.allsides.com/sites/default/files/AllSidesMediaBiasChart-Version3.jpg

アメリカの各メディアのスタンスを「極左」「左」「中立」「右」「極右」と分けて評価してくれているサイトです。

※ 「日本版のこういうサイト」あったらいいですよね?やろうかな(笑)

 

自分が接している情報の「発信元のメディア」が「どのようなスタンスのメディアなのか?」ぐらいは気にしておきたいものですし、それを把握した上で「真逆のスタンスのメディアの記事」にも目を通したいものですね。

 

今回のアメリカ大統領選挙ですが、実に我々に「この現実世界に臨むために必要となる姿勢」を「多く教えてくれている」のだと思います。

 

何事からでも何かしらを学ぶことはできます。

 

大事なのは、あなたがその出来事から「何を学ぶように選択したのか?」です。

 

私もまだまだ「学び続けたい」と思います。

 

この名言自体」はいい言葉だと思うので。

※ 「彼の人生とその背後」については、また別の話ですが。それもいつか。

「明日死ぬと思って生きなさい、永遠に生きると思って学びなさい」

Live as if you were to die tomorrow. 

Learn as if you were to live forever.

  - マハトマ・ガンディー

また。

 

↓良ければポチっと応援お願いします↓

ブログランキング・にほんブログ村へ


人気ブログランキング