un — Hamming第27章: 信頼できないデータ

un

ゲスト

1 / ?

統計家のブリーフケース

Hammingは第27章を一つの物語で開く。ベル研究所の統計家の友人は、ある研究の測定値が不正確であると疑った。彼は部門長と言い争ったが、部門長は再測定を拒否した。『その機器には正確さを示す真鍮製のラベルが付いているし、私の部下は信頼できる人間だ』と。

月曜日、統計家は到着して、列車にブリーフケースを忘れてすべてのデータを失ったと言った。再測定するしかなかった。新しい測定値が届くと、統計家は元の記録を提出した。それらがいかに正確でなかったかを示していた。彼はこの動きで人気を失わなかったが、不正確さはもはや否定できなくなった。

Hammingはもう一つのケースからより厳しい教訓を引き出す。電話通話パターンの研究で、同じ中央局機器によって記録されたもので、その機器が通話を接続していた。ある日、統計家は存在しない中央局に請求された通話に気づいた。さらに詳しく調べると、通話の大きな割合が数分間、存在しない事務所に接続していることがわかった。マシンはそれ自身の操作についての悪いデータを生成していた。マシンはそれ自身に関するデータを正しく収集することを信頼することはできない。

彼の三番目の例: ロサンゼルス大気汚染部門にいた彼の兄。新しい機器を受け取った場合、製造元の主張がどうであれ、あらゆる新しい機器を分解し、再組立し、再キャリブレーションすることが必要であることがわかった。

Hammingのルール: データを処理する前に常に注意深く検査せよ。プロットをつくれ。そこにあるべきではないパターンを探せ。矛盾をチェックしろ。答えがどれほど緊急であっても、データを最初にプリテストせよ。

ランダム誤差、体系的誤差、キャリブレーションチェーン

データの事前検査

Hammingの在庫調査: 彼は約100品目の18ヶ月間の在庫記録を受け取り、素朴に供給業者の保証を信じた。不整合が削除されていたと。プロジェクトの後期になって、彼は残りの不整合を見つけた。エラーなしでは発生できなかった項目 (例えば、空の在庫からの引き出し)。

彼は結論づけた: '最初にそれらを見つけ、次にそれらを削除し、その後データ全体を再度実行する必要がありました。その経験から、データを処理する前に注意深く検査するまで処理しないことを学びました。'

信頼する前に新しいデータセットに適用する3つの具体的な一貫性チェックを説明してください。各チェックについて、それが何種類のエラーを検出するのかを説明してください。そして、供給業者の保証にもかかわらず、そのようなエラー型がなぜ存在する可能性があるのかを説明してください。

2種類のエラー

あらゆる物理的測定は2種類のエラーを持つ:

ランダム誤差: 真の値の周りの予測不可能な変動。通常はガウス分布に従う。ランダム誤差は平均化で相殺される: 十分に多くの測定値を取って、平均は真の値に近づく。

体系的誤差 (バイアス): 一方向の一貫性のあるオフセット。すべての測定値は同じ量だけシフトしている。平均化しても除去されない。なぜなら、多くのバイアスのある測定値の平均はやはりバイアスがあるから。

Hammingの物理学の例: 10の基本定数のテーブル (光の速度、アボガドロ数、電子の電荷など) が編集された。その後24年後に改善された機器で再編集された。平均すると、新しい値は古い誤差範囲外に5.267倍落ちた。これはランダム誤差だけからは信じられない。ランダムエラーがこの大きさであれば検出可能であろう。説明: 古い機器は誤差の陳述に含まれていない体系的なエラーを持っていた。その技術はコミュニティ全体で共有される欠陥を持っていた。

Shannonの発言: 『キャリブレーションは測定で最も重要なことである』。キャリブレーションは体系的なエラーに対処する。もし機器が一貫して3%高く読んでいたら、何度も測定しても修正されない。キャリブレーションし直す必要がある。

体系的誤差の識別

ハッブル定数: 銀河の赤方偏移と距離の関係から測定される宇宙の膨張率。複数の独立したグループは過去50年間にこれを測定している。歴史的に、多くの公表された値は他の公表された値の誤差範囲外に落ちた。つまり、分解は誤差の陳述が予測するより大きかった。

ハッブル定数の独立した測定がそれぞれ小さな誤差の陳述を持つことができるが、それらの誤差より大きい量によってまだ一致しないのはなぜですか。このパターンを引き起こすのは何種類のエラーですか。そしてランダムエラーと区別するために実験的にあなたは何をしますか。

テストできないものをどのようにテストしますか?

Hammingは誰も完全な解決策を持たないが、実践的なすべてのエンジニアが最終的に直面する問題を提示する: テストがあなたが持つ時間より長い場合、テスト装置がテスト中のデバイスより信頼性が低い場合、信頼性のためにデバイスをテストする方法は何ですか?

シナリオ: デバイスはフィールドで20年間 (175,000時間) 持つ必要がある。あなたの耐用年数テスト研究所は10,000時間の動作定格である。あなたのテスト期間予算は3ヶ月 (約2,000時間) である。デバイスはフィールドで最大85°Cの動作温度に直面することが期待される。

加速テスト: デバイスを105°Cで実行し、故障は85°C (一般的なエンジニアリング経験則) より10倍速く発生すると仮定する。その後、105°Cで2,000時間は85°Cで20,000時間を『表す』。しかし、それはしますか?

問題: 105°Cでの故障モードは85°Cでの故障モードと異なる可能性がある。はんだ接合が85°Cで熱疲労によって失敗し、105°Cで酸化によって失敗する場合、加速テストはフィールド寿命について何も有用なことを告げない。

Shannonの助言が適用される: キャリブレーション — あなたの測定が実際に何を測定しているかの理解 — が重要なステップである。加速テストは、故障モードが同じ場合にのみ温度を故障率に対してキャリブレーションする。これを検証するには別の研究が必要である。

耐用年数テストを設計する

あなたは人体に埋め込まれた医療デバイスの信頼性エンジニアである。10年 (87,600時間) 持つ必要がある。あなたの研究所予算は6ヶ月のテスト (4,380時間) を許可する。デバイスは体温 (37°C) で動作する。

単に50°Cまたは60°Cで加速テストを実行し、10年間の信頼性を予測するためにそれを外挿することの根本的な問題は何ですか。加速テストが見逃したり、誤ったキャラクタライズを行う可能性がある2つ以上の具体的な故障モードを説明し、外挿を検証するために収集するであろう追加の証拠を説明してください。