白でもなく黒でもない

素(白)人と玄(黒)人の間にいる僕自身が、白黒はっきりさせずに曖昧な感じで気楽に、方向性を決めない雑記ブログを目指します。

統計的計算手法に関するまとめ~備忘録~

はじめに

統計学は難しいけれど道具として使えれば有用だと思う。データに対する理解が深まるし、データに客観性を持たせる事もできる。ここでは僕が生産技術者として使った事がある計算手法をまとめます。
f:id:r-w:20170120123358p:plain:w200

統計的な考え方

その0) 中心極限定理について

、、、中心極限定理は、、、多くの場合、母集団の分布がどんな分布であっても、その誤差はサンプルのサイズを大きくしたとき近似的に正規分布に従う。
(引用元 : Wikipedia)

誤差 : 標本平均と真の平均の差

その1) 工程能力Cp、Cpkの算出

工程能力
  • 工程能力は図面等で定められた公差内で製品を作る事ができる能力の事。
  • CpやCpkで表され、Cpは生産された製品の中心値(平均値)のズレは考慮されない。一方、Cpkは中心値のズレを考慮したもので、上側、下側規格との差の小さい方を割合で表し、これをCpに乗じる事で計算される。

f:id:r-w:20170120232702j:plain

  • 生産ラインの工程能力は1.33以上が望ましい。
  • 1.33、1.00、0.67という数字の意味は4σ/3σ=1.33、3σ/3σ=1.0、2σ/3σ=0.67となっている。
  • 統計的な計算を行う場合データのn数は多いほど良いが「その6」を参考にすると良い。
工程能力の区間推定
  • 平均値および分散の区間推定に示すように、これらは信頼率によってある範囲をもって求められる。そのため、工程能力も範囲をもって求められる。
  • 信頼率95%の工程能力の推定区間は下式の通り。

f:id:r-w:20170120232753j:plain

その2) 平均値の検定(t検定)と区間推定

  • 我々が計測するデータで求められる平均値は、真の平均値(母平均)の推定値である。
  • 推定値なので一点で求められず、ある範囲をもって推定される。範囲をもった2つの値同士を比較し、これらが同じとみなせるか、みなせないかを検討するとき、検定が必要になる。
  • 検定は下図に示す様にA、Bの分布の重なりを確率的に求める作業とイメージできる。重なりが大きいほど2つは同じ母集団から得た推定値であるといえ、有意な差がないとなる。
  • 母集団とは、データが真の形で分布している状態の事で、我々がデータをとるという作業は、そこからサンプリングする事と考える事ができる。

f:id:r-w:20170120232816j:plain

平均値の検定(t検定)
  • 平均値の検定は検定統計量が正規分布の採択域、棄却域のどちらにあるかで、有意差を判断する作業の事。
  • 採択域にあるなら「有意差あり(異なるとみなせる)」、棄却域にあるなら「有意差なし(同じとみなせる)」となる。

f:id:r-w:20170120232854j:plain

  • 検定は誤る可能性もある。例えば「有意差がある」のに「有意差なし」としてしまう危険もあり、これを有意水準で決めておく。有意水準は一般的に5%(信頼率95%)または1%(信頼率99%)を使うが、5%とした場合は20回検定を行ったら1回は誤る可能性がある。

f:id:r-w:20170120232915j:plain

  • 片側検定とは検定対象がプラス方向(またはマイナス方向)の一方向だけにばらつくときに行う検定。
  • 両側検定とはプラスおよびマイナス双方向にばらつくときに行う検定。よく使うのは両側検定だと思う。
  • t(φ、α)はt表により求める。
  • Excelでt検定を行う場合は、”TTEST関数”で行う。ただし、事前に分散の検定(F検定)行い分散が等しいか、そうでないかを検定しておく。
平均値の区間推定
  • データから求められる平均値は、母平均の推定値である。そのため、ある程度の幅をもって推定される。その幅を求めるのが区間推定という作業。
  • 平均値の推定は下式により求められる。

f:id:r-w:20170120232935j:plain

その3) 分散の検定(F検定)と区間推定

分散の検定(F検定)
  • 平均値と同様に、計測したデータで求められる分散は母分散の推定値であるため検定が必要になる。
  • 分散はΧ^2に分布する。
  • 分散の検定も平均値の検定と同様に、採択域にあるなら「有意差あり」、棄却域にあるなら「有意差なし」となる。
  • F(φ1,φ2;α)はF表により求める。
  • ExcelでF検定を行う場合は、”FTEST関数”で求められる。

f:id:r-w:20170120232958j:plain

分散の区間推定
  • 平均値の推定と同様に、分散の推定値の幅を求める作業。
  • 分散の推定幅は下式により求められる。
  • F検定では母分散の比しか求められないので、推定はχ^2検定で代用する。

f:id:r-w:20170120233041j:plain

その5) 外れ値の検定 P345

参照:「JIS Z 8402-2 測定方法及び測定結果の精確さ(真度及び精度)ー第2部:標準測定方法の併行精度及び再現精度を求めるための基本的方法」

  • 採取したデータの最大値または最小値が他のデータと比較して突出していないかを確率的に求める作業。
  • 検定方法はスミルノフ・グラブズの検定がある。
  • 検出は最大値または最小値の一点ずつしか行えない。複数の値を検定したい場合は、外れ値となった値を排除した後に再度検定を実施する。
  • 安易な外れ値の排除は望ましくなく、必ず考察する事が必要。
  • スミルノフ・グラブズ検定は下記の通り。

f:id:r-w:20170120233110j:plain

その6) N数の決定 P1456

参照:「JIS Z 9041-4 データの統計的な解釈方法ー第4部:平均と分散に関する検定方法の検出力」

その7) データのノイズ除去方法

  • センサで取得したデータをロガーで収集する際、サンプリング周期を細かくして多数のデータを取得する事がある。細かいサンプリング周期だと詳細なデータがとれる反面、ノイズを多く拾ってしまい数値が細かく上下する。
  • この様なノイズを除去する方法として、区間平均および移動平均がある。
区間平均の計算方法
  • 連続する2個以上のデータでグループを作り、各グループで平均値を計算する方法。平均値を用いることで細かいノイズを除去できる。
  • この方法は事後的にサンプリング周期を長くする事と同じになる。データの連続性は少なくなり、階段状のデータになる。
  • 区間平均の計算方法は下記の通り。

f:id:r-w:20170120233925j:plain

移動平均の計算方法
  • 区間平均同様に連続する2個以上のデータでグループを作り、各グループで平均値を求める。ただし、グループのデータは連続するデータを1個ずつシフトさせる形で入れ換えて平均値を求める。
  • データの入れ換えが1個ずつなのでデータの連続性は変わらない。センサで値を出力する際も移動平均を使っている(らしい)。
  • 移動平均の計算方法は下記の通り。

f:id:r-w:20170120233946j:plain

さいごに

統計学を理解できなくても、技術者そしてこれを使った方が絶対良い。僕はこれからも統計を使いながら、理解を深めていこうと思う。