Hello, dear friend, you can consult us at any time if you have any questions, add WeChat: daixieit

STAT 7100: Introduction to Advanced Statistical Inference

Examples and Illustrations for part A of learning unit 7

Example: One-sample U-statistics. Suppose X = (X1 , . . . , Xn ) is an IID sample such that the common PDF or PMF of each Xi  is fX,9(x).  Each of the following examples im- plicitly defines a U-statistic UX and function g(θ) from a kernel h(X). Provided the order statistics are complete and sufficient, the U-statistic is the essentially unique UMVUE for g(θ).

Powers of the mean: Define

h(x1 , . . . , xm ) = x1  × . . . × xm .

so that

g(θ)   =   E9 [h(X1 , . . . , Xm )]

=   E9 [X1  × . . . × Xm]

=   E9 [X1] × . . . × E9 [Xm]

=   E9 [Xi]m .

That is, g(θ) is the m’th power of the common mean value E9 [Xi].  A UMVUE for g(θ) is the U-statistic

U (X)   = m(n) 1            L       h(Xi, . . . , Xi,)

这i),...,i,l合nC,

Variance estimation: For m = 2 and define

h(x1 , x2 ) = 1/2 (x1 - x2 )2 .

so that

g(θ)   =   E9 [h(X1 , X2 )] = E9 [1/2 (X1 - X2 )2]

=   1/2E9 [X1(2) + X2(2) - 2X1X2]

=   1/2 ,E9 [X1(2)] + E9 [X2(2)] - 2E9 [X1]E9 [X2]

=   1/2 ,E9 [Xi(2)] - E9 [Xi]2+E9 [Xi(2)] - E9 [Xi]2、、 =   1/2 {Var9 [Xi] + Var9 [Xi]} = Var9 [Xi].


That is, g(θ) is the common variance Var9 [Xi]. A UMVUE for g(θ) is the U-statistic

n – 1     n

n – 1     n                                                n      n                                       n

2 L L (Xi - Xj )2     =   L L(Xi - Xj )2 - L(Xi - Xi )2 i=1 j =i+1                                         i=1  j=1                                   i=1

n      n

=   L L(Xi(2) + Xj(2) - 2XiXj )

i=1  j=1

=   n Xi(2) + n Xj(2) - 2 ! Xi ! ! Xj !

=   2n !(ìXi(2) - ! Xi !2 .

It follows that the U-statistic is

U (X)   = !(ìXi(2) - ! Xi !2 = S2 ,

which is recognized as the sample variance.  This shows that S2  is the essentially unique UMVUE in the nonparametric setting.  The deduction is also interesting for offering an alternative proof that S2  is unbiased for Var9 [Xi].

Robust statistics: Statistical analysis under nonparametric assumptions does not take for granted such data features as symmetry or bell-shaped histograms, and would consider statistical summaries other than sample variance, and alternative test statistics as well.  These are sometimes called robust statistics, because they would not be oversensitive to data features such as asymmetry or outliers, which represent strong departures from standard assumptions indicated above.

An alternative, robust summary of the dispersion of data values is Gini’s mean dif- ference,

n – 1     n

This is the U-statistic implied from the kernel dene with m = 2 as

h(x1 , x2 ) = |x1 - x2 |,

and is therefore the UMVUE for

g(θ)   =   E9 [h(X1 , X2 )] = E9 [|X1 - X2 |],

the expected absolute difference between independent data values. This is a more robust statistic than the sample variance, S2 , for measuring dispersion because it is less influence by extreme differences, xi  - xj , which are magnified in the sample variance calculation because they are squared.

A robust statistic that is sometimes used for testing H0   : E9 [Xi] = 0 versus H1   : E9 [Xi] 0 is the one-sample Wilcoxon statistic,

n – 1     n

This is the U-statistic implied from the kernel dene with m = 2 as

h(x1 , x2 ) = I[x1 + x2  < 0],

and is therefore the UMVUE for

g(θ)   =   E9 [h(X1 , X2 )] = E9 [I[X1 + X2  < 0]] = P9 [X1 + X2  < 0].

If Xi  is continuous, then

P9 [X1 + X2  < 0] = |令(令) |x fX,9(x1 )fX,9(x2 )dx2 dx1


P9 [X1 + X2  > 0]   =                  fX,9(x1 )fX,9(x2 )dx2 dx1 .

–令    –x)

A change of variable provides that

P9 [X1 + X2  > 0]   =   |令(令) |x fX,9(-x1 )fX,9(-x2 )dx2 dx1 ,

which shows that if, in addition, the density fX,9(x) is symmetric, then P9 [X1 + X2  < 0] = P9 [X1 + X2  > 0], from which it follows that

g(θ)   =   P9 [X1 + X2  < 0] = 1/2 .

This supports the rationale that, under the assumption of symmetry, a test for H0  : E9 [Xi] = 0 versus H1  : E9 [Xi] 0 would be implemented using a rejection rule that would reject when the Wilcoxon statistic is far from one-half. It is a more robust test statistic than, say, a t statistic, T = /S because it is less sensitive to data-values that are extraordinarily far from zero.

Jackknife variance estimator: Suppose T1 (X), . . . , Tn (X) are statistics such that Tk (X) depends on X = (X1 , . . . , Xn ) only through (X1 , . . . , Xk ), and is invariant to permutation of (X1 , . . . , Xk ).

The idea, here, is a situation of repeated sampling, wherein the sample at trial k - 1 is (x1 , . . . , xk 1 ) and is replaced at trial k with (x1 , . . . , xk 1 , xk ); at the same time, the statistic Tk 1  is replaced with Tk .

For m < n, define the kernel

hm (x) = {Tm (x) - Tn (x)}2 .

Note that the formulation of this kernel is non-standard because it depends on all of x = (x1 , . . . , xn ), not just (x1 , . . . , xm ); it nevertheless implies a U-statistic that is the UMVUE for g(θ) = E9 [hm (X)]. As it turns out, under certain conditions, which are often suitable in practice, it can be shown that this expectation approximates the variance of Tn (X); i.e., g(θ) s Var9 [Tn (X)]. The corresponding U-statistic is

U(X)   = m(n) 1            L       h(Xi, . . . , Xi,).

Notice in this formula that the Tm (X) in h(Xi, . . . , Xi,) depends on a size-m subset of (1, . . . , n), which may not be (1, . . . , m).

When n is large, it may be infeasible to calculate the U-statistic, above. However, in this case U(x) may be approximated by resampling: this is a simulation technique of randomly selecting index-subsets {i1 , . . . , im } from n Cm ; for each selection the ker- nel hm (xi, . . . , xi,) is calculated, and after many iterations of independent random selection the approximation to U(x) is calculated as the average of the simulated kernel values.

It can be shown, for example, that if Tk (X) = i(k)=1 Xi , then the U-statistic, above, is the sample variance, S2 .

Example: U-estimability of variance and standard deviation. Suppose X = (X1 , . . . , Xn ) is an IID sample with common PDF or PMF fX,9(x) from a convex parametric family in-    dexed by θ e О. Suppose further that θ1 , θ 2 , θ3  e О satisfy

fX,9m (x) = tfX,9(x) + (1 - t)fX,9y (x)

for some 0 < t < 1.

●  Define

g(θ)   =   Var9 [Xi] = E9 [Xi(2)] - E9 [Xi]2

=   | x2 fX,9(x)dx - | xfX,9(x)dx!2 .

It follows that

g(θ3 )   =   E9m [Xi(2)] - E9m [Xi]2

=   tE9 [Xi(2)] + (1 - t)E9y [Xi(2)] - {tE9 [Xi] + (1 - t)E9y [Xi]}2 ,

which expands to a 2nd -order polynomial in t.  This implies that g(θ) = Var9 [Xi] is U-estimable of degree m = 2.  It follows that, g(θ) cannot be estimated unbiasedly by a first-degree U-statistic, which implies that it cannot be estimated unbiasedly from a sample of size n = 1.

●  Define

g(θ)   =   !Var9 [Xi] = SD9 [Xi].

It follows that

g(θ3 )   = tE9 [Xi(2)] + (1 - t)E9y [Xi(2)] - {tE9 [Xi] + (1 - t)E9y [Xi]}2 .

There is no guarantee the terms under the square-root for a perfect square, which means that g(θ3 ) cannot always be written as a polynomial in t.  It follows that the standard deviation g(θ) = SD9 [Xi] is not U-estimable for any m, hence it cannot be estimated unbiasedly, regardless of the size n of the sample.

These results are interesting and, to a certain extent, profound; yet, they can be misin- terpreted when applied outside of the nonparametric setting.  For example, they are not relevant to inference on a location-scale family (such that defined by Gaussian sampling), since the family is not convex.

Example: Two-sample U-statistics. It is possible to extend the U-statistic concept to two-sample problems.   Suppose X 1   =  (X11 , . . . , X1n) and X 2   =  (X21 , . . . , X2ny) are independent IID random samples of size n1  and n2 , respectively, with common PDFs or PMFs f1,9(x) and f2,9y (x).

Definition: The statistic U (X 1 , X 2 ) is a two-sample U-statistic if it is invariant to permu- tations of the data in either sample. That is,

U (X11 , . . . , X1n, X21 , . . . , X2ny) = U (X1r, . . . , X1rn , X2s, . . . , X2sny ) for any permutations (r1 , . . . , rn) of (1, . . . , n1 ) and (s1 , . . . , sny) of (1, . . . , n2 ).

Observe that the parametric families defined by f1,9(x) and f2,9y(x), and indexed by θ 1 and θ2 , can be combined into a single parametric family indexed by θ = (θ1 , θ 2 ), for which the joint PMF or PDF of X = (X 1 , X 2 ) is

f9 (x)   =   f1,9(x11 ) × . . . × f1,9(x1n) × . . . × f2,9y (x21 ) × f2,9y (x2ny). The order statistics of X 1  and X 2  are, respectively,

S1 (X 1 ) = (X1[1] , . . . , X1[n])   and   S2 (X2 ) = (X2[1] , . . . , X2[ny]).

Taken together, as S(X)  =  (S1 (X 1 ), S2 (X2 )), they are sufficient for θ =  (θ1 , θ 2 ), and in a non-parametric setting they are also complete.   It follows that, in that setting, the two-sample U-statistic U(X 1 , X 2 ) is UMVUE for g(θ1 , θ 2 ) = E9 [U(X 1 , X 2 )].

Now suppose the statistic h(X 1 , X 2 ) is such that

g(θ1 , θ 2 ) = E9 [h(X1i, . . . , X1i, , X2j, . . . , X2j,y )]

for any {i1 , . . . , im} e n Cm and {j1 , . . . , jmy} e n Cmy. A corresponding U-statistic is

U(X 1 , X 2 ) =

m(n)1(1) 1 m2(n2) 1              L                L        h(X1i, . . . , X1i, , X2j, . . . , X2j,y).

这i),...,i,)l合nC, 这j),...,j,yl合nC,y

One example of such a U-statistics is the two-sample Mann-Whitney statistic.  This is defined from the kernel of degree m1  = m2  = 1 specified as

h(x11 , x21 ) = I[x11  < x21],

so that

g(θ1 , θ 2 )   =   E9 [h(X11 , X21 )] = P9 [X11  < X21].

The corresponding U-statistic is

U(X 1 , X 2 ) = I[X1i  < X2j],

which records the relative frequency of pairs (X1i, X2j) across samples with X1i  < X2j. In a nonparametric setting, this statistic is UMVUE for g(θ1 , θ 2 ).

Example: M-estimates of central tendency. Suppose X = (X1 , . . . , Xn ) is an IID sam- ple such that the common distribution of each Xi  is in a parametric family indexed by a one-dimensional parameter θ that is roughly characterized as summarizing the distribu- tion’s central tendency. Denote by X a random variable with the same distribution as any Xi .

Each of the following identifies a relevant M-estimate of θ that is implied from a specified h(x, t).

● Set h(x, t) = 1/2 (x - t)2 . It follows that ψ(x, t) = h(x, t) = -(x - t), and E[ψ(X, T)] = E[-(X - T)] = T - E[X].

The solution to E[ψ(X, T)]  =  0 is therefore T  =  E[X].   The corresponding M- estimate of θ is the sample mean θˆ(X) = = Xi .

● Set h(x, t) = 1/p |x - t|p  for p > 1. The deduction above establishes that when p = 2 the M-functional solves T  =  E[X] and the corresponding M-estimate of θ is the sample mean θˆ(X) = .

When p 2 there is in general no closed-form expression for T.  However, when p = 1 the M-functional is the value t that minimizes E[|X - t|], which is a median of X’s distribution; the corresponding M-estimate of θ is the sample median. For other values of p, the M-estimate of θ would be calculated numerically and referred to as a minimum Lp distance estimator.

● Suppose X is continuous, and the PDF fX (x) defines expectation. For a given value k > 0, set

h(x, t)   =

The relevant derivative is

ψ(x, t)   = h(x, t) =

To deduce the M-functional, T, that is implied from this setting, observe that

E[ψ(X, T)]   =   |(T - x)fX (x)dx

=   P ┌|X - T | < k T - E X |X - T | < k ,

from which it follows that a solution to E[ψ(X, T)] = 0 is equivalently a solution to T = E X |X - T | < k .  The corresponding M-estimate of θ is a trimmed sample mean, which is found by deleting a percentage of the largest and smallest Xi  and averaging the remaining Xi ; the result is to solve

θˆ(X) = | LXi ,   where   A = {i : |Xi - θˆ(X)| < k}.

Note that if k is small, then θˆ is a sample median; if k is large, then θˆ is the sample mean, .

In practice, a trimmed sample mean is simply calculated from a specified percentage of largest and smallest Xi to delete, which implies a value k. For example, consider the following n = 20 sample data values 21.6, 22.1, 22.6, 27.9, 28.0, 28.4, 29.3, 30.5, 30.9, 31.7, 32.4, 32.4, 33.2, 33.9, 34.2, 37.7, 37.8, 47.4, 68.7, and 95.4. The sample mean of these data are = 36.305, which is influenced by the outliers 68.7 and 95.4. A 20% trimmed mean eliminates the two smallest and two largest values, and takes the average of the remaining 16 values; the result is θˆ = 32.39.

● Suppose X is continuous, and the PDF fX (x) defines expectation. For a given value k > 0, set

h(x, t)   =

The relevant derivative is

ψ(x, t)   = h(x, t) = (ì t -(-)kx   i(i)f(f) x(|x)-(-)tt k

The M-functional, T, implied from this setting is determined from

|T+k

The solution to E[ψ(X, T)] = 0 is equivalently a solution to

T   =   E X |X - T | < k - k ! - !

The corresponding M-estimate of θ is a Windsorized sample mean, which has the formula

θˆ(X) = LiA Xi - k - ,

where A = {i : |Xi  - θˆ(X)| < k}, B1 = {i : Xi < θˆ(X) - k}, and B2  = {i : Xi  > θˆ(X) + k}.  In practice, a Windsorized sample mean is calculated by replacing a specified percentage of largest and smallest Xi  to with the next largest or smallest Xi , respective to the side on which the replaced value falls, and averaging, which implies a value k .

For example, consider the following n = 20 sample data values 21.6, 22.1, 22.6, 27.9, 28.0, 28.4, 29.3, 30.5, 30.9, 31.7, 32.4, 32.4, 33.2, 33.9, 34.2, 37.7, 37.8, 47.4, 68.7, and 95.4. The sample mean of these data are = 36.305, which is influenced by the outliers 68.7 and 95.4.  A 20% Windsorized sample mean replaces the two smallest values, 21.6 and 22.1, with the third smallest value, 22.6, also replaces the two largest values, 68.7, and 95.4, with the third largest value, 47.4, and then averages over all n = 20 values of the modified data set; the result is θˆ = 32.92.

Example: Asymptotic variance of the Windsorized sample mean. Suppose X = (X1 , . . . , Xn ) is an IID sample such that the common distribution of each Xi  is in a para- metric family indexed by a one-dimensional parameter θ that is roughly characterized as summarizing the distribution’s central tendency.   Denote by X  a  random variable with the same distribution as any Xi .   In addition, write fX,θ (x) for the PDF of X and FX,θ (x) = P [X < x] =|x fX,θ (x)dx for its cumulative distribution function.

Suppose

h(x, t)   =

so that the resulting M-estimator, θˆ, is a Windsorized sample mean. The relevant gener- alized estimating equation is

n

s(X, θ) =L ψ(Xi , θ),

i=1

where

ψ(x, t)   = h(x, t) = (ì t -(-)kx   i(i)f(f) x(|x)-(-)tt k

The quantity Ψ1,θ(γ) = Eθ [ψ(X, γ)] is

Ψ 1,θ(γ)   =   |(γ - x)fX,θ (x)dx + k {FX,θ (γ - k) + FX,θ (γ + k) - 1} .

Applying the identity | g(x)dx = g(γ + k) - g(γ - k), the rst derivative is

Ψ1(个),θ (γ)   =   FX,θ (γ + k) - FX,θ (γ - k) = P |X - γ| < k .

The quantity Ψ2,θ(γ) = Eθ [{ψ(X, γ)}2] is

Ψ2,θ(γ)   =   |(γ - x)2 fX,θ (x)dx + k2 ,1 - P |X - γ| < k .

The asymptotic variance of the Windsorized sample mean is therefore,

Ψ2,θ(θ) |(γ - x)2 fX,θ (x)dx + k2 ,1 - P |X - γ| < k

{Ψ1(个),θ (θ)}2                                                  P ┌|X - γ| < k 2                                          .

Example: Maximum likelihood as M-estimation. Suppose X = (X1 , . . . , Xn ) is an IID sample such that the common distribution of each Xi  is in a parametric family indexed by parameter θ. Denote by X a random variable with the same distribution as any Xi .

Suppose also that X is continuous with PDF fX,9(x). This defines the per-sample likeli- hood function, given by L0 (θ; X) = fX,9(X), which is taken to be twice-differentiable with respect to θ. The likelihood function of the entire sample is

n

L(θ; X) =ù L0 (θ; Xi ),

i=1

and the corresponding log-likelihood functions are

n

l0 (θ; X) = log L0 (θ; X)   and   l(θ; X) =L l0 (θ; Xi ).

i=1


The context of this example is such that θ carries a traditional sense of summarizing the relevant aspects of a distribution, such a location, scale, and shape.  The following argumentation illustrates that maximum likelihood estimation may be regarded as a spe- cial type of M-estimation wherein the likelihood function plays a central role, equivalent to stating the assumptions of a probabilistic model, but expressed in decision-theoretic terms.

Suppose that X is continuous and set

h(x, t)   =   -l0 (t; x).