The Elements of Statistical Learning. Data Mining_ Inference_ and Prediction (811377), страница 32
Текст из файла (страница 32)
Typically the algorithm doesconverge, since the log-likelihood is concave, but overshooting can occur.In the rare cases that the log-likelihood decreases, step size halving willguarantee convergence.For the multiclass case (K ≥ 3) the Newton algorithm can also be expressed as an iteratively reweighted least squares algorithm, but with avector of K −1 responses and a nondiagonal weight matrix per observation.The latter precludes any simplified algorithms, and in this case it is numerically more convenient to work with the expanded vector θ directly (Exercise 4.4).
Alternatively coordinate-descent methods (Section 3.8.6) canbe used to maximize the log-likelihood efficiently. The R package glmnet(Friedman et al., 2010) can fit very large logistic regression problems efficiently, both in N and p. Although designed to fit regularized models,options allow for unregularized fits.Logistic regression models are used mostly as a data analysis and inference tool, where the goal is to understand the role of the input variables1224. Linear Methods for ClassificationTABLE 4.2.
Results from a logistic regression fit to the South African heartdisease data.(Intercept)sbptobaccoldlfamhistobesityalcoholageCoefficient−4.1300.0060.0800.1850.939-0.0350.0010.043Std. Error0.9640.0060.0260.0570.2250.0290.0040.010Z Score−4.2851.0233.0343.2194.178−1.1870.1364.184in explaining the outcome. Typically many models are fit in a search for aparsimonious model involving a subset of the variables, possibly with someinteractions terms.
The following example illustrates some of the issuesinvolved.4.4.2 Example: South African Heart DiseaseHere we present an analysis of binary data to illustrate the traditionalstatistical use of the logistic regression model. The data in Figure 4.12 are asubset of the Coronary Risk-Factor Study (CORIS) baseline survey, carriedout in three rural areas of the Western Cape, South Africa (Rousseauw etal., 1983). The aim of the study was to establish the intensity of ischemicheart disease risk factors in that high-incidence region.
The data representwhite males between 15 and 64, and the response variable is the presence orabsence of myocardial infarction (MI) at the time of the survey (the overallprevalence of MI was 5.1% in this region). There are 160 cases in our dataset, and a sample of 302 controls.
These data are described in more detailin Hastie and Tibshirani (1987).We fit a logistic-regression model by maximum likelihood, giving theresults shown in Table 4.2. This summary includes Z scores for each of thecoefficients in the model (coefficients divided by their standard errors); anonsignificant Z score suggests a coefficient can be dropped from the model.Each of these correspond formally to a test of the null hypothesis that thecoefficient in question is zero, while all the others are not (also known asthe Wald test). A Z score greater than approximately 2 in absolute valueis significant at the 5% level.There are some surprises in this table of coefficients, which must be interpreted with caution.
Systolic blood pressure (sbp) is not significant! Noris obesity, and its sign is negative. This confusion is a result of the correlation between the set of predictors. On their own, both sbp and obesityare significant, and with positive sign. However, in the presence of many4.4 Logistic Regression0.8oooooo oo oooooooooooooooo ooooooooooooooooooooooooooooooo o ooooooooooooooooooooooooo ooooooooooooooooooooooooooooooooooooooo oooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooo ooo oo o oooooo ooooooooooo oooooooooooooooooooooooooooooooooo ooooooooooooooooooooooooooooooo oooooooooooooooooooooooooooooooooooo oo oooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooo ooooooooooooooootobaccoooooo oooo ooooooooooooooooooooooooooooooooooooooooooooooooooooooo ooo ooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooo ooooooooooooooooooooooooooooooooooooooooooooo oooooooooooooooooooooooooooooooooooo ooooooooooooo oooooooooooooooooooooooooooooooooooooo oooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooo oooooooooooooooooooooooooooooooooooo oooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooo o ooooooooooooooooooooooooooldl0oooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooo100o o ooooooo oo oo oooooo o ooooo ooo oooooooo ooooooooooooooo oooooooooooooooooooooooooooooooooooooooo oo ooooooooo ooooooooooooooooooo oo ooooooooooo oooooooooooooooooooooooooooooooooooooooooooooooooooooo ooooooooooooooooooooooooooooo oo o oo ooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooo oooooooo oooooooooooooooooooo oo oooooooo oooooooooooooooooooooooooooooooooooooooooooooooooo o oooooooooo ooooooo oooooooooooooooooooooo o oooooooooooooooooooooooooooooooooooooooooooooooooo oooo oooooooooooooooooooooooooooooooooooooooooooooooooo oooooo oooooooooooooooooooooooooooooooooooooooooo oooooooooooooooooooooooooooooooooo oooooooooo oooo ooooooooooooooo ooooooooooooo ooooooooooooooooooooooooooooooooooooo ooooooooooooooooooooooo o ooooooooooooooooooooooo ooooooooooooooooooooooooooooooooooooo ooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooo o oooo oooooooooooo oooooooooooooooooooooooo oooooooooooooooooooooooooooooooooooooooo ooooooooo ooooooooooo oooooooo oo ooo oooooooooo ooooooooooo ooooooooooooooooooooooooooooooooo oooooooooooooooooo oo o oooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooo oooo oo oooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooo oo ooooooooooooooooooooooooooooooooooooooooooo oooooooooooooooooooooo ooo o ooo ooo ooo oooo ooooooooooo oo oooooo oo oooooooooooooooooooooooooooooooooooooooooooo ooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooo oooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooo ooo o ooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooo ooo ooooooo oooo o ooooooooooooooooooooooooooooooooooooooo oo oooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooo0.8ooooooooooooooooooooooooooooooooooooooooooo oooo50o oooooo oooooooooo oooooooooooo ooooooooooooooooooooooooooooooooooooo oooooooooooooooooooooooooooooooooo oooooooooooooooooooooooooooooooo ooooooooooooooooooooo oooooooooooooooooooooooooooooooooooooo oooooooooooooooooooooooooooooooo oooooooooooooooooooooooooooooooooooooooooooooooooooo2200.41600.01003010 14206102030sbp01020oo oooooooo o ooo ooooooo oooooooooooo oooooooooooo oooo oooooooooooooooooooooooo oooooooooooooooooooooooooooooooooooooooooooooooo oooooooooooooooooooooooooooooooooooooooooooooooooooooo ooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooo ooooo oooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooo oo ooooooooooooooooooooooooooooo ooo o ooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooo123100160220ooooo oo ooooo oooo ooo ooooo ooooooooooooooooooooooooo o oooooooooooooooooooooooooooooo oo ooooooooooooooooooooooooooooooooooooooo o oooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooo ooooooooooooooooooooooooooooooooooooooooooooooooooooooo o oooooooooooooooooooooooo ooooo oooooooooooooooooooooo oooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooo o oo oooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooo ooooooooooo ooooooooooooooo ooo2610 14oooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooobesityooo oooooooooo oooo oooooooooooooo ooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooo ooooooooooo o ooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooo oooooooooooooooooooooooooooooooooo oooo oooooooooooooooooooooooooooo o oooooooooooooo oooooooooooooooooooooooooooo oooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooo oooooooooooooo oo ooooooooooooooooooooooooo15253545oalcohol45ooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooo ooo oooooooooooo o oooooooooooooooooooooooooooo oooooooooooooooooooooooooooooooooooo ooooooooooooooo oooooooooooooooo oooooooooooooooooooooooooooooooooooooooooo oooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooo o ooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooo ooooo oooooooooooo ooooooooo oooooooooooooo oooooooooooooooooo oooooooooo35ooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooo25o15ooooooooooooooooooooooooooooooooooooooooooooooooooooooooooo o ooo o oooooo ooo oooooo ooooooo o oooooooooo o o ooooooo ooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooo oooooooooooooooooooooooo oo oooooooooooooooooooooooooooo o o ooooooooooooooo oooooooooooooooooooooooo oooo oooooooooooooooooooooooooooo ooooooooooooooooooooooo oooooooooooooooooooo oooooooooooooooooooooooo ooooooooooooooooo ooooooo o60o ooooo o oooooooooooooooooo oooooooooooooooo ooooooooooooooooooooooo oooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooo ooooooooooooooooooooooooooooooooo oooooooooooooooo oooo40ooooooooooooooooooooooooooooooo o o ooooooooooooooooooooooooage200501000.00.4famhistoooooooooooooooooooooooooooooooooooooooooooooo oooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooo oo ooooooo o o oooo o ooo oooooooooooooo ooooooooooooo o ooooooooooooooooooooooo ooooooooooooooo ooo ooooooooooooooooooooooooooooooooooooooooooooooooooo ooooooooooooooooooooo ooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooo oooo ooooooooooooooooooooooooooooooooooo ooooooooooooooooooooooooooooooooooooooooo o oooooooo oooooo o oooooo ooooo o o o ooooooo oooooooooooooo ooooooooooooooooo o ooooooooooo o ooooooooooooooooooooooooo ooooooo ooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooo ooo oooooooooooooooooooooo o oooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooo oo oo oooooooooooooooooooooooooooooooooooooooo oo ooooooooooooooooo oooooo oooo ooooooooooooooooooooooooooooooooooooooooooooo ooooooooooo oooooo ooooooooooooooooooooooooooooooooooooooooooooo oooooooooooooooooooooooooooooooooooooooooooooooooooooo ooooooooooooooooooooooooooooooooooooooo o o oooooooooooooooo oooooooooooooooooooooooooooooooooooooooooooooooooooooooooooo oooooooooooooooooooooo o oooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooo o oooooooooooooooooooooooooooooooooooooooooo ooooooooooooooooo204060FIGURE 4.12.