3. TÉCnicas de muestreo y preliminares matemáticos



Descargar 151.21 Kb.
Fecha de conversión31.05.2018
Tamaño151.21 Kb.

CAPÍTULO 3



3. TÉCNICAS DE MUESTREO Y PRELIMINARES MATEMÁTICOS.




3.1 Técnicas de Muestreo.




3.1.1 Definiciones.

Se define muestreo como la técnica de recolección de datos que permite obtener características específicas de una población. A continuación se exponen otras definiciones a considerar:


Población (o Universo).- Cualquier colección finita de individuos o elementos, acerca de los cuales deseamos hacer alguna inferencia.
Población investigada.- Es aquella que se deduce de la población si se conociesen las unidades de las que, con unos recursos dados, no podrían obtenerse información. Esto se da por diferentes motivos, por ejemplo como la negativa a colaborar de los encuestados.
Población objetivo.- Es el conjunto de entes de estudio a los cuales es factible llegar.
Elemento.- Es un objeto del cual se toman las mediciones.
Marco muestral.- Es un listado o base de datos en la cual se encuentran todos los elementos de la población objetivo.
Muestra.- Es un conjunto de eventos, casos o unidades que son tomadas o extraídas de una población, y que de acuerdo a nuestro conocimiento de dicha población, posee algunas características similares al resto del conjunto del cual se extrae.
Muestra aleatoria.- Es la que se toma de modo que cada unidad disponible para la observación tenga la misma probabilidad de ser incluida en la muestra. Una muestra aleatoria se puede tomar con o sin reemplazo.
Si se toma con reemplazo, la unidad tomada se vuelve a tomar de la población y el número de unidades disponibles para seguir la operación no se afecta .
Si se toma sin reemplazo, la unidad escogida no se devuelve a la población, el número de unidades que quedan tras cada unidad que se saca, se reduce en uno y en consecuencia la probabilidad de sacar cualquier unidad restante en operaciones sucesivas aumenta.
Muestra probabilística.- Es la muestra que se toma con una probabilidad de error muestral conocida.
Nivel de significación.- Es la fijación de una probabilidad de error en el muestreo. Este valor es fijado por el investigador y se emplean generalmente valores que oscilan entre el 1 y el 5%.


3.1.2 Tipos de Muestreo.

El muestreo aleatorio se puede dividir en :




  1. Muestreo aleatorio simple.- Es un procedimiento en donde al tomar un elemento para la muestra, cada uno de ellos tiene la misma probabilidad de ser tomado. Una muestra obtenida por este procedimiento se llama muestra aleatoria simple.

Uno de los métodos más utilizados para lograr que la muestra, de una población finita, sea aleatoria consiste en numerar todos los N elementos y una vez fijado el tamaño n de la muestra se toman al azar n números.




  1. Muestreo Sistemático.- Por medio de este método se obtiene una muestra tomando cada k-ésima unidad de la población. Por ejemplo si la población consiste de 10,000 unidades y se desea tomar una muestra de 500 unidades entonces:


k = 10,000/ 500 = 20
La muestra se obtiene tomando una unidad de cada 20 de la población. Para que toda unidad de la población tenga igual probabilidad de salir el procedimiento debe empezar al azar.


  1. Muestreo estratificado.- El proceso de estratificación consiste en dividir la población en grupos o clases llamados estratos. Los elementos de cada estrato son homogéneos. Para cada estrato se toma una submuestra mediante muestreo aleatorio simple y la muestra global se obtiene al unir todas ellas.




  1. Muestreo por conglomerados.- Consiste en seleccionar primero al azar, grupos, llamados conglomerados, de elementos de la población y en tomar luego una submuestra de cada conglomerado para constituir la muestra global. Para este método hay dos alternativas:




  • Tomar todas las unidades en los conglomerados seleccionados para constituir la muestra global. Este tipo de muestreo se denomina unietápico.




  • Seleccionar una submuestra de unidades dentro de los conglomerados elegidos. Este proceso se lo conoce como muestreo polietápico , y depende de las submuestras a tomar, si con sólo una se llega a las unidades finales de investigación , este muestreo se denomina bietápico.



3.1.3 Muestreo de Superficies.

El Muestreo de Superficies no es más que una aplicación del muestreo de Conglomerados. El muestreo de superficies es conveniente cuando una o ambas de las siguientes condiciones se presentan:




  • Cuando no se tienen listas completas de las unidades a investigar, pero si mapas que incluyen una cantidad razonable de detalles.




  • Cuando resulta costoso entrevistar o investigar unidades elegidas al azar.

Para tomar una muestra de superficies existen tres procedimientos simples. A continuación se expone uno de ellos, el cual es el usado en la presente investigación.


Procedimiento para obtener una muestra de superficies con listado y submuestreo aplicado a una encuesta de hogares.
Este proceso es aplicable cuando no se tienen mapas detallados y no es fácil prepararlos; éste consta de los siguientes pasos:


  1. Obtener un mapa de la ciudad, donde se muestre el mayor número de detalles acerca de las manzanas.




  1. Numerar en serie las manzanas, se aconseja adoptar un sistema de numeración serpentino.




  1. Seleccionar una muestra simple al azar o una muestra sistemática de manzanas.




  1. Visitar cada manzana en la muestra y hacer una lista de todas las unidades de vivienda de ella. Numerar las unidades de vivienda.




  1. Seleccionar un cuarto de las unidades de vivienda dentro de las manzanas muestrales ya sea usando muestro aleatorio simple o sistemático.

  2. Entrevistar las unidades de vivienda seleccionadas.

Es evidente que este tipo de muestreo no es más que un muestreo bietápico de conglomerados.




3.1.4 Determinación de medias y varianzas en el muestreo bietápico.

Para un muestreo bietápico se considerará el siguiente método para el cálculo de medias y varianzas para los estimadores, éste consiste en tomar en cuenta tanto los valores esperados de la primera etapa como de la segunda para calcular un promedio general del estimador.


Para un muestreo doble, el valor esperado de la estimación del parámetro  , se puede expresar como:
(3.1)
donde denota el valor esperado sobre todas las muestras, denota el promedio sobre todas las posibles selecciones de la segunda etapa , y el promedio sobre todas las selecciones de la primera etapa. Este método da el siguiente resultado para la varianza del estimador:
(3.2)
donde es la varianza sobre todas las posibles selecciones de submuestra para un conjunto dado de unidades , es decir de la segunda etapa (3).3
Para expresar los resultados, que se exponen a continuación, se considerará la siguiente notación, suponiendo conglomerados con igual cantidad de subunidades.
N= número total de unidades primarias

n= número de unidades primarias tomadas en la primera etapa.

M = número total de subunidades .

m= número de subunidades tomadas en la segunda etapa.

En la tabla 1 se exponen las fórmulas para calcular los estimadores de medias y varianzas.




Tabla 1


Fórmulas empleadas en las estimaciones de medias y varianzas para un muestro en dos etapas con unidades primarias de igual tamaño.


Cálculo

Descripción



Valor obtenido para la j-ésima subunidad en la i-èsima unidad primaria.


media muestral de la i-ésima unidad primaria




media muestral global





Estimación de la varianza entre medias de subunidades



Estimación de la varianza entre subuni- dades dentro de unidades primarias



Proporción de unidades primarias tomadas en al primera etapa



Proporción de unidades tomadas en al segunda etapa



Estimación muestral de la varianza de la media



Estimación de la proporción dentro de la i-ésima unidad primaria



Estimación global de la proporción



Estimación muestral de la varianza de la proporción




3.1.5 Estimación del Tamaño de la Muestra para Proporciones.

Para la estimación del tamaño de la muestra se considera que las unidades se clasifican en dos clases, C y C’. Se ha fijado un margen de error e para , la cual es la estimación de la proporción de unidades (u objetos) que pertenecen a la clase C. Existe un pequeño riesgo , que se esta dispuesto a incurrir, de que el error real supere a e, matemáticamente se desea que:


(3.3)
Si se supone un muestreo aleatorio simple y el tamaño de la muestra, a obtener, mayor a 30. Entonces la distribución de se la puede aproximar a una normal, obteniendo el siguiente resultado:

(3.4)
donde n es el tamaño de la muestra, N es el tamaño de la población y
(3.5)

3.2 Definiciones Estadísticas.

A continuación se definen algunos términos estadísticos usados en el análisis multivariado.


Covarianza.- La covarianza entre dos variables aleatorias, X y Y , se define como:
(3.6)
Correlación.- La correlación de dos variables aleatorias, X y Y , mide que tan fuerte es la dependencia lineal entre ellas , y se expresa como:
(3.7)
La correlación siempre se encuentra entre -1 y 1. Si es positiva y cercana a 1, la función lineal que relaciona a las variables es creciente. Si es negativa y cercana -1, ésta será decreciente.
Matriz de Covarianzas .- Es la Matriz compuesta de las varianzas y covarianzas de un grupo de p variables aleatorias.

(3.8)

donde:




Matriz de Correlación.- Es la Matriz compuesta de las correlaciones entre p variables aleatorias. Se expresa matemáticamente como:
(3.9)

Distancia
La distancia entre dos individuos o variables es una medida del grado de asociación o semejanza entre éstas.
La distancia euclidiana o euclídea al cuadrado entre los individuos i e i’ de los que se han tomado las observaciones y , respectivamente, correspondientes a un conjunto de p variables, se mide por:

(3.10)

Existe otra función de distancia ampliamente usada en el análisis multivariado es conocida como la distancia .


Dados dos objetos i e i’ de frecuencias y respectivamente, para la j-ésima categoría de una variable, la distancia se calcula por:

(3.11)
Donde es la frecuencia absoluta que presenta el i-ésimo objeto con respecto a la j-ésima categoría, es la frecuencia con que se ha presentado i, y es la frecuencia con que se ha presentado j, se expresan como:

S
e observa que la distancia es una euclídea ponderada.



Otras medidas de información.
Una medida de información de una matriz de datos de n individuos y p variables es la suma de los cuadrados de las distancias de los individuos al origen.

(3.12)


Cuando se toma como origen el centro de gravedad G, esta distancia se convierte en una medida de dispersión.

(3.13)

Cuando las variables son métricas, suele denominarse varianza total a la suma de los cuadrados de distancias al origen.



(3.14)

La inercia I(N) de una nube de puntos con relación al centro de gravedad G es otra medida de dispersión.



(3.15)

Es evidente que se trata de la suma de las distancias al cuadrado de los puntos al centro de gravedad, ponderadas por pesos . Cabe anotar que cuando cada y la distancia es la euclídea, entonces la inercia de la nube coincide con la varianza total.



3.3 Análisis de Correspondencias.


El análisis de correspondencias (AC) es una técnica multivariada de composición, la cual se ha incrementado en uso por la reducción de dimensiones y el mapeo perceptual que brinda. Se dice que es un procedimiento de composición porque este plano conjunto está basado en la asociación entre objetos y un conjunto de características descriptivas, fijado por el investigador. La técnica más parecida al AC es el análisis de factores. El beneficio del AC es su habilidad única para representar filas y columna, de una tabla de contingencia, de variables nominales.


Objetivo del Análisis de Correspondencia.
Los investigadores se ven constantemente en la necesidad de cuantificar datos cualitativos correspondientes a variables nominales. El AC difiere de otras técnicas en el hecho de que puede trabajar con variables no métricas y al mismo tiempo con sus relaciones no lineales. Lleva a cabo reducción dimensional similar al brindado por el Escalamiento Multidimensional o el Análisis de Factores. Sus objetivos básicamente son:


  1. Encontrar asociación dentro de las filas o columnas. El análisis de correspondencia puede ser usado para examinar la asociación entre las categorías de sólo una fila o de sólo una columna. Un típico uso es la examinación de las categorías de la escala Likert (cinco categorías, de totalmente en desacuerdo a totalmente en acuerdo), u otra escala cualitativa (Muy bueno, bueno, regular, etc). Las categorías se comparan para ver si pueden ser combinadas (si ellas están muy próximas en el mapa) o si ellas son objeto de discriminación (es decir, localizadas opuestamente y separadamente en el mapa perceptual).




  1. Encontrar asociación entre filas y columnas categóricas. En esta aplicación el interés consiste en la representación de la asociación entre categorías de filas y columnas. Este uso es el más similar al del análisis de factores o a la del escalamiento multidimensional.

El análisis de correspondencia puede ser simple o múltiple. Es simple cuando se representa las categorías de sólo dos variables nominales, y es múltiple cuando se trabaja con más de dos variables.



3.3.1 Análisis de Correspondencias Simple.


El Análisis de Correspondencias simples o Análisis Factorial de Correspondencias (AFC) es usado para analizar tablas de contingencia, donde se presentan las frecuencias de n objetos (O1, O2,...,On) o Individuos con respecto a p números de criterios de clasificación (C1, C2,....,Cp) que tiene una variable categórica (4).4








C1

C2 .

. . .

Cj . .

. . .

Cp




O1










.







K1.

O2










.







K2.

. . .










.







. . .

Oj

. .

. . .

. . .

Kij







Ki.

. . .



















. . .

On



















Kn.




K.1 . .

k.2 .

. . .

k.j . .

. .

k.p

k

El objetivo de todo análisis multivariado es buscar un espacio , q


que contenga la mayor cantidad posible de información de la nube primitiva de datos, el que mejor se ajuste y la deforme lo menos posible. En el peso para cada punto i es

para j =1,...,p

De igual forma para cada punto j en



para i=1,.....,n

Análisis en
En el espacio se representan n objetos con respecto a los p criterios de clasificación.
Como se expuso anteriormente, en el Análisis de Categorías se emplea la medida , utilizando la ecuación (3.8), la distancia entre dos puntos i e i’ es:

(3.16)

En consecuencia, realizar un análisis utilizando la distancia es lo mismo que realizarlo con la distancia euclídea de los puntos .


Como cada punto tiene peso el centro de gravedad de la nube de datos con respecto a la j-ésima categoría es:
(3.17)

Las nuevas coordenadas (en el espacio ) de los puntos trasladados del origen al centro de gravedad son:


(3.18)
La inercia de la nube de datos se expresa como:
(3.19)
El objetivo del análisis en es encontrar un nuevo sistema de coordenadas que maximice la inercia.
Para clarificar esta idea supóngase que existen dos categorías y ocho objetos (p=2, n=8), la figura 3.1 ilustra cada objeto representado según las coordenadas , entonces se buscarán dos vectores unitarios y , ortogonales entre sí, que formen un nuevo sistema de referencia, el cual tenga la mayor cantidad de información posible de la nube de datos, en otras palabras donde la inercia, de las proyecciones de los puntos con respecto a cada vector, sea máxima.

Figura 3.1

Representación de datos con respecto a dos categorías según el AFC.


.

La proyección de un punto sobre la dirección del vector unitario viene dada por:



(3.20)

Si se define un vector tal que



entonces .


Se debe elegir tal que la inercia sea máxima, ésta se mide por:

= (3.21)

y , donde es la matriz formada por .


De igual forma se puede generalizar para los vectores ,…, donde se cumpla que y para .
Si es una matriz definida positiva entonces los vectores , que satisfacen los requerimientos arriba expuestos, son los vectores propios asociados a los valores propios de y se cumple que (5).5
Lo anterior es equivalente a un análisis de componentes principales (ACP) de la matriz .
Se puede probar que el vector es un vector propio de la matriz asociado al valor propio 0 y también de la matriz ,donde , asociado al valor propio 1. El resto de vectores propios (tanto para como para ) son ortogonales a , por lo tanto hacer un análisis en base a la matriz es lo mismo que hacerlo con .
Análisis en .
En el espacio se representan los p criterios de clasificación con respecto a los n objetos.

La distancia entre dos puntos j y j’ en se mide por:



(3.22)

El centro de gravedad del i-ésimo objeto es , con lo cual los puntos centrados son:



(3.23)

La proyección de un punto en sobre la dirección del vector unitario viene dada por



(3.24)

el objetivo es elegir tal que maximice la inercia de estas proyecciones, donde ésta se mide por la siguiente ecuación



(3.25)

De igual forma se puede generalizar para los vectores ,…, (ortogonales entre sí), donde k, k


y .
Siguiendo un análisis similar al que se hizo para se obtiene que:
Lo anterior es equivalente a un Análisis De Componentes Principales (ACP) de la matriz . Se puede probar que el vector es un vector propio de la matriz asociado al valor propio 0 y también de la matriz , asociado al valor propio 1. El resto de vectores propios de coinciden con los vectores propios no nulos de .
Relaciones entre los dos espacios.
Se pueden expresar los siguientes resultados en base al análisis anterior:





  • La relación entre los vectores y es la siguiente:

y (3.26)
Forma de interpretar los resultados en el Análisis de Correspondencias Simple o AFC.
En la mayoría de las aplicaciones es suficiente dos o tres ejes para estudias la relación entre filas o columnas. Se puede obtener una visión bastante buena si se representan simultáneamente las coordenadas de ambas, sobre el plano formado por los dos primeros ejes, que recoge la mayor cantidad de información.
En un gráfico de estos, tal como el 3.1, los resultados se interpretan de la siguiente forma:


  • Si dos filas tienen una estructura semejante su situación será próxima en el plano, lo inverso no siempre es verdad, dependerá de la calidad de representación de los puntos.




  • La situación cercana de un punto fila i y un punto columna j sólo se puede interpretar si están alejados del origen, o sea en la periferia de la nube de datos.




  • Cuando una línea tiene un perfil próximo medio, tienen un comportamiento medio, se encontrará próxima al origen.


Ayudas a la Interpretación
La visión directa del plano, puede conducir a errores, para una buena interpretación hay que calcular los siguientes coeficientes:


  1. Contribución absoluta : Indica la participación que tiene el elemento i en la inercia explicada por el factor . La inercia explicada por el eje es , donde y

(3.27)

esta contribución depende no sólo de su distancia al origen (centro de gravedad) o desviación de la media, sino también de su peso.




  1. Contribución relativa : Recoge la participación del factor en la explicación del elemento i. Mide las calidad de representación del elemento i sobre el eje


(3.28)

3.3.2 Análisis de Correspondencias Múltiple.

Así como el Análisis de Factorial de Correspondencias (AFC) es usado para analizar tablas de contingencia de frecuencias entre dos características I y J, el Análisis de Correspondencias Múltiples (ACM) estudia las relaciones entre cualquier número de características cada una de ellas con varios criterios de clasificación o modalidades. El ACM es una generalización del AFC.

En vez de usar una tabla de contingencia, el Análisis de Correspondencias Múltiples utiliza una tabla disyuntiva completa , la cual tiene por filas a un conjunto de n individuos y por columnas al conjunto de variables , específicamente al conjunto modalidades que puede tomar cada variable . El número total de modalidades es .



Cada elemento de la matriz , es igual a uno si el objeto i cae dentro de la modalidad (correspondiente a la variable ), ubicada en la columna j , y cero en caso contrario.


La tabla puede ser considerada como una yuxtaposición de tablas de contingencia, y, por tanto, analizarse mediante un AFC, obteniendo una representación simultánea de todas las modalidades y de los individuos.
La terminología usada anteriormente se puede aplicar el ACM, obteniendo los siguientes resultados:
, número de variables

, si el individuo a elegido la modalidad j, y 0 si no.

, es el número de individuos que poseen la modalidad j.
La matriz de la cual se extraen los vectores y valores propios (matriz a diagonalizar) es:
(3.29)
donde la matriz es denominada tabla de Burt de dimensiones . está compuesta por bloques con las siguientes características:
Los bloques en la diagonal son matrices diagonales donde se encuentran los valores . Los bloques fuera de la diagonal son tablas de contingencia obtenidas al cruzar las variables y , donde .

3.4 Análisis de Homogeneidad.


Para hacer una introducción al análisis de homogeneidad se define en primer lugar un conjunto de datos de N observaciones y J variables, con niveles de medida para cada una de ellas, donde . Las modalidades de las variables pueden medirse en una escala numérica, ordinal o nominal. Es de interés representar tanto las variables como los objetos en un nuevo espacio de dimensión p, tal que: (i) los objetos con similares perfiles estén lo más próximos posibles y (ii) las categorías con similares frecuencias también.


Se define la matriz indicadora para cada variable como binaria donde , si el objeto i tiene la categoría t, o , si ocurre lo contrario, donde i=1,2,....N y t=1,2,...., .
La matriz , de dimensión , contiene las coordenadas de cada objeto en el nuevo espacio , o en otras palabras las puntuaciones de los objetos, unidades o individuos en la escala óptima, los elementos de son conocidos también como frecuencia de los objetos. es una matriz de , la cual contiene las cuantificaciones categóricas óptimas en el espacio . Para el propósito antes mencionado se define la siguiente función de pérdida:
(3.30)
donde SSQ() denota la norma de Frobenius de la matriz , es decir la suma de los cuadrados de los elementos de la matriz . Para poder encontrar una solución apropiada se requiere que:
(3.31)

y de un vector de dimensión , lleno de unos, tal que:



(3.32)

Lo anterior implica que, en la escala óptima, el promedio de cada columna de la matriz es cero.


El objetivo es minimizar la función de pérdida, lo cual ocurre, de manera perfecta, cuando:
(3.33)
También cada combinación lineal debe de ser idéntica a la matriz , en este caso se dice que las frecuencias de los objetos son perfectamente discriminantes y que las cuantificaciones categóricas son perfectamente homogéneas. Para minimizar la función de pérdida se usará el método de los Mínimos Cuadrados Alternantes, conocido por sus siglas en inglés como ALS (Alternating Least Squares), el cual consiste básicamente de tres pasos. En el primer procedimiento se minimiza fijando la matriz . Si a cada ecuación en (3.33) se la multiplica por , se obtiene :
para (3.34)
donde , despejando de (3.34):
, para (3.35)
En la segunda parte del algoritmo se calcula una matriz que contenga la suma de los objetos de , J veces, usando (3.33), se obtiene:
(3.36)

Lo cual implica que:



(3.37)
En el tercer paso del algoritmo las frecuencias de los objetos (elementos de ) son centrados respecto a las columnas por , y ortonormalizada por el procedimiento de Grant-Schimdt .
Una vez que el algoritmo ALS ha convergido usando el hecho de que:
(3.38)
Se puede escribir la ecuación de pérdida en términos de las cuantificaciones categóricas, de la siguiente manera:
(3.39)

La suma de los elementos de la diagonal de es llamada el ajuste de la solución. Las medidas de discriminación de la variable j en la dimensión s, están dadas por:


para (3.40)
donde representa la columna correspondiente a la dimensión s de la matriz de cuantificaciones categóricas. Se puede demostrar que las medidas de discriminación son iguales al cuadrado de la correlación entre en la dimensión s, y la correspondiente columna de frecuencias de objetos . De aquí que la función de pérdida puede ser expresada como:
(3.41)
donde las cantidades , s= 1,...,p son llamadas los valores propios y son el promedio de las medidas de discriminación, éstas dan una medida de la información explicada por la dimensión s de la nube de datos original.
El análisis de homogeneidad como un problema de descomposición singular de una matiz de dimensión.
El análisis de homogeneidad se lo puede interpretar como un problema de descomposición singular de una matriz. La función de pérdida se puede escribir de la siguiente manera:
(3.42)
donde el asterisco reemplaza al argumento de la función. Si ,entonces la ecuación (3.42) se expresa como:

(3.43)

La última expresión de la función de pérdida está en términos de la matriz de frecuencia de los objetos. De aquí, se puede deducir que minimizar la función de pérdida equivale a maximizar el segundo término de (3.43). Si los elementos de la matriz son centrados con respecto al promedio de las columnas se obtiene que:


(3.44)
donde y . Lo anterior implica que se puede expresar el objetivo del análisis de homogeneidad como la minimización de , con lo cual las columnas de la matriz óptima son los primeros p valores propios de la matriz y la función de pérdida se puede expresar como:

(3.45)

donde son los primeros p valores propios de la matriz .


Si se reemplaza en (3.46) , la función se expresa como:

(3.46)
donde la matriz y G es la matriz superindicadora tal que . De esta manera la solución óptima de X se puede obtener de la descomposición singular de la matriz , de dimensión , tal que:
(3.47)
donde la matriz X óptima corresponde a las p primeras columnas de U, ésta está compuesta por los n vectores propio de la matriz . La ventaja de emplear el algoritmo de mínimos cuadrados es que solamente hace iteraciones para las p primeras dimensiones.

3.5 Análisis de Componentes Principales no Lineal.

El Análisis de Componentes Principales no lineal en el sistema Gifi se deriva del Análisis de Homogeneidad. El objetivo consiste en minimizar la función de pérdida (3.30), la cual además de estar sujeta a las condiciones (3.31) y (3.32), se debe de elegir la matriz de cuantificaciones categóricas , de tal manera que:


(3.48)
donde es un vector de dimensión , que contiene las cuantificaciones categóricas simples de la variable j; tiene dimensión , y se denomina vector de pesos o de carga, correspondiente a la variable j.
El programa que algunos paquetes estadísticos usan para aplicar este método multivariado, es conocido como PRINCALS, siglas que significan Análisis de Componentes Principales por el Método de Mínimos Cuadrados Alternantes. Se definen cuatro posibles tratamientos para las variables en la aplicación del programa PRINCALS. Los cuales se describen a continuación:


  1. Numérica simple. Si todas las variables son tratadas como numéricas. La solución de PRINCALS, para este caso, es la misma a la del análisis de componentes principales (PCA), la solución está basada en la cuantificación a priori de las variables.




  1. Nominal múltiple. Si todas las variables son tratadas como nominales múltiples y la solución PRINCALS es la misma que la de HOMALS.




  1. Nominal simple. Cuando una variable(o más) es tratada como nominal si no se tiene una idea de su cuantificación a priori.




  1. Ordinal simple. Una o más variables son tratadas como ordinales simples.

Para minimizar la función de pérdida se comienza encontrando las matrices como en (3.35), después se reemplazan en (3.30) de tal manera que:


(3.49)
Para calcular los vectores y se aplica al algoritmo de los mínimos cuadrados (ALS) alternando sobre estos parámetros. Primero se fijan los vectores 's, para poder estimar los 's por medio de:
(3.50)
Después de lo cual se hace todo lo contrario y se calcula cada vector por la expresión:

(3.51)
Reemplazando (3.48) en el último término, la función de pérdida se expresa como:
(3.52)
Lo más común es tratar a las variables en una escala simple ordinal o simple numérica. Usando (3.41) el primer término puede se puede expresar como , el cual es denominado la pérdida múltiple. Cada medida de discriminación es llamada el ajuste múltiple de la variable j en la dimensión s. Imponiendo la restricción y usando el hecho de que (a partir de 3.50), la segunda parte de (3.52) se puede expresar como:
(3.53)

Este término es llamado pérdida simple, y las cantidades , s=1,..,p, se denominan ajustes simples, que son iguales al cuadrado de las cargas correspondientes a la dimensión s.


Si una variable es tratada en una escala nominal múltiple, no contribuye a la pérdida simple. Dos componentes son consideradas en la parte de pérdida simple: en primer lugar las cuantificaciones categóricas simples son puntos de una línea recta en el espacio conjunto; y segundo, deben de estar en un rango tal que mantengan el orden correcto (si se trata de una variable ordinal) o estar igualmente espaciadas (si corresponden a una variable numérica).

3 Este análisis está tomado del libro "Muestreo",de William G. Cochran, 1980.


4 El desarrollo de la teoría multivariada está basado en la metodología expuesta en el libro “Métodos Multivariantes para la Investigación Comercial” de Ildefonso Grande y Elena Abascal, Editorial Ariel-1989.



5 Para llegar a este resultado se ha empleado la maximización de formas cuadráticas expuesta en “Applied Multivariate Statistical Analysis” de Richard Johson y Dean Wichern, capítulo 2, página 83.




Compartir con tus amigos:


La base de datos está protegida por derechos de autor ©composi.info 2017
enviar mensaje

    Página principal