Décima sesión con Rcmdr: la distribución binomial.

Densidad de probabilidad y función de distribución (acumulada) de probabilidad

La distribución binomial es, sin duda, la más importante de las distribuciones discretas de probabilidad. Una variable X de tipo binomial B(n,p) (n es el número de ensayos y p la probabilidad de éxito en cada uno de esos ensayos) toma valores k de 0 a n, y se cumple que

P(X=k)=\binom{n}{k}p^kq^{n-k},

siendo q=1-p la probabilidad de fallo.

La media, varianza y desviación típica de una distribución binomials se obtienen fácilmente en R con estos comandos (aquí se muestra un ejemplo para una binomial de tipo B(25,0.5)):

# Introducimos los parametros de la binomial X de tipo  B(n,p)
n = 25
p = 0.5
q = 1-p
# Calculamos la media, varianza  y desviacion tipica
mu = n*p
mu
varianza= n*p*q
varianza
sigma = sqrt(n*p*(1-p))
sigma

Además, en R disponemos de varias funciones para calcular valores de probabilidad asociados a las distribuciones binomiales. Las vamos a explicar con detalle por dos razones. Primero, porque, como hemos dicho, la distribución binomial es muy importante. Y segundo,  porque una de las ventajas de R es que el manejo de todas las distribuciones que vamos a ver (y veremos unas cuantas) es homogéneo. Así que buena parte de lo que aprendamos aquí con la binomial nos será de utilidad cuando lleguemos a la normal, la de Poisson, la t de Student, etc.

La más fácil de entender es la función dbinom. Esta función sirve para calcular la probabilidad de que una variable binomial X de tipo B(n,p) tome un cierto valor k. Por ejemplo, con n=20, k=5 y p=3/7 usaríamos este comando:

dbinom(5,size=20,prob=3/7)

que produce como resultado 0.0506978.

Es importante desde el principio fijarse en los nombres que se usan en R para las funciones ligadas a distribuciones, porque el esquema de nombres será el mismo en todas las distribuciones que veamos. En la función dbinom, por ejemplo, la d indica la densidad de probabilidad. Más adelante, cuando veamos un nombre como dpois este convenio de nombres nos servirá para reconocer que es la densidad de probabilidad de una distribución tipo Poisson,

Siguiendo con la binomial, la siguiente función que vamos a  ver nos permite calcular su función de distribución (acumulada) de probabilidad F(k). Recordemos que la función de distribución de probabilidad  se define así:

F(k)=P(X\leq k)

Es decir, es la probabilidad de que X tome un valor igual o menor que k. Para calcular este valor en R se utiliza la función pbinom. Para entender la relación entre dbinom y pbinom vamos a usar el ejemplo anterior. Si ejecutamos este comando:

pbinom(5,size=20,prob=3/7)

estamos calculando lo mismo que si hiciéramos:

dbinom(0,size=20,prob=3/7)+dbinom(1,size=20,prob=3/7)+dbinom(2,size=20,prob=3/7)+dbinom(3,size=20,prob=3/7)+dbinom(4,size=20,prob=3/7)+dbinom(5,size=20,prob=3/7)

Y en ambos casos obtenemos 0.08014222 como resultado. De nuevo subrayamos que siempre que veamos una d delante del nombre de una distribución sabremos que se trata de su función de distribución acumulada (siempre con \leq).

Un comentario muy importante para evitar errores: cuando se trabaja con distribuciones discretas, como la binomial que nos ocupa, es esencial darse cuenta de que

P(X\leq 5)\mbox{ y } P(X<5)

son preguntas distintas.  Y la función pbinom siempre contesta a la pregunta con menor o igual (como veremos, esto es igual para todas las funciones de R que empiezan por p).  Si queremos obtener la respuesta a estas preguntas en R (con n=20, p=3/7, por ejemplo) debemos usar estos dos comandos:

#probabilidad P(X<=5)
pbinom(5,size=20,prob=3/7)
#probabilidad P(X<5)
pbinom(4,size=20,prob=3/7)

Así que, como se ve, para obtener P(X<k) usamos pbinom con k-1. Se debe tener mucho cuidado al responder a preguntas como P(X>=7) utilizando pbinom, para no confundirse al elegir los argumentos de la función.  En este fichero de comandos R tienes una recopilación de ejemplos de cálculo de probabilidades en muchas situaciones distintas.

Problemas directos y problemas inversos. Cuantiles.

Combinando las funciones dbinom y pbinom pueden resolverse todos los problemas directos de probabilidad asociados con la distribución binomial. ¿Qué quiere decir problemas directos? Nos referimos a los problemas de la forma

P(dato)=??

en los que la pregunta tiene la forma general “¿cuánto vale la probabilidad de que…?“. En cambio un problema inverso de probabilidad es aquel en el que se la pregunta tiene la forma general

P(??)=dato

Es decir, “¿cuál es el valor para el que la probabilidad vale….?”. Veamos un ejemplo de problema inverso: en una distribución binomial de tipo B(17,1/6), ¿cuál es el primer valor k (de 0 a 17) para el que se cumple P(X\leq k)>1/2? Para responder a este tipo de preguntas en R disponemos de la función qbinom. Concretamente, obtenemos la respuesta ejecutando:

qbinom(0.5,size=17,prob=1/6)

El  resultado es k=3. Podemos comprobarlo usando pbinom. Vamos a calcular varios valores de la función de distribución:

pbinom(0,size=17,prob=1/6)
pbinom(1,size=17,prob=1/6)
pbinom(2,size=17,prob=1/6)
pbinom(3,size=17,prob=1/6)

Y se obtiene como resultado:

> pbinom(0,size=17,prob=1/6)
[1] 0.04507324
> pbinom(1,size=17,prob=1/6)
[1] 0.1983223
> pbinom(2,size=17,prob=1/6)
[1] 0.4435207
> pbinom(3,size=17,prob=1/6)
[1] 0.6887192

Puedes ver que, en efecto, k=3 es el primer valor para el que la probabilidad acumulada supera el valor 1/2. Es muy posible que esta discusión te haya recordado la noción de mediana, o cuartiles y percentiles en Estadística Descriptiva. Allí se trataba de frecuencias, y aquí estamos hablando de probabilidades, pero la idea es similar: ¿cuál es el primer valor que deja a su izquierda el 50% (o el porcentaje que sea) de la probabilidad?  Por esa razón a estos valores que estamos calculando se les llama los cuantiles de la distribución. En inglés quantiles, y de ahí el nombre qbinom. Un cuantil es el valor que deja a su izquierda una cierta probabilidad. Y en R las funciones que empiezan por q siempre calculan quantiles y siempre a la izquierda (lo destacamos porque será muy importante recordarlo cuando tratemos con distribuciones continuas).

Un ejercicio muy saludable es tratar de obtener la respuesta a esta pregunta usando qbinom.  En una distribución de tipo B(17,1/6), ¿cuál es el menor valor k que cumple esta desigualdad?

P(X\geq k)=0.25

¡Cuidado, se trata de un mayor o igual!

Muestras aleatorias de distribuciones binomiales

En la anterior sesión vimos como usar la función sample de R para generar muestras aleatorias de los valores de una variable aleatoria discreta genérica, a partir de su densidad de probabilidad. En el caso de la distribución binomial R nos brinda una función, rbinom (la r viene de random values, valores aleatorios), para hacer esto mismo sin complicaciones. Si por ejemplo queremos generar 200 valores de una distribución binomial de tipo B(40,4/5) ejecutamos el comando:

rbinom(200,size=40,prob=4/5)

Y obtendremos una salida similar a esta (distinta cada vez, claro, son muestras aleatorias):

> rbinom(200,size=40,prob=4/5)
[1] 32 33 35 33 32 30 35 33 30 28 34 32 32 31 31 33 32 33 33 34 32 36 28 31 34 31 32 32 33 33 30 29 29 39 30 29 31 35 31 33 30 33 31 31 35 27 31 34 33 29 32 32 32 33 30 30 30 33 34 35 37 28 31 33 25 30 32 33 34 28 33 32 33 28 31 34
[77] 33 35 37 33 27 32 33 32 32 35 35 32 28 27 29 33 31 32 31 34 31 33 29 31 28 35 28 38 35 33 33 33 30 32 32 30 29 36 34 34 30 29 37 36 29 33 33 32 32 31 28 33 32 34 35 32 33 28 30 35 30 33 36 32 28 33 32 29 35 34 37 29 29 37 31 32
[153] 30 30 29 30 30 35 36 30 27 36 29 31 34 35 27 32 31 34 33 33 35 26 33 29 34 36 33 33 30 33 34 28 30 34 31 33 31 34 31 29 32 35 32 36 29 33 31 35

Gracias por la atención.

Un pensamiento en “Décima sesión con Rcmdr: la distribución binomial.

  1. Pingback: Duodécima sesión en R: funciones de densidad para variables aleatorias continuas. | PostData

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión /  Cambiar )

Google photo

Estás comentando usando tu cuenta de Google. Cerrar sesión /  Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión /  Cambiar )

Conectando a %s