Coursera: vídeos del curso «Computing for Data Analysis» y otros cursos interesantes

Ya he hablado aquí alguna vez de Coursera (desde mi punto de vista, un acontecimiento esencial en la evolución de la educación superior).  Y hoy tengo dos razones para volver a hablar de ellos, aunque sea brevemente.

En primer lugar, la gente del blog Revolutions se ha tomado la molestia de recopilar enlaces a todos los vídeos del curso Computing for Data Analysis, que dirige en esa plataforma el profesor Roger Peng, de la John Hopkins University. El curso se ha impartido ya (no sé si varias veces), pero está prevista una nueva iteración en Septiembre de este año. Para quienes han tenido ya un contacto inicial con R, y desean profundizar en esta herramienta (¿se atreverá alguno de mis alumnos?), será  una buena experiencia, y con la posibilidad añadida de ganar un certificado de una universidad prestigiosa.

No es el único curso interesante que se abrirá en próximas fechas. Por mencionar sólo algunos (que han despertado mi interés, claro; hay muchos más):

Este último lo puedo recomendar con conocimiento de causa, porque participé en una edición anterior. Una experiencia intensa en trabajo; que nadie se crea que estos cursos son una broma, las horas de trabajo que indican son absolutamente necesarias en la mayoría de ellos, y en ocasiones se quedan cortas. Y se aprende, desde luego, tanto si uno es profesor, como si es alumno.

En el futuro seguiré escribiendo entradas para avisar de los cursos que me parezcan interesantes y estén relacionados con la temática del blog.

Varias cosas colaterales: tasa de paro personal y libro sobre Numb3rs

Hasta la entrada de ayer, más de un mes sin publicar. El final de la temporada de exámenes, como siempre, en lugar de ser un alivio nos enfrenta a todas las tareas urgentes que hemos retrasado para ocuparnos de las inaplazables. Afortunadamente las cosas se van encauzando, y espero que eso se traduzca en una actividad más regular del blog. Tengo muchas ideas en cartera, así que temas no nos faltarán.

Tasa de paro personalizada

De momento, una entrada sobre uno de los temas colaterales, la visualización de datos. He descubierto hace poco esta herramienta TTP: Tu Tasa de Paro, que permite situarse a uno mismo en relación con los datos de la EPA. Llegué a ella buscando información, después de algunas conversaciones sobre la reforma de la Universidad,  motivadas, entre otras cosas, por la reciente publicación del informe de la Comisión de Expertos para la Reforma del Sistema Universitario (nota de prensa del ministerio), y la evidencia – anecdótica, no tengo todavía los datos  – de que las titulaciones tradicionales de Ciencias y muchas Ingenierías se están «despoblando».

Libro sobre Numb3rs

Mis (sufridos) alumnos me han visto emplear en más de una ocasión algún vídeo de la serie Numb3rs para ilustrar algún tema de la clase. En particular, este fragmento me gusta mucho como ilustración del Problema de Monty Hall. Precisamente ahora, estoy terminando de leer el libro The numbers behind Numb3rs: Solving Crime with Mathematics.  El libro es, en general, un complemento interesante. a la serie. Y me llama la atención la presencia prominente de la Estadística y en general el análisis de datos, como uno de los temas centrales.

Correlación vs. causalidad…

Por aquí estamos todos, alumnos y profesores, sumergidos en plena temporada de exámenes. Así que me ha parecido que podría venir bien interrumpir un par de minutos el trabajo (en mi caso, una montaña de exámenes por corregir), y relajarnos con esta viñeta

:

Me atrevo a traducir, por si alguien se lía con el inglés:

1. «Yo antes creía que la correlación implicaba causalidad.»

2. «Pero entonces hice un curso de Estadística. Y ahora ya no lo creo.»

3. «Parece que el curso sirvió para algo». «Bueno, quizás.»

Si no conocéis xkcd.com, os lo recomiendo. Humor inteligente, casi siempre con trasfondo científico (el tipo de viñetas que lee Sheldon Cooper, no se las vayáis a recomendar a cualquiera…)  A mis estudiantes de Biología tal vez les haga gracia esta que apareció hace poco.

13ª sesión con Rcmdr: un momento de respiro, y algo de ayuda.

Esta semana, por diversas razones,  ha sido complicada, y además la mayoría de mis alumnos se examinan la semana que viene. Así que seguramente todos, ellos y yo, agradeceremos una entrada del blog más relajada que las anteriores.  Además, estoy escribiendo una entrada más larga, con los primeros pasos en R como lenguaje de programación, y todavía no está acabada. Así que, mientras ese trabajo llega a puerto, haremos una excursión breve a algunos temas sueltos que han ido quedando por el camino. El denominador común es mejorar nuestra experiencia como usuarios de R.

Lo primero es hacer justicia con quienes nos abrieron el camino

Aunque este blog aspira a proporcionar una lectura autosuficiente sobre R, lo cierto es que hay muchas fuentes de información que yo usé, en su momento,  para aprender a usar R y a las que sigo acudiendo en busca de lo mucho, muchísimo, que siempre queda por delante. Y os animo a que las exploréis. Hay gente haciendo cosas increíbles, que nos hacen soñar con llegar a ser algún día la décima parte de buenos en lo que hacemos.

La primera de esas fuentes no hay que ir a buscarla muy lejos. En cualquier instalación de R hay disponible un documento, al que todos nos referimos como R-Intro.  En Windows, por ejemplo, para localizarlo, vamos a la ventana RGui (donde aparecen los gráficos, no la de Rcmdr), y en el menú Ayuda seleccionamos Manuales (en pdf) y luego An Introduction to R, como en esta figura.

Este documento, en inglés (en este enlace hay una traducción al castellano de una versión algo más antigua),  es relativamente fácil de leer y constituye un curso de choque a algunas de las posibilidades del programa. Es el primer paso para empezar a convertirse en un usuario avanzado de R, aunque -pese a su título- a veces da la sensación de que está más pensado como una guía de referencia que como una ayuda al aprendizaje.

Aparte de este, y otros documentos parecidos, hay varios (muchos) blogs disponibles con un espíritu similar a este.  Sin embargo, no conozco ninguno, en español, que se plantee como objetivo enseñar a usar R a un completo novato, como acompañamiento para un primer curso en Estadística. Además, incluso en los blogs en inglés, muchas veces se presentan muchos detalles técnicos de R antes de empezar con las aplicaciones estadísticas. Y por esas razones, entre otras, existe este blog.

Volviendo a los blogs en inglés, hay dos que he consultado bastantes veces, y que tienen nombres casi idénticos :

  • R tutorial. Contiene a su vez varios temas, de los cuales los más relacionados con este blog son por un lado Elementary Satistics with R y por otro R Introduction. Contiene numerosos ejemplos de problemas estadísticos resueltos con R.
  • R tutorials. Probablemente el blog más parecido a este en sus intenciones. Pero no usa Rcmdr, sino la interfaz más espartana de R (y yo no me atrevo a infligir semejante castigo a mis ya suficientemente sufridos lectores). En cualquier caso, contiene un montón de información útil y bastante bien organizada.

Pero el universo de los blogs sobre R es mucho más amplio. De hecho, existe una página (R bloggers) que se dedica a recopilar información sobre blogs que hablan de R (y tienen más de 400 registrados, mayoritariamente en inglés, pero también en otros idiomas…). Así que puedes buscar el que más te guste.

Ayuda directa sobre comandos desde el propio R

Por otra parte, el propio R, como cualquier programa mínimamente decente, incluye documentación interna sobre sus propios comandos. Por ejemplo, ya conocemos el comando sample,  que hemos usado en la novena sesión para fabricar muestras. Para acceder a la ayuda interna sobre el comando, tecleamos en R su nombre precedido de un paréntesis, así:

?sample

Al ejecutar este comando se abrirá nuestro navegador de internet (pero no hace falta estar conectados, la ayuda reside en nuestro ordenador), y nos mostrará  la documentación del comando sample (en inglés):De forma equivalente, puedes usar el comando help(sample) para obtener el mismo documento.

Toda la documentación de R está disponible también en internet, con copias en múltiples servidores. Así que muchas veces, a pesar de todos los sistemas de ayuda que hemos mencionado,  lo más rápido es usar un buscador de internet, teclear algo como «Binomial distribution with R«, y hojear los resultados.

Asignaciones con flechas

Es algo que he querido mencionar en el  blog desde hace tiempo, pero que nunca parecía encontrar su sitio. Hasta hoy, claro. SI vais a consultar el código r escrito por otras personas, descubriréis que, donde yo pondría:

datos = c(2,5,12,3,4)

mucha otra gente escribe:

datos <- c(2,5,12,3,4)

Lo que estamos haciendo, en cualquier caso, es una asignación, en este caso guardando un vector de números en la variable datos. Y la notación tradicional en R para las asignaciones utiliza esa especie de flecha <-  en lugar del símbolo igual. Es una buena idea, en principio, porque el símbolo = ya se utiliza en matemáticas para indicar que dos cosas son iguales, y no con este sentido de «guarda esto en la variable…» Pero en la práctica hay tres razones que me llevan a usar = en lugar de la flecha.

  • la primera, es que el símbolo = se utiliza en muchos lenguajes de programación para las asignaciones (no en todos, pero sí en muchos de los más usados).
  • la segunda es que el símbolo elegido, la flecha <- , no me parece demasiado afortunado. En otros lenguajes se usan alternativas como := (dos puntos seguidos de un igual), que me parecen más logradas.
  • y finalmente, ¡da igual! Puedes cambiar las flechas por iguales o viceversa, y R no protestará (al menos, ninguna versión moderna de R).

Gracias por la atención.

Hans Rosling y Peter Donnelly. Dos charlas sobre Estadística en TED

Los últimos dos años he empezado mis cursos de Estadística pidiendo a los estudiantes que dedicaran un rato a ver esta charla de Hans Rosling en TED. Por eso quiero utilizarla para inaugurar una categoría de entradas que versaran sobre distintos temas, que utilizo a veces como ilustración o como fuente de ejemplos, siempre relacionados con la Estadística, el Análisis de Datos o, más en general, con la gestión científica de la información.

Si nunca has visto una de estas charlas en TED, y tienes problemas para seguirlas en inglés, te vendrá bien saber que se pueden activar los subtítulos (en inglés, español y muchos otros idiomas), y que puedes descargar la charla (con esos subtítulos) para verla con calma.

La charla de H.Rosling siempre causa una honda impresión en muchos de mis alumnos. Naturalmente, la charla es de 2006,  y poco a poco irá perdiendo actualidad. Pero algunos de los mensajes de la charla sigue  vigente como el primer día. En la llamada Era de la información, seguimos sin recibir mucha de esa información que tal vez sería más relevante para nosotros, y que determina el curso de nuestras decisiones y acciones. Es responsabilidad de cada uno de nosotros preguntarse por qué y cómo sucede esto.

Y, más en línea con la temática de este blog, la charla demuestra también que la visualización de datos es mucho más que los diagramas de barras y sectores…

Para cerrar este tema, si te has quedado con ganas de más información como la que  nos ha proporcionado Rosling, puedes visitar el DAES de la ONU(donde encontrarás mucha más información de la que puedes procesar), o directamente la web Gapminder de Rosling. No puedo resistirme a decir que el lema de Gapminder (For a fact-based world view) me parece en si mismo un programa de acción social y política… pero también me he prometido a mi mismo ceñirme al estudio de la Estadística en este blog.

Finalmente, y aunque la temática se aleja mucho de la que expone Rosling, quisiera también recomendaros la charla de Peter Donnelly, asimismo en TED. En esta ocasión, se muestra cómo un buen uso de la Estadística es esencial para la correcta administración de justicia, y para evitar consecuencias irreparables.