Estadística y Análisis de datos con R

Mostrando entradas con la etiqueta estadística. Mostrar todas las entradas

miércoles, 10 de septiembre de 2014

Diagramas de dispersión

Después de haber publicado la anterior entrada, me he dado cuenta que puede ser bastante confusa. Creo que lo mejor para aprender cómo hacer un gráfico en R es haciéndolo. Vamos a empezar con un gráfico de dispersión. Este tipo de grafico nos permite ver si existe alguna relación entre dos (o más) variables. Básicamente, en un gráfico de dispersión representamos la puntuación de cada sujeto en una variable con su puntuación en la otra variable.

Vamos a imaginar que un investigador está interesado en estudiar la relación entre el nivel de ansiedad y la puntuación en una prueba de memoria. Para ello evaluó la ansiedad en 20 participantes a los que posteriormente sometió a una prueba de memoria visual. Para tener los datos, descárgalos en tu ordenador y agrégalos a tu directorio de trabajo (click para descargar la matriz). Como ya vimos antes para crear un directorio de trabajo, usamos la función setwd(). Entre paréntesis incluiremos la ruta. En mi caso sería:

setwd("D:/R")

Como ya dijimos, para hacer gráficos usaremos el paquete ggplot2. Si no lo hemos descargado, lo hacemos con la siguiente instrucción:

install.packages("ggplot2")

Después de instalar el paquete, hay que referenciarlo o lo que es lo mismo, decirle a R que lo vamos a usar. Esto lo hacemos con la siguiente instrucción:

library(ggplot2)

Lo siguiente seria cargar la matriz de datos “ansiedad.csv”. Para ello ejecutamos la siguiente instrucción:

datos_ansiedad <- read.csv("ansiedad.csv", header=T)

El objeto ansiedad es una matriz de datos formada por las siguientes variables:

Género: sexo del participante
Ansiedad: puntuación en la escala de ansiedad antes de realizar la prueba de memoria visual

Puntuación: puntuación en la prueba de memoria visual

El primer paso para crear un gráfico (en este caso, un gráfico de dispersión) es definir un objeto en el que le digamos a R qué queremos graficar y como lo queremos. Por ejemplo, en nuestro caso queremos ver la relación existente entre ansiedad y memoria visual, por lo que debemos especificar en qué matriz se encuentran estas variables y el eje en el que queremos cada una de ellas. En nuestro caso, pondremos la ansiedad en el eje de abscisa (o eje x) y la puntuación en la prueba de memoria en el eje de ordenadas (o eje y):

dispersion <- ggplot(datos_ansiedad, aes (Ansiedad, Puntuacion))

Con esta instrucción hemos creado un objeto llamado dispersión basado en la matriz datos_ansiedad y hemos especificado que queremos que la variable Ansiedad aparezca en el eje x y puntación en el eje y. Sin embargo, no le hemos dicho como queremos representar esta información (de hecho, si ejecutamos dispersion no aparecerá nada). En nuestro caso queremos que la información sea representada mediante puntos, así que tendremos que ejecutar el siguiente comando:

dispersion + geom_point()
Si le echamos un vistazo rápido al gráfico, observamos que parece existir una relación negativa entre el nivel de ansiedad y la puntuación en la prueba de memoria visual: a mayor ansiedad menor nota. Los diagramas de dispersión suelen tener una línea que resume la tendencia de los datos (línea de regresión). Si queremos añadir esta línea, podemos hacerlo con la función geom_smooth():

dispersion + geom_point()+geom_smoth()
Con esta línea podemos ver más claramente que a mayor nivel de ansiedad, peor suele ser la nota en el examen de memoria visual. El área sombreada alrededor de la línea, representa el intervalo de confianza al 95% de la misma. Si queremos que la línea sea recta en vez de curva tendremos que añadir el método lm (linear model) en nuestra función geom_smooth():

dispersion + geom_point()+geom_smooth(method ="lm")
Esto es todo por hoy. Espero que esta entrada haya sido de utilidad!
Click aquí para descargar el script de esta entrada.

miércoles, 3 de septiembre de 2014

Introducción a los gráficos

Uno de los mayores atractivos de R es su capacidad para realizar gráficos. Sin embargo, esto no está exento de cierta complejidad. El paquete que uso para crear gráficos es el ggplot2. Así que primeramente debemos descargar el paquete si no lo hemos hecho antes:

install.packages(“ggplot2”)
Podemos decir que un gráfico en R está formado por diferentes capas. Por capa, se entiende cada elemento que conforma el gráfico. Por ejemplo, ejes de coordenadas, columnas, barras de error, leyenda, etc. Nuestra misión con un gráfico será combinar todos estos elementos en uno solo: el grafico final. Para incluir estos elementos usaremos las funciones geoms. Hay multitud de ellas, pero aquí solo veremos unas cuantas:

geom_bar(): para crear gráficos de barras
geom_point(): crea gráficos de puntos como diagramas de dispersión
geom_line(): nos permite unir puntos con una línea
geom_smoth(): crea una línea que resume la tendencia de los dato
geom_histogram(): crea un histograma
geom_errorbar(): crea barras de error

Por supuesto que todas estas funciones se pueden combinar para crear el grafico final. De hecho, en la mayoría de nuestras ocasiones esta será la norma (por ejemplo, cuando queremos añadir barras de error a nuestro histograma). Como veremos más de adelante, dentro del paréntesis de cada función geom tendremos que incluir los estéticos (aesthetics, en inglés). Muchos de ellos son opcionales (color, tamaño, etc.), pero determinaran como es nuestro gráfico.

jueves, 17 de julio de 2014

Transformación de datos I

Aunque ya hemos visto algo de transformación de datos aquí, aquí y aquí creo que el tema es importante por lo que merece la pena ahondar un poco más. En la mayoría de las ocasiones tendremos nuestros datos en bruto, es decir, una matriz de datos con todas las veces y condiciones por las que ha pasado el sujeto. Por dicha razón, tendremos que realizar ciertas operaciones que ordenen nuestros datos.

Esta matriz de datos puede servir de ejemplo para esto anterior, así que una vez que la bajes tendrás que cargarla:

data <- read.csv ("data.csv", header= T)

Si le echamos un vistazo a la matriz vemos que está compuesta por cinco variables:

X: número de ensayo.
Time: el tiempo que tarda el estímulo en aparecer una vez que el ensayo se ha iniciado. Como se puede ver este tiempo es siempre el mismo.
ResponseTime: el tiempo que tarda el participante en responder una vez que el ensayo se ha iniciado.
Correct: tecla que el sujeto debería presionar en ese ensayo.
Keypress: tecla que el sujeto presiona en ese ensayo.
Condición: condición del estímulo en ese ensayo concreto.

Lo primero que podemos hacer es crear una variable con el tiempo que el participante tarda en responder una vez que el estímulo ha aparecido (tiempos de reacción). Si la variable ResponseTime es el tiempo que se tarda en responder desde que el ensayo se inicia, y la variable Time es el tiempo que tarda el estímulo en aparecer, el tiempo de reacción al estímulo será igual a la diferencia entre ResponseTime y Time. Podemos, por lo tanto, crear una nueva variable dentro de nuestra matriz de datos con los tiempos de reacción. Para ello, podemos ejecutar la siguiente instrucción:

data$RTs <- data$ResponseTime-data$Time

Es posible que queramos analizar separadamente los ensayos correctos e incorrectos. Para ello sería conveniente crear una variable que nos dijera si un ensayo concreto fue correcto. En nuestra matriz de datos tenemos la variable Correct, tecla que se tiene que presionar para que el ensayo sea correcto, y la variable Keypress, tecla que el sujeto apretó. Por lo tanto un ensayo será correcto cuando la variable Correct sea igual a la variable Keypress. Podemos crear una nueva variable que tenga esto en cuenta con la función condicional ifelse():

data$ACC<- ifelse(data$Correct==data$Keypress,"correcto","incorrecto")

Con esta instrucción le estamos diciendo a R que cree la variable ACC (del inglés accuracy) dentro de la matriz de datos data. Si el valor de la variable Correct es igual al valor de la variable Keypress, ACC será igual a “correcto”. Por el contrario, si el valor de la variable Correct es diferente al valor de la variable Keypress, ACC será igual a “incorrecto”.

Pues esto es todo por hoy, en la siguiente entrada seguiremos con esto un poco más.

miércoles, 18 de junio de 2014

Diseños intrasujetos y mixtos

Vamos a imaginar otro experimento con un diseño un poco diferente. Imaginemos que queremos conocer la importancia de ciertas áreas cerebrales en la memoria espacial. Para ello tenemos cuatro grupos de ratas a las que se les ha diseccionado una parte diferente del cerebro a cada grupo (Grupo1, Grupo2, Grupo3 y Grupo4). Además tenemos un quinto grupo a la que no se le realizo ninguna disección (Grupo5). El experimento consistía en tres diferentes fases. Se cronometra el tiempo (en segudos) que una rata tarda en recorrer un laberinto (Tiempo_1). Las ratas del grupo 1, 2, 3 y 4 fueron sometidas cirugía de disección, mientras que a las del grupo 5 se les sometió a una pequeña cirugía, pero sin disección. Se volvía a cronometrar el tiempo que las ratas tardaban en cruzar el laberinto (Tiempo_2). En la siguiente tabla se puede ver la matriz de datos:

El diseño de este experimento es un poco diferente al anterior. Tenemos la variable intersujetos grupo, la cual toma cinco valores diferentes (los diferentes grupos). Por otro lado, tenemos la variable tiempo que es una variable intrasujetos (todos los sujetos pasan por las diferentes condiciones de esta variable) con dos niveles: Tiempo_1 y Tiempo_2. Este tipo de diseño recibe el nombre de diseño mixto. Vamos a introducir los datos en R.

Tenemos la variable cualitativa nominal Grupo. Como hemos visto anteriormente, introducirla en R es sencillo, pero tenemos que tener en cuenta que hay 4 ratas en cada grupo, por lo que la mejor opción es usar la función rep():

Grupo
<- c(rep(1,4), rep(2,4), rep(3,4), rep(4,4), rep(5,4))

Una vez que hemos introducido la variable Grupo, tenemos que factorizarla. Como ya vimos anteriormente, la instrucción es la siguiente

Grupo <- factor(Grupo, levels =
c(1,2,3,4,5), labels = c("Grupo1", "Grupo2", "Grupo3",
"Grupo4", "Grupo5"))

Como en el caso anterior mediante la instrucción c(1,2,3,4,5) le hemos dicho a R los niveles o valores que tiene nuestra variable grupo. Un pequeño truco para simplificar es usar la siguiente instrucción c(1:5) que literalmente significa todos los valores entre 1 y 5. De esta forma, la anterior instrucción quedaría simplificada como sigue:

Grupo <- factor(Grupo, levels = c(1:5),
labels = c("Grupo1", "Grupo2", "Grupo3", "Grupo4",
"Grupo5"))

Ya hemos introducido la variable grupo. La siguiente variable es la variable Tiempo. Esta variable es numérica y tiene dos niveles: Tiempo_1 y Tiempo_2. Sin embargo, a diferencia de la variable Grupo, estamos ante una variable intrasujeto, ya que todos los participantes pasan por todas las condiciones de esta variable. Esto anterior lo tenemos que tener en cuenta en R: si miras la tabla anterior, en una variable intersujeto los diferentes niveles son colocados según las filas de la tabla, sin embargo, los diferentes niveles de una variable intrasujetos son colocados en diferentes columnas. De esta manera, nos aseguramos que todos los sujetos pasan por cada una de las condiciones de esta variable. Para realizar esto anterior en R, tendríamos que crear dos diferentes objetos en R: una con cada condición de la variable Tiempo. Así para Tiempo_1 seria:

Tiempo_1 <-
c(20,22,19,22,25,20,23,22,19,25,22,24,22,23,21,20,24,22,23,18)

Y para tiempo tiempo_2:

Tiempo_2 <-c(18,18,20,19,22,13,12,15,17,16,19,20,17,12,19,13,14,12,11,9)

Una vez hecho esto, pasamos a crear nuestra matriz de datos

Datos <- data.frame(Grupo, Tiempo_1,
Tiempo_2)

Un pequeño apunte: en este caso, y a diferencia de lo que vimos en la entrada anterior, hemos factorizado la variable grupo antes de introducirla en la matriz de datos. Esto es todo por hoy.

PD: Si quieres descargar el script que hemos usado, haz click aquí

lunes, 16 de junio de 2014

Factorizando variables

En nuestra anterior entrada vimos cómo crear una matriz de datos que siga la lógica de un diseño intersujetos. En este tipo de diseño, cada sujeto sólo participa en una de las condiciones. Si recordamos el ejemplo, queríamos comprobar si la hormona oxitocina mejoraba el reconocimiento de rostros. Para ello teníamos un grupo de 10 hombres y 10 mujeres que fueron expuestos o bien con un tratamiento placebo (condición control) o bien con un tratamiento de oxitocina (condición experimental). Cada participante recibe exclusivamente uno de los tratamientos (click aquí para descargar el script de la anterior entrada).

Una vez que cargues el script, podrás ver que tenemos dos variables nominales (tratamiento y sexo). Estas variables que representan categorías diferentes entre sí, pero carecen de significado numérico. Dicho de otro modo, los números asignados a cada uno de los componentes de una variable nominal, simplemente representan diferentes grupos. En el caso de la variable sexo, el uno representa al grupo masculino y el dos al grupo femenino. Sin embargo, a no ser que especifiquemos lo contrario, R tratará a las variables como numéricas. Por dicha razón, tenemos que factorizarla, es decir, indicarle a R que esta variable es nominal y que, por lo tanto, estos números solo representan categorías. La instrucción general que le tenemos que dar a R es la siguiente:

factor(variable, levels =c(a,b,c…), labels=c("label1",
"label2"…))

Veamos paso a paso esta instrucción. Lo primero es indicarle a R qué variable queremos factorizar. En nuestro caso es la variable Sexo de la matriz de datos Datos, por lo que la instrucción seria factor(Datos$Sexo). Sin embargo, también tenemos que indicarle a R cuales son los niveles de nuestra variable. En este caso, tenemos 1 y 2, por lo que sería levels= c(1,2). Por último, le añadimos las etiquetas correspondientes a 1 y 2, en este caso masculino y femenino, respectivamente: labels=c("Masculino", "Femenino"). Si unimos la anterior instrucción y la asignamos a la variable Sexo de la matriz Data, seria:

Datos$Sexo <- factor(Datos$Sexo, levels = c(1,2),
labels= c("Masculino", "Femenino"))

Al igual que el objeto Sexo, también tenemos que factorizar la variable Tratamiento. La instrucción seria como sigue:

Datos$Tratamiento <-factor(Datos$Tratamiento, levels =
c(1,2), labels=c("Oxitocina", "Placebo"))

Y de esta forma ya sabe R que estas dos variables son nominales. Hasta la próxima!

PD: click aquí para descargar el script de esta entrada. Recuerda hacer click en la esquina superior derecha para saltar la publicidad.

martes, 10 de junio de 2014

Diseños intersujetos

Vamos a ver ejemplos un poco más complejos que los vistos hasta ahora. Imaginemos que queremos comprobar si la Oxitocina (una hormona) tiene algún efecto en el reconocimiento de caras. Para ello hemos elaborado un experimento con un diseño intersujeto (los sujetos solo participan en una condición experimental) en el que han participado 10 hombres y 10 mujeres. De cada grupo, a 5 se les administro oxitocina intranasal mientras otros recibieron un placebo. Todos los participantes cumplimentaron un test que evaluaba su capacidad para reconocer caras. La puntuación máxima que se puede obtener en este test es de 20. En la siguiente tabla se pueden ver las puntuaciones de cada grupo.

Vamos a introducir estos datos en R. La primera columna hace referencia al número de sujeto. Cuando creemos la matriz, R dará estos números automáticamente, por lo que no hace falta que los introduzcamos nosotros. La siguiente variable es Sexo. La mitad de nuestros sujetos son de género masculino y la otra mitad de género femenino. Esta variable es de tipo cualitativa nominal, es decir, representa categorías que son diferentes entre sí, pero tales categorías no son medibles. Tan solo podemos decir que son diferentes entre sí. Aunque estas variables no sean medibles, si se representan con números. Sin embargo estos números tienen un carácter totalmente arbitrario y sólo indican al grupo al que pertenece un determinado sujeto. Imaginemos que asignamos el número 1 para el género masculino y el número 2 para el femenino. Podemos crear el objeto Sexo con la variable c():

Sexo <-
c(1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,2,2)

Es muy tedioso tener que repetir tantas veces los mismos números. En situaciones como esta podemos usar la función rep(x,y), siendo x lo que queremos repetir e y el número de veces que queremos que se repita. En el caso que nos ocupa, la instrucción seria como sigue:

Sexo <- c(rep(1,10), rep(2,10))

Con esta instrucción le estamos pidiendo a R que cree el objeto Sexo usando la función c(). Dentro de esta función, usamos la función rep() dos veces: la primera repite el numero 1 un total de diez veces, y la segunda repite el numero 2 otras diez veces.

La siguiente variable es Tratamiento que, al igual que la variable Sexo, es también nominal. Imaginemos que le asignamos el valor 1 al tratamiento con oxitocina y 2 al placebo. Como se puede ver en la tabla, los primeros cinco participantes recibieron oxitocina, los siguientes 5 recibieron placebo, los siguientes 5 oxitocina y los últimos 5 placebo. Este orden tenemos que respetarlo al incluir nuestra nueva variable. La instrucción seria como sigue:

Tratamiento <-c(rep(1,5),
rep(2,5),rep(1,5),rep(2,5))

Con esta instrucción le estamos diciendo a R que cree el objeto Tratamiento con la función c() y que los primeros cinco elementos de este objeto sean un 1, los segundos cinco sean un 2, los siguientes cinco elementos un 1 y, finalmente, los cinco últimos elementos un 2. De esta forma nos aseguramos que el orden de los elementos de nuestro objeto es igual que en la tabla.

Ahora solo nos faltaría por incluir la variable puntuación. Como hemos hecho en otras ocasiones, usaremos la función c():

Puntuacion
<-c(18,18,20,19,20,13,12,15,17,16,19,20,17,12,19,13,14,12,11,9)

Una vez que hemos introducido las variables, podemos unirlas en una matriz de datos:

Datos <-data.frame (Sexo, Tratamiento,
Puntuacion)

En la siguiente entrada veremos cómo decirle a R que considere nuestras variables nominales como tales. Hasta la próxima!

PD: click aquí para descargar el script de esta entrada. Recuerda hacer click en la esquina superior derecha para saltar la publicidad.

miércoles, 4 de junio de 2014

Algunas operaciones sencillas con matrices de datos

En la anterior entrada vimos cómo crear una matriz de datos a partir de varias variables. Si no tienes esa matriz de datos haz click aquí para descargar el script, puesto que vamos a seguir usándola en esta entrada. Imaginemos ahora que queremos añadir a nuestra matriz de datos los ingresos mensuales de nuestros amigos en los años 2013 y 2010. Empecemos con los ingresos en el 2013. Imaginemos que estos son 1500, 1800, 1300, 1000, 1200, respectivamente. Para añadir este nuevo objeto a nuestra matriz usaremos la función c() de la siguiente forma:

Amigos$Ingresos2013 <- c(1500, 1800, 1300,
1000, 1200)

De la misma manera, si los ingresos de nuestros amigos en 2010 fueron 1100, 1500, 900, 750, 900, respectivamente:

Amigos$Ingresos2010 <- c(1100, 1500, 900,
750, 900)

Con las anteriores funciones le estamos pidiendo a R que cree dos objetos dentro de la matriz de datos amigos. Si queremos ver cómo nos ha quedado nuestra matriz de datos, tan solo tendremos que escribir el nombre de la misma (Amigos). Si tan solo queremos ver los objetos que tiene nuestra matriz, podemos hacerlo mediante la siguiente instrucción:

names(Amigos)

Podemos hacer algunas operaciones aritméticas entre los objetos que forman parte de la matriz y guardarlas dentro la misma matriz. Por ejemplo, tenemos los sueldos mensuales de nuestros amigos, pero no sus sueldos anuales. Ya que un año tiene 12 meses, si multiplicamos el sueldo mensual por 12 obtendremos el sueldo anual. Esto en R lo podemos hacer de la siguiente manera:

Amigos$IngresosAnuales2013 <- Amigos$Ingresos2013*12

Amigos$IngresosAnuales2010 <- Amigos$Ingresos2010*12

Con estas dos instrucciones, hemos creado dos nuevas variables dentro de nuestra matriz de datos: IngresosAnuales2013 e IngresosAnuales2010. Estas dos variables se obtienen multiplicando por 12 los ingresos mensuales de 2013 y 2010, respectivamente.

Imaginemos ahora que queremos saber si el sueldo de nuestros amigos en este año es mayor que el suelo de 2010, además queremos guardar la diferencia entre ambos sueldos en una nuevo objeto llamado DifSueldos. Para ellos escribimos la siguiente instrucción:

Amigos$DifSueldos <- Amigos$Ingresos2013-Amigos$Ingresos2010

Con esta instrucción, hemos creado el objeto DifSuelods dentro de nuestra matriz de datos. Dicho objeto es igual a la diferencia entre los objetos Ingresos2013 e Ingresos2010. En resumen, es posible crear nuevos objetos a partir de otros ya existentes. Para ello usaremos los diferentes operadores: + para la suma, - para la resta, * para la multiplicación y / para la división. Más adelante volveremos sobre este tema.

PD: Puedes descargar el script que hemos usado en esta entrada haciendo click aquí. Recuerda hacer click en la esquina superior derecha para evitar la publicidad

miércoles, 28 de mayo de 2014

Matrices de datos

En la anterior entrada creamos dos objetos diferentes: nombreamigos y edad (click aquí para descargar el script de la anterior entrada). Aunque estos objetos son independientes, están relacionados en el sentido de que a cada uno de los elementos de la nombreamigos (Jesus, Pedro, Pepe, Paco y Luis) les corresponde una edad determinada (35, 36, 33, 27 y 29, respectivamente). Para trabajar mejor con estos datos, lo ideal sería tener combinados estos dos objetos en uno solo que contendría una columna que se llamaría Nombres (con los nombres de nuestros amigos) y otra columna con la variable edad. Es lo que se conoce como matriz de datos. Si queremos combinar estos dos objetos tecleamos lo siguiente:

Amigos <- data.frame(NombreAmigos, Años)

Con esta instrucción estamos creando un nuevo objeto llamado amigos mediante la función data.frame(). Primeramente, se crea un objeto llamado Amigos (ojo con la mayúscula!) que contiene las variables NombreAmigos y Años en ese mismo orden. Si quisiéramos cambiar el nombre de los objetos que aparecen en la matriz de datos por otros nombres diferentes, lo haríamos con la siguiente instrucción:

Amigos <- data.frame(Nombre=NombreAmigos, Edad=Años)

Es decir, le estamos pidiendo a R que cree una matriz de datos igual que la anterior, pero con la diferencia de que los objetos NombreAmigos y Años aparecerán en nuestra matriz como Nombre y Edad, respectivamente. Si queremos ver, por ejemplo, el contenido del objeto Nombre de nuestra matriz tecleamos lo siguiente:

Amigos$Nombre

Lo mismo es aplicable para el objeto Edad:

Amigos$Edad

En definitiva, para ver el contenido de uno de los objetos de nuestra matriz de datos tenemos que teclear el nombre de la matriz seguida de $ y del nombre del objeto.

En la siguiente entrada veremos como incluir más variables en nuestra matriz de datos y cómo realizar operaciones sencillas entre las diferentes variables. Nos vemos!

PD: Si quieres descargar el scrip usado en esta entrada, haz click aquí. Recuerda hacer click en la esquina superior derecha para evitar la publicidad.

miércoles, 14 de mayo de 2014

Un vistazo rápido a Rstudio

La primera vez que ejecutamos Rstudio veremos algo así:

Aunque reconozco que no se ve excesivamente bien, creo que es suficiente para hacernos una idea de la estructura. Lo más importante de todo es la consola, que es la ventana situada a la izquierda. En dicha ventana, introduciremos el código de programación. Más adelante veremos para que sirven el resto de ventanas, pero nos daremos cuenta que son bastantes intuitivas.

Vamos a realizar un pequeño ejercicio. Escribamos en la consola el siguiente código:

print("Hola Mundo!")
Si pulsamos la tecla "enter", veremos que R nos devuelve la frase "hola mundo!". Enhorabuena, has ejecutado tu primer programa en R. Básicamente, le hemos dicho a R que, mediante la función print(), escriba la frase "hola mundo!" Para usar esta función, es importante que la frase que queramos que aparezca esté entrecomilladas). Un poco más adelante explicaremos qué es una función.

Aunque podemos realizar cualquier tipo de programa mediante la consola, la tarea de programación se facilita si usamos lo que se conocen como scripts. Dicho de forma sencilla, los scripts son archivos de texto en los que podemos escribir líneas de código para poder ejecutarlas posteriormente. Una ventaja de este tipo de archivos es que nos permite o bien ejectuar bloques de instrucciones o bien ejecutarlos individualmente. Vamos a verlo mediante un ejemplo. Primeramente abriremos un script (file-> New file ->R Script). Una vez abierto el script, tecleamos lo siguiente:

print("Hola Mundo!")

print("Adiós Mundo!")

Para ejecutar estas dos instrucciones tenemos dos opciones. Podemos ejecutar cada instrucción de manera separada, para lo que colocamos el cursor del ratón en la instrucción que queramos ejecutar y pulsamos Ctrl + r (o en la parte superior izquierda de nuestro script hacemos click en "run"). Por otro lado, podemos ejecutar las dos instrucciones a la vez seleccionando con el ratón el texto que queremos ejecutar y presionando Ctrl + r (o en la parte superior izquierda de nuestro script hacemos click en "run").

Otra de las ventajas obvias de usar scripts es que se pueden guardar fácilmente como archivos de texto, pudiéndolos cargar cuando queramos. Para ello tecleamos Ctrl + s, y especificamos la carpeta destino en la que guardaremos el script.

Hasta la próxima!

martes, 13 de mayo de 2014

Instalando R

Si aún no tienes R instalado en tu ordenador, ha llegado la hora de hacerlo. Podemos instalar el propio programa R haciendo click aquí y seleccionando la versión que necesitemos según las características de nuestro equipo. Con esto obtendríamos la versión más básica de R, el propio lenguaje de programación, y ya con esto podríamos empezar a realizar diferentes operaciones con R.

Sin embargo, mi recomendación es instalar Rstudio. Este software, que lógicamente es totalmente compatible con R, es lo que se denomina una IDE (del inglés, Integrated Development Environment). Dicho de manera sencilla, una IDE es un entorno que nos facilita un poco el trabajo con R, ofreciéndonos características como autocompletar texto, cambiar el color de la fuente, etc. Para instalar Rstudio es necesario que primero instalemos R. Una vez realizada la instalación, basta con hacer click aquí y seleccionar la versión que precisemos según las características de nuestro equipo.

En la siguiente entrada ya empezaremos a trabajar con R. Nos vemos!

¿Qué es R?

Antes que nada quiero darte la bienvenida a este blog, que trata sobre el análisis estadístico usando R. Si has llegado aquí de manera casual igual te estás preguntando qué es R: Dicho de una manera rápida R es un software que nos permite analizar y representar gráficamente nuestros datos. Bajo mi opinión, las dos características más importantes de R son:

1. Es totalmente gratuito. Un programa con la potencia para el análisis de datos que tiene R puede llegar a costar en el mercado varios miles de euros. R lo podemos descargar e instalar gratuitamente en nuestro ordenador simplemente haciendo click aquí (Click en la esquina superior derecha para saltar la publicidad).

2. Es muy versátil. A diferencia de otros programas estadísticos, R nos permite hacer cualquier tipo de análisis. Una vez que hemos instalado R, ya podemos realizar análisis de datos más o menos complejos. Como veremos, R funciona mediante funciones. Una función es simplemente una instrucción de lo que queremos hacer. Por ejemplo, si queremos calcular la media de varios valores, usaremos la función mean() . En el caso que necesitemos una función concreta que no está incluida en el programa, podremos descargar lo que se llaman “paquetes” que sí la contengan. Y si no existe tal paquete, podremos crear nosotros mismo la función. Esto hace que en R podamos realizar cualquier tipo de operación sobre nuestros datos.

Uno de los problemas de R es que no es muy atractivo visualmente. A diferencia de otros softwares de análisis estadísticos en los que para realizar una determinada función solo tenemos que clickear en diferentes ventanas o cuadro de diálogos, en R tendremos que escribir en código de programación. Aprender este código puede convertirse en una tarea bastante frustrante. La idea de este blog es hacer este camino un poco más fácil. Cada semana intentare publicar una nueva entrada en la que explicare como realizar diferentes análisis usando R, así como algunas notas sobre estadística. Espero que este blog te sea muy útil.

Nos vemos en la siguiente entrada!

Suscribirse a: Entradas ( Atom )

Pages