Taller a cargo de Stephanie Orellana y Riva Quiroga
Este taller tiene por objetivo que sus participantes se familiaricen con el uso de expresiones regulares (conocidas también como "regex"). Específicamente, abordaremos el potencial que tienen como parte del proceso de limpieza y transformación de datos usando paquetes del "Tidyverse". Los ejemplos prácticos se enfocarán en el trabajo con dataframes y archivos de texto y en cómo utilizar expresiones regulares en conjunto con funciones de los paquetes {stringr}, {dplyr} y {tidyr}.
Para este taller es necesario tener una versión de R igual o superior a 3.6 y tener instalados RStudio y los paquetes {tidyverse}, {janitor}, {pdftools} y la versión en desarrollo de {datos}. Esta última se puede instalar desde GitHub con: remotes::install_github("cienciadedatos/datos")
. Puede que tengas que instalar antes el paquete {remotes}.
Los datos
Parte 1
paises <- datos::paises
telefonos <- https://raw.githubusercontent.com/rladieschile/taller-regex-2021/main/datos/telefonos.csv
Parte 2
peliculas <- read_csv("https://raw.githubusercontent.com/cienciadedatos/datos-de-miercoles/master/datos/2020/2020-02-19/ranking_imdb.csv")
pinguinos <- datos::pinguinos
animales <- read_csv("https://raw.githubusercontent.com/rladieschile/taller-regex-2021/main/datos/animales.csv")
El código
Video
Por el momento el video está disponible en Dropbox. Pronto lo subiremos a Vimeo. Ojo que hay que descargarlo para poder verlo completo.
Los datos
Parte 1
Archivos en https://github.com/rladieschile/taller-regex-2021. Si quieres seguir el ejemplo en vivo:
Apretar el boton verde que dice "Code" para clonar
Descargar el repositorio completo en ZIP ("Download ZIP")
Descomprimir y abrir el archivo .Rproj
También usaremos el archivo de conexiones que se encuentra en:
https://raw.githubusercontent.com/sporella/30daymap/master/data/conexiones_internet_fija.csv
Parte 2
(próximamente)
El código
Video
Por el momento está disponible en este enlace. Pronto lo subiremos a Vimeo.
Material complementario
Cheatsheet Regex: guía de referencia de expresiones regulares.
Cheatsheet {stringr}: guía de referencia del paquete {stringr}
Nombrar cosas: presentación Stephanie Orellana día 2.
Naming Things: presentación de Jenny Bryan
Funciones pivotantes Breve presentación para explicar lo básico.