Guía Docente 2023-24
BIOESTADÍSTICA

DATOS BÁSICOS DE LA GUÍA DOCENTE:

Materia: BIOESTADÍSTICA
Identificador: 33287
Titulación: GRADUADO EN BIOINFORMÁTICA. PLAN 2019 (BOE 06/02/2019)
Módulo: MATEMÁTICAS
Tipo: MATERIA BASICA
Curso: 2 Periodo lectivo: Primer Cuatrimestre
Créditos: 6 Horas totales: 150
Actividades Presenciales: 62 Trabajo Autónomo: 88
Idioma Principal: Castellano Idioma Secundario: Inglés
Profesor: Correo electrónico:

PRESENTACIÓN:

El objetivo de la asignatura es el de realizar exploración de datos, representaciones gráficas, análisis y establecimiento de conclusiones utilizando las herramientas más comunes empleadas en la estadística aplicada al área de la biología y bioinformática.

Se estudian los principios básicos de la estadística que se utilizan con asiduidad en el tratamiento de datos de origen biológico y derivados de técnicas de alto rendimiento y análisis bioinformático posterior. Se repasan conceptos básicos de la estadística descriptiva y de teoría de la probabilidad. Se hace hincapié en el contraste de hipótesis basado en estadística inferencial, pruebas no parámetricas y estadística bayesiana. Finalmente, se lleva acabo el estudio de métodos de regresión y agrupamientos en clúster.

Todo el trabajo es desarrollado en el lenguaje de programación R, por lo que se asentarán conceptos aprendidos en cursos anteriores además de ampliarlos con nuevas funcionalidades, como la generación de informes a través de Markdown. 

COMPETENCIAS PROFESIONALES A DESARROLLAR EN LA MATERIA:

Competencias Generales de la titulación G05 Comunicar en lengua castellana y/ o inglesa temas profesionales en forma oral y escrita.
G07 Elegir entre diferentes modelos complejos de conocimiento para su aplicación a la resolución de problemas.
G08 Reconocer el papel del método científico en la generación de conocimiento y su aplicabilidad a un entorno profesional.
G10 Aplicar la creatividad, independencia de pensamiento, autocrítica y autonomía en el ejercicio profesional.
Competencias Específicas de la titulación E18 Aplicar métodos estadísticos y computacionales para resolver problemas en los campos de la biología molecular, la genómica, la investigación médica y de la genética de poblaciones.
Resultados de Aprendizaje R01 Explicar la importancia de la muestra en el análisis de fenómenos poblacionales.
R02 Enumerar los métodos básicos de muestreo.
R03 Explicar las técnicas básicas de la Estadística: descriptiva, probabilidad, contraste de hipótesis y regresión y correlación.
R04 Interpretar situaciones reales desde el razonamiento estadístico y viceversa.
R05 Elegir las técnicas estadísticas adecuadas para realizar un análisis estadístico con propiedad y rigor.
R06 Programar una hoja de cálculo para obtener resultados estadísticos básicos.

REQUISITOS PREVIOS:

Conocimientos básicos del lenguaje R. Manejo en el entorno de desarrollo de RStudio. Nociones fundamentales de estadística como media, varianza y mediana. Conocimientos básicos de técnicas ómicas.

 

PROGRAMACIÓN DE LA MATERIA:

Contenidos de la materia:

1 - Exploración de datos y gráficas
    1.1 - Importación de datos desde ficheros externos y datasets. Vectores, matrices y dataframes
    1.2 - Comandos para explorar según tipo de variable
    1.3 - Manipulación de datos
    1.4 - Gráficos. Gráficos básicos. Parámetros para representar gráficos. Packages ggplots2.
    1.5 - Taller markdown
2 - Teoría de la probabilidad
    2.1 - Introducción teoría probabilidad. Espacio de la muestra. Medir la probabilidad.
    2.2 - Operaciones en probabilidad: unión, intersección, complementario. Eventos de disjoint.
    2.3 - Reglas fundamentales de la probabilidad. Ley de la probabilidad total. Eventos independientes.
    2.4 - Teorema de Bayes
3 - Variables y distribuciones.
    3.1 - Variables aleatorias: discretas y continuas.
    3.2 - Distribuciones de probabilidad.
    3.3 - Distribuciones de probabilidad de variables discretas. Distribución Bernouilli. Distribución binomial. Distribución de Poisson. Distribución negativa binomial. Distribución geométrica.
    3.4 - Distribuciones de probabilidad de variables continuas. Distribución normal. Distribución exponencial.
4 - Estadística inferencial
    4.1 - Teoría del muestreo. Ley de los números grandes.
    4.2 - Distribuciones referentes al muestreo: Distribución chi-cuadrado. Distribución F. Distribución t-Student.
    4.3 - Estimación de parámetros. Estimadores puntuales.
    4.4 - Intervalos de confianza. Casos particulares para cálculo intervalos de confianza.
    4.5 - Teorema Central del Límite.
5 - Contraste de hipótesis. Pruebas no paramétricas.
    5.1 - Introducción al contraste de hipótesis.
    5.2 - Significación estadística. Interpretación del p-value.
    5.3 - Evaluación de hipótesis para media de una población. Caso varianza conocida y varianza desconocida.
    5.4 - Evaluación de hipótesis para proporciones de población
    5.5 - Evaluación de hipótesis para la media de poblaciones diferentes. Casos de varianzas conocidas, desconocidas iguales y desconocidas diferentes, en muestras independientes y muestras dependientes.
    5.6 - Evaluación de hipótesis para la media de proporción de poblaciones diferentes.
    5.7 - Evaluación de hipótesis de varianzas de una población. Evaluación de la hipótesis de la razón de varianzas de dos poblaciones.
    5.8 - Test de normalidad
    5.9 - Pruebas no paramétricas. Bondad de ajuste de Pearson para chi-cuadrado. Tablas de contingencia. Test exacto de Fisher. Estadístico Kolmogorov-Smirnov. Test de Wilcoxon para muestras independientes y dependientes. Test Mann-Whitney.
6 - Relación entre variables
    6.1 - Distribuciones de probabilidad que involucra a más de una variable (distribución conjunta, distribución marginal, distribución condicional) en variables discretas.
    6.2 - Distribuciones de probabilidad que involucra a más de una variable (distribución conjunta, distribución marginal, distribución condicional) en variables continuas.
    6.3 - Relación entre variables continuas. Correlación.
    6.4 - Relación entre variables continuas y discretas.
7 - Análisis de varianza.
    7.1 - Introducción. ANOVA.
    7.2 - One-way ANOVA.
    7.3 - Two-way ANOVA.
    7.4 - Prueba no paramétrica de Kruskall-Wallis.
8 - Introducción a los Modelos de Regresión.
    8.1 - Modelo regresión lineal simple.
    8.2 - Modelo regresión lineal múltiple.
9 - Clustering
    9.1 - Introducción.
    9.2 - Clustering por algoritmo k-means.
    9.3 - Clustering jerárquico. Aglomerativo y divisivo. Dendogramas.

La planificación de la asignatura podrá verse modificada por motivos imprevistos (rendimiento del grupo, disponibilidad de recursos, modificaciones en el calendario académico, etc.) y por tanto no deberá considerarse como definitiva y cerrada.


METODOLOGÍAS Y ACTIVIDADES DE ENSEÑANZA Y APRENDIZAJE:

Metodologías de enseñanza-aprendizaje a desarrollar:

La asignatura exige un esfuerzo importante por parte del alumno para aplicar los conceptos de cada tema en los sucesivos. Por tanto, se recomienda un seguimiento continuo de la asignatura. Para ello la principal actividad que se propone consiste en el estudio individual, la reproducción de los ejemplos en clase utilizados y la realización de ejercicios por parte del alumno que son de caracter evaluable, así como la entrega de los trabajos.

Las sesiones presenciales serán una alternancia entre clases magistrales sobre la teoría de la bioestadística y demostraciones con ejemplos de datos de origen biológico o de resultados de análisis bioinformáticos de experimentos reales. Las demostraciones se realizarán en lenguaje R.

Las clases prácticas estarán orientadas a la realización y corrección de ejercicios en entorno de R. Y serán siempre similares a los ejemplos prácticos estudiados. Estas clases se realizarán al final de cada unidad con el objetivo de repasar, afianzar e interiorizar conceptos, que probablemente deberán ser puestos en práctica al avanzar la asignatura.

En las clases magistrales y prácticas se hará participe al alumno en medida de todo lo posible, procurando modular los niveles de dificultad en función del nivel de comprensión que presenten los alumnos..

Se fomentará el trabajo autónomo a través de la entrega de ejercicios que serán evaluados en formato pdf creados por los alumnos. En ellos, los alumnos tendrán que demostrar el conocimiento adquirido, la capacidad de síntesis y la organización a la hora de trabajar.  Además, se persigue que el alumno adquiera autonomía a la hora de manejarse en el lenguaje R, siendo capaz de resolver problemas derivados del mismo a través de la documentación y los foros de ayuda de internet.

Existirán dos sesiones a modo taller, una para la realización de markdowns y otra para la realización un ejercicio de clusterización, que será evaluado.

Los alumnos deberán demostrar la interiorización de conceptos y la capacidad de análisis, así como la capacidad de exponer los conceptos aprendidos aplicado al estudio de un contraste de hipótesis. La exposición deberá ir complementado con un informe en markdown. Además deberán ser capaces de establecer conclusiones a partir de los resultados obtenidos.

El alumno presentará en todo momento apoyo por parte de la docente de la materia a través del correo electrónico y tutorías presenciales. Además, si fuera necesario podrían plantearse foros presenciales de ayuda en los que toda la clase sea participe y se contribuyan a resolver los problemas de forma conjunta.

 

Volumen de trabajo del alumno:

Modalidad organizativa Métodos de enseñanza Horas estimadas
Actividades Presenciales
Clase magistral 22
Casos prácticos 18
Resolución de prácticas, problemas, ejercicios etc. 18
Exposiciones de trabajos de los alumnos 2
Talleres 2
Trabajo Autónomo
Asistencia a tutorías 2
Estudio individual 24
Preparación de trabajos individuales 25
Tareas de investigación y búsqueda de información 10
Lecturas obligatorias 10
Otras actividades de trabajo autónomo 2
Estudio Test 0
Preparación Examen 15
Horas totales: 150

SISTEMA DE EVALUACIÓN:

Obtención de la nota final:

Trabajos individuales: 35 %
Prueba final: 45 %
Presentación caso: 10 %
Evaluación ensayo/trabajo: 10 %
TOTAL 100 %

*Las observaciones específicas sobre el sistema de evaluación serán comunicadas por escrito a los alumnos al inicio de la materia.

BIBLIOGRAFÍA Y DOCUMENTACIÓN:

Bibliografía básica:

SEEFELD, Kim. Statistics Using R with Biological Examples. Boston, 2007
MATHUR, Sunilk. Statistical Bioinformatics with R. Academic Press, 2010

Bibliografía recomendada:

CRAWLEY, Michael J. The R Book. West-Sussex: John Wiley & Sons, 2013.
SHAHBABA, Babak. Biostatistics with R. An Introduction to Statistics Through Biological Data. New York: Springer, 2012

Páginas web recomendadas:

Bioconductor http://bioconductor.org/


* Guía Docente sujeta a modificaciones