-
Notifications
You must be signed in to change notification settings - Fork 2
/
Copy path01-motivacion.Rmd
156 lines (108 loc) · 5.14 KB
/
01-motivacion.Rmd
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
---
title: "Estadística de Redes y Econometria Espacial (con R)"
author: "George G. Vega Yon"
date: "<img src=\"fig/cana_logo.png\" style=\"width:300px;\"><br>Department of Preventive Medicine<br>University of Southern California<br>2 de Enero, 2019"
output:
revealjs::revealjs_presentation:
self_contained: true
transition: fade
theme: simple
reveal_options:
controls: false
slideNumber: true
margin: 0.05
width: 1024
height: 780
css: "slides.css"
slide_level: 2
editor_options:
chunk_output_type: console
bibliography: bibliography.bib
---
```{r setup, include=FALSE}
knitr::opts_chunk$set(echo = TRUE)
```
## Financiamiento
<table style="border: 1px solid transparent">
<tr style="border: 1px solid transparent">
<td>![](fig/ARO_logo.png){style="width:300px;"}</td>
<td>This material is based upon work support by, or in part by, the U.S. Army Research
Laboratory and the U.S. Army Research Office under grant number W911NF-15-1-0577</td>
</tr>
<tr style="border: 1px solid transparent">
<td>![](fig/usc.png){style="width:300px;"}</td>
<td>
Computation for the work described in this paper was supported by the University
of Southern California’s Center for High-Performance Computing (hpcc.usc.edu).
</td>
</tr>
</table>
![](fig/muriteams.png){style="width:800px;"}
## Estadística Descriptiva vs Inferencia Estadística
Una distinción importante antes de partir:
* En esta presentación nos enfocaremos en modelos estadísticos de redes, y no
en estadística descriptiva
* Nada en contra de lo último, más aún, describir dinámicas de redes utilizando
estadística descriptiva es muy importante
* A que me refiero con ED? Censo triádico/*Network Motifs*,
Distribución de grado, etc.
<!-- * Una referencia muy buena para lo anterior es: ... TBD -->
## El qué
* En términos generales, podemos encapsular el análisis estadístico de redes
en dos(tres) grandes familias:
a. Estudio de las estructuras sociales(o no)
b. Estudio del comportamiento
c. Las dinámicas de comportamiento y su interacción con las estructuras
sociales
* El principal problema con estos objectos de estudio radica en el hecho de
que las observaciones son, por construccion, no idependientes.
## Cuando la inferencia estadística se invalida
* Usualmente, cuando analizamos una muestra de datos de una poblacion $(y, X)$,
uno de los principales supuestos es IID
* Dicho supuesto nos permite calcular la funcion de verosimilitud conjunta
tomando el producto de las partes individuales.
$$
L(\theta|y, X) = \prod_i f(y|\theta, X),\quad y_i\sim iid
$$
Esto hace la inferencia "sencilla".
* ¿Qué pasa cuando los datos no son iid?
* Esto es precisamente lo que los modelos de redes y econometría espacial resuelven
## Notación
Primero, algo de notación
* Un **grafo** es una tupla $(V, E)$ con $E\equiv\left\{(i, j): i,j \in V\right\}$,
$|V| = n, |E| = m$
* Para cada componente $i \in V$ observamos un vector $\{y_i, X_i^t\}$ (puede
ser una variable dependiente, y un set de características)
* En general, los grafos que utilizaremos aquí pueden ser representados como
una matriz cuadrada de tamaño $n$, la matriz adjacente, que puede ser o no
dicotómica (0/1). La denotaremos como $W$.
## Estructuras sociales
* La pregunta clave: ¿Qué dio origen a $G$, el grafo?
* El tipo de modelo más popular (en ciencias sociales) es el denominado
**Exponential Random Graph Model** (modelos exponenciales de grafos aleatorios)
* En general (hay excepciones), $y=G$ es una única observacion, una red, y tratamos
de estimar un modelo de tipo $\Pr\left(Y = y|X, \theta\right)$
* Como verán, el principal problema de estimar este tipo de modelos es la
complejidad numérica... Para calcular la función de verosimilitud de un grafo
de tamaño $n$, debemos calcular $2^{n(n-1)}$ términos, es decir, si $n = 6$,
la funcion de verosimilitud tiene $2^{6*5} = 1.073.741.824$ términos.
## Comportamiento
* Si la pregunta es: Como la estructura social influye en la variable $y$.
* Asumiendo o exogeneidad o independencia intertemporal, o estructura estática,
podemos estimar modelos del tipo $\Pr\left(Y = y|X, G, \theta\right)$
* La Econometría/Estadística espacial tiene una amplia gama de modelos que pueden
ser utilizados en esta lógica.
* La familia de modelos que exploraremos aquí es la denominada Spatial Autoregressive
Models (SAR).
* Nuevamente, la validez del uso de estos modelos depende fundamentalmente en
el hecho de si $G$ puede ser considerado exógeno con respecto de la variable
dependiente.
## Paquetes sugeridos {style="font-size:80%"}
```{r echo=FALSE}
descpkg <- function(pkg) {
if (length(pkg) > 1)
return(sapply(sort(pkg), descpkg))
with(packageDescription(pkg), sprintf("\n\n* [`%s`](https://cran.r-project.org/package=%s): %s\n", Package, Package, Title))
}
```
`r descpkg(c("ergm", "spdep", "Matrix", "sna", "igraph", "netdiffuseR", "sphet", "RSiena", "texreg", "coda"))`