ANEXOS

CÓDIGO EN R OCUPADO

setwd("D:/Mineria de datos y Aprendisaje maquina/1.- Analisis Cluster/2.- Analisis Cluster Jerarquico")
datos = read.csv(file = "8.- emergencias_ambientales.csv", header = T, sep = ",")
datos

#Cluster por el metodo jerarquico

X<-datos[1:32,-1] # quitamos nombres de los estados y lo llamamos X
X
Y=scale(X[,1:5]) # Tipificamos la matriz de datos y la llamamos Y
Y
row.names(Y)=as.character(datos[1:32,1]) # agregamos el nombre de los estados
a.tipif = Y # llamamos al archivo a.tipif
a.tipif

#Librerias a ocupar
library(kableExtra)
library(factoextra)
library(ggplot2)
library(dplyr)

#Metodo Ward.D por la distancia Manhattan
hcward = hclust(dist(a.tipif, method="manhattan"), method = "ward.D")
hcward

plot(hcward, main = NULL,ylab = "Distancias entre los clusters",
xlab="Clusteres por entidad fedarativa", sub="", cex=.9)
rect.hclust(hcward, k=3, border = 3)

#Me dice que estado a que cluster pertenece
estadoclus = cutree(hcward, k=3)
estadoclus

#visualizar los cluster
estadoclus<- cutree(hcward, k=3) #Solo mostramos cluster
grafico <- fviz_cluster(list(data=a.tipif, cluster=estadoclus))
grafico + labs(title = NULL)

#Juntamos la base original para observar que entidad a que cluster pertenece
datos = cbind(datos,estadoclus)
datos = datos[,-1]
datos
View(datos)

#Se generaron distintas base para cada cluster y con ello sacar sus estadisticas
#descritivas de cada cluster y obtener la media y asi dar respuesta al objetivo
#especifico 2

#BASE DEL CLUSTER 1
base.1 = datos[c("CHIAPAS","AGUASCALIENTES","TLAXCALA","OAXACA","MORELOS","SONORA",
"ZACATECAS","DURANGO","SAN LUIS POTOSI","BAJA CALIFORNIA","TABASCO",
"YUCATAN","CAMPECHE","NAYARIT","SINALOA","BAJA CALIFORNIA SUR","COLIMA",
"CHIHUAHUA","GUERRERO","QUINTANA ROO"),]
base.1
summary(base.1)

#BASE DEL CLUSTER 2
base.2 = datos[c("CIUDAD DE MEXICO","MEXICO","HIDALGO","PUEBLA","QUERETARO"),]
base.2
summary(base.2)

#BASE DEL CLUSTER 3
base.3 = datos[c("VERACRUZ","MICHOACAN","COAHUILA","TAMAULIPAS","JALISCO",
"GUANAJUATO","NUEVO LEON"),]
base.3
summary(base.3)

#Usamos la base llamada "Promedios de los cluster#
#Con esto damos resouesta al objetivo 2
datos_1 = read.delim("clipboard")
datos_1

par(mfrow=c(1,3))
#Medias del cluster 1
g1 = barplot(datos_1$Cluster.1, ylim = c(0,12), main = "Cluster 1" ,ylab = "Promedio",
xlab = "Tipo de emergencia ambiental",
col = c("Blue","yellow","Red","Pink","green"),
names.arg = c("Derrame","Explosion","Fuga","Incendio",
"Otro"))
text(g1, datos_1$Cluster.1+0.4, labels = datos_1$Cluster.1)

#Medias del cluster 2
g2 = barplot(datos_1$Cluster.2, ylim = c(0,2), main = "Cluster 2" ,ylab = "Promedio",
xlab = "Tipo de emergencia ambiental",
col = c("Blue","yellow","Red","Pink","green"),
names.arg = c("Derrame","Explosion","Fuga","Incendio",
"Otro"))
text(g2, datos_1$Cluster.2+0.1, labels = datos_1$Cluster.2)

#Medias del cluster 3
g3 = barplot(datos_1$Cluster.3, ylim = c(0,12), main = "Cluster 3" ,ylab = "Promedio",
xlab = "Tipo de emergencia ambiental",
col = c("Blue","yellow","Red","Pink","green"),
names.arg = c("Derrame","Explosion","Fuga","Incendio",
"Otro"))
text(g3, datos_1$Cluster.3+0.4, labels = datos_1$Cluster.3)