!head clase2_imagenes_datos/HadCRUT.4.6.0.0.monthly_ns_avg_mod.txt

1850 01 -0.700
1850 02 -0.286
1850 03 -0.732
1850 04 -0.563
1850 05 -0.327
1850 06 -0.213
1850 07 -0.125
1850 08 -0.237
1850 09 -0.439
1850 10 -0.451

# Podemos ver todo el contenido del archivo con "cat":
# !cat clase2_imagenes_datos/HadCRUT.4.6.0.0.monthly_ns_avg_mod.txt

datos = loadtxt("clase2_imagenes_datos/HadCRUT.4.6.0.0.monthly_ns_avg_mod.txt")
plot(datos[:,2])
ylabel("Anomalía de Temperatura")
show()

# Seleccionamos los años únicos con la función "unique":
a = unique(datos[:,0])

promedio = []
for an in a:
    seleccion = (datos[:,0] == an)
    promedio.append( mean(datos[seleccion,2]) )

# Transformamos a un array de numpy (útil más adelante)
promedio = array(promedio)

plot(a, promedio)
xlabel("Año")
ylabel("Anomalía de temperatura")
show()

# Convertimos el arreglo de años de "float" a "int"
a = array(a, int)

# Creamos un arreglo para elegir solamente las anomalías anuales para el
# período 1961-1990
seleccion = ((a <= 1990) & (a >= 1961))

std(promedio[seleccion])

0.13215956816792848

seleccion = (a >= 2000)
abs(promedio[seleccion])/0.132

array([2.24179293, 3.34722222, 3.76893939, 3.84532828, 3.39393939,
       4.13699495, 3.83143939, 3.72474747, 2.99305556, 3.8270202 ,
       4.24558081, 3.21843434, 3.56691919, 3.90088384, 4.39457071,
       5.78977273, 6.04356061, 5.12815657, 4.08712121])

seleccion = (a >= 1961)
plot(a[seleccion], abs(promedio[seleccion]))
plot([1961,2018],[0.132,0.132],'r-')
xlabel("Año")
ylabel("Anomalía de la temperatura")
show()

import pandas as pd

datos = pd.read_csv("clase2_imagenes_datos/Shapley_galaxy.dat", delim_whitespace=True)
datos.head()

/var/folders/x8/qmntmhgn3pz2c9r50zkbnt8c0000gn/T/ipykernel_88867/1691306055.py:3: FutureWarning: The 'delim_whitespace' keyword in pd.read_csv is deprecated and will be removed in a future version. Use ``sep='\s+'`` instead
  datos = pd.read_csv("clase2_imagenes_datos/Shapley_galaxy.dat", delim_whitespace=True)

datos.describe()

from pandas.plotting import scatter_matrix

plots = scatter_matrix(datos)
show()

from sklearn import datasets, svm, metrics

# Cargamos un set de datos con imágenes de números
# Son de 8x8 pixeles cada una
digitos = datasets.load_digits()

# digitos.images tiene las imagenes.
# digitos.images tiene los numeros (respuestas).
imagenes_y_etiquetas = list(zip(digitos.images, digitos.target))
for index, (image, label) in enumerate(imagenes_y_etiquetas[:10]):
    subplot(3, 4, index + 1)
    axis('off')
    imshow(image, cmap=cm.gray_r, interpolation='nearest')
    title('%i' % label)

n_muestras = len(digitos.images)
datos = digitos.images.reshape((n_muestras, -1))

# Usamos un algoritmo de machine learning que se llama 
# "support vector machine"
clasificador = svm.SVC(gamma=0.001)

# Usamos la mitad de los digitos (0-3) para "entrenar" el algoritmo
mitad_datos = n_muestras // 2
clasificador.fit(datos[:mitad_datos], digitos.target[:mitad_datos])

SVC(gamma=0.001)

SVC(gamma=0.001)

esperado = digitos.target[mitad_datos:]
predicho = clasificador.predict(datos[mitad_datos:])

imagenes_y_predicciones = list(zip(digitos.images[mitad_datos:], predicho))
for index, (image, prediction) in enumerate(imagenes_y_predicciones[:4]):
    subplot(2, 4, index + 5)
    axis('off')
    imshow(image, cmap=cm.gray_r, interpolation='nearest')
    title('Predic: %i' % prediction)

print(f"{metrics.classification_report(esperado, predicho)}\n")

              precision    recall  f1-score   support

           0       1.00      0.99      0.99        88
           1       0.99      0.97      0.98        91
           2       0.99      0.99      0.99        86
           3       0.98      0.87      0.92        91
           4       0.99      0.96      0.97        92
           5       0.95      0.97      0.96        91
           6       0.99      0.99      0.99        91
           7       0.96      0.99      0.97        89
           8       0.94      1.00      0.97        88
           9       0.93      0.98      0.95        92

    accuracy                           0.97       899
   macro avg       0.97      0.97      0.97       899
weighted avg       0.97      0.97      0.97       899

disp = metrics.ConfusionMatrixDisplay.from_predictions(esperado, predicho)
disp.figure_.suptitle("Matriz de Confusión")
show()

imagen1 = load("clase2_imagenes_datos/pulsars/image1.npy")
imagen6 = load("clase2_imagenes_datos/pulsars/image6.npy")

imshow(imagen1)
show()

<matplotlib.image.AxesImage at 0x30a011400>

imshow(imagen6)
show()

<matplotlib.image.AxesImage at 0x30a076c30>

imagenes = np.zeros((200,200,10))
for i in range(1,10+1):
    imagenes[:,:,i-1] = load("clase2_imagenes_datos/pulsars/image"+str(i)+".npy")

imagenes.shape

(200, 200, 10)

from scipy import stats
h, bins = histogram(imagenes.flatten(), density=True)
centros = 0.5*(bins[1:] + bins[:-1])

pdf = stats.norm.pdf(centros,loc=5.0)
scatter(centros, h)
scatter(centros, pdf)
ylabel("% de ocurrencias")
xlabel("Valor del pixel ('brillo')")
show()

imagen_resultante = mean(imagenes,axis=2)

imshow(imagen_resultante)
show()

	R.A.	Dec.	Mag	V	SigV
0	193.02958	-32.84556	15.23	15056	81
1	193.04042	-28.54083	17.22	16995	32
2	193.04042	-28.22556	17.29	21211	81
3	193.05417	-28.33889	18.20	29812	37
4	193.05542	-29.84056	12.55	2930	38

	R.A.	Dec.	Mag	V	SigV
count	4215.000000	4215.000000	4215.000000	4215.000000	4215.000000
mean	201.591313	-31.544202	15.132287	14789.242942	59.873547
std	5.424458	2.252409	4.830717	8043.123152	49.745016
min	193.029580	-37.648890	0.000000	-75.000000	0.000000
25%	196.853335	-32.887360	15.140000	10937.000000	33.000000
50%	201.966670	-31.477500	16.200000	14483.000000	51.000000
75%	204.833750	-29.848055	17.720000	16578.500000	78.000000
max	216.030000	-27.503330	22.330000	76746.000000	899.000000

ID	Nombre	Mag. max.	Mag. min.	Tipo
9	Betelgeuse	0.0	1.3	Supergigante rojo
60	Algol	2.1	3.4	Binaria eclipsante
61	Eta Carinae	-0.8	7.9	Variable LBV

Análisis y ciencia de datos¶

El propósito del análisis de datos¶

¿Qué son los datos?¶

Pasos principales del análisis de datos:¶

1. Explorar y procesar los datos.¶

2. Aplicar análisis¶

3. Visualizar el resultado.¶

1. Exploración de los datos¶

2. Aplicar análisis¶

Análisis estadística de las temperaturas¶

3. Visualizar los resultados¶

Herramientas para análisis de datos¶

Análisis de datos e Inteligencia Artificial¶

Reconocimiento de escritura a mano¶

Datos masivos¶

Bases de datos¶

Los tipos de bases de datos¶

Bases de datos relacionales¶

Acceso remoto¶

Bases de datos en la astronomía¶

Análisis de datos masivos¶

Ejemplo: datos (imágenes) de pulsares¶

Combinando las imagenes¶

Resumen¶