aboutsummaryrefslogtreecommitdiff
path: root/backend
diff options
context:
space:
mode:
Diffstat (limited to 'backend')
-rw-r--r--backend/microservice/mlservice.py286
1 files changed, 286 insertions, 0 deletions
diff --git a/backend/microservice/mlservice.py b/backend/microservice/mlservice.py
new file mode 100644
index 00000000..0780697c
--- /dev/null
+++ b/backend/microservice/mlservice.py
@@ -0,0 +1,286 @@
+import pandas as pd
+import tensorflow as tf
+import keras
+import numpy as np
+import matplotlib.pyplot as plt
+
+### 1)Ucitavanje vrednosti
+
+#print(1)
+data1=pd.read_csv('titanic.csv')
+data=data1.copy()
+#print(data.head())
+
+### U promenjivoj kolone nalaze se nazivi svih kolona seta podataka
+kolone=data.columns
+#print(kolone[1])
+#print(data[kolone[1]].isnull().sum())
+#print(data[kolone[1]].head(10))
+
+
+### 2)Proveravanje svih kolona za null vrednosti i popunjavanje medijanom ili srednjom vrednosti ili birisanje
+
+#####Part2 #####
+brisanje=input("DA LI ZELITE DA IZBRSETE SVE KOLONE SA NULL VREDNOSTIMA? ")
+if(brisanje=='da'):
+ data=data.dropna(axis=1)
+elif(brisanje=='ne'):
+ brisanjer=input("DA LI ZELITE DA IZBRISETE SVE REDOVE SA NULL VREDNOSTINA ")
+ if(brisanjer=='da'):
+ data=data.dropna()
+ elif(brisanjer=='ne'):
+
+ for i in range(len(kolone)):
+ if(isinstance(data[kolone[i]].dtype, pd.CategoricalDtype)):
+ print('cat')
+
+ if(data[kolone[i]].isnull().any()):
+ tippodataka=data[kolone[i]].dtype
+ kolona=data[kolone[i]].copy()
+
+ if(tippodataka==np.float64 or tippodataka==np.int64):
+ popunjavanje=input("UNETI NACIN POPUNJAVANJA PROMENJIVIH SA NULL VREDNOSTIMA ")
+ if(popunjavanje=='medijana'):
+ medijana=kolona.mean()
+ data[kolone[i]]=data[kolone[i]].fillna(medijana)
+ if(popunjavanje=='srednjavrednost'):
+ sv=data[kolone[i]].sum()/data[kolone[i]].count()
+ data[kolone[i]]=sv
+ if(popunjavanje=='brisanjekolone'):
+ data=data.dropna(axis=1)
+
+ elif(tippodataka==np.object_):
+ najcescavrednost=kolona.value_counts().index[0]
+ data[kolone[i]]=data[kolone[i]].fillna(najcescavrednost)
+
+### 3)Izbacivanje kolona koje ne uticu na rezultat PART2
+nredova=data.shape[0]
+for i in range(len(kolone)):
+ if((data[kolone[i]].nunique()>(nredova/2)) and( data[kolone[i]].dtype==np.object_)):
+ data.pop(kolone[i])
+
+print(data.head(10))
+
+### 4)izbor tipa enkodiranja
+kolone=data.columns ### Azuriranje postojecih kolona nakon moguceg brisanja
+
+enc=input("UNETI TIP ENKODIRANJA ")
+onehot=0
+
+### 5)Enkodiranje svih kategorijskih promenjivih label-encode metodom
+
+if(enc=='label'):
+ from sklearn.preprocessing import LabelEncoder
+ encoder=LabelEncoder()
+ for k in range(len(kolone)):
+ if(data[kolone[k]].dtype==np.object_):
+ data[kolone[k]]=encoder.fit_transform(data[kolone[k]])
+ print(data.head(20))
+
+### 6)Enkodiranje svih kategorijskih promenjivih onehot metodom
+
+elif(enc=='onehot'):
+ ### PART2###
+ onehot==1
+ kategorijskekolone=[]
+ for k in range(len(kolone)):
+ if(data[kolone[k]].dtype==np.object_):
+
+ kategorijskekolone.append(kolone[k]) ###U kategorijske kolone smestaju se nazivi svih kolona sa kategorijskim podacima
+
+ print(kategorijskekolone)
+
+ ### Enkodiranje
+ data=pd.get_dummies(data,columns=kategorijskekolone,prefix=kategorijskekolone)
+ print(data.head(10))
+
+kolone=data.columns ### Azuriranje kolona nakon moguceg dodavanja
+
+### 7)Podela skupa na skup za trening i skup za testiranje
+
+predvidetikol=input("UNETI NAZIV KOLONE ČIJU VREDNOST TREBA PREDVIDETI ")
+
+xkolone=[]
+for k in range(len(kolone)):
+ if(kolone[k]!=predvidetikol):
+
+ xkolone.append(kolone[k])###U xkolone se smestaju nazivi kolona cije vrednosti nije potrebno predvideti !!!Prefiks one-hot!!!
+
+### 7.1)Podela na x i y
+###Dodavanje vrednosti u x
+x=data[xkolone].values
+###Dodavanje vrednosti u y, samo za label enkodiranje, bez prefiksa
+y=data[predvidetikol].values
+
+print(data[xkolone].head(10))
+print(data[predvidetikol].head(10))
+
+### 7.2)Unos velicina za trening i test skup
+trening=int(input('UNETI VELIČINU TRENING SKUPA '))
+#test=int(input("UNETI VELICINU TESTNOG SKUPA"))
+
+###Provera unetih velicina
+if(trening<=0 or trening>=100):
+ print("POGREŠAN UNOS VELIČINE SKUPA ZA TRENING")
+if(trening>1):
+ trening=trening/100
+
+### 7.3)Da li korisnik zeli nasumicno rasporedjivanje podataka?
+nasumicno=input("DA LI ŽELITE NASUMIČNO RASPOREDJIVANJE PODATAKA U TRENING I TEST SKUP? ")
+###!!!Dugme za nasumici izbor
+if(nasumicno=='da'):
+ random=50
+else:
+ random=0
+
+### 7.4)Podela podataka
+from sklearn.model_selection import train_test_split
+x_train,x_test,y_train,y_test=train_test_split(x,y,train_size=trening,random_state=random)
+
+### 8)Skaliranje podataka
+from sklearn.preprocessing import StandardScaler
+scaler=StandardScaler()
+scaler.fit(x_train)
+x_test=scaler.transform(x_test)
+x_train=scaler.transform(x_train)
+
+#####ZAVRSENA PRIPREMA PODATAKA#####
+
+#####OBUCAVANJE MODELA#####
+
+### 9)Inicijalizacija vestacke neuronske mreze
+
+classifier=tf.keras.Sequential()
+
+### 10)Dodavanje prvog,ulaznog sloja
+aktivacijau=input("UNETI ŽELJENU AKTIVACIONU FUNKCIJU ULAZNOG SLOJA ")
+brojnu=int(input("UNETI BROJ NEURONA ULAZNOG SLOJA "))
+
+classifier.add(tf.keras.layers.Dense(units=brojnu,activation=aktivacijau,input_dim=x_train.shape[1]))
+
+### 11)Dodavanje drugog, skrivenog sloja
+aktivacijas=input("UNETI ŽELJENU AKTIVACIONU FUNKCIJU SKRIVENOG SLOJA ")
+brojns=int(input("UNETI BROJ NEURONA SKRIVENOG SLOJA "))
+
+classifier.add(tf.keras.layers.Dense(units=brojns,activation=aktivacijas))
+
+### 12) Dodavanje treceg, izlaznog sloja
+aktivacijai=input("UNETI ŽELJENU AKTIVACIONU FUNKCIJU IZLAZNOG SLOJA ")
+
+classifier.add(tf.keras.layers.Dense(units=1,activation=aktivacijai))
+
+
+### 13) Kompajliranje neuronske mreze
+#gubici=input("UNETI FUNKCIJU OBRADE GUBITAKA ")
+optimizator=input("UNETI ŽELJENI OPTIMIZATOR ")
+
+### 13.1)Izbor metrike za kompajler PART2
+metrike=[]
+while(1):
+ m=input("UNETI ZELJENE METRIKE ")
+
+ if(m=='KRAJ'):
+ break
+ metrike.append(m)
+classifier.compile(optimizer=optimizator, loss='binary_crossentropy',metrics = metrike)
+
+### 14)
+uzorci=int(input("UNETI KOLIKO UZORAKA ĆE BITI UNETO U ISTO VREME "))
+
+history=classifier.fit(x_train,y_train,batch_size=uzorci,epochs=10)
+
+### 14.1)Parametri grafika iz history PART2
+metrikedf=pd.DataFrame() ###DataFrame u kom se nalaze podaci o rezultatima metrika za iscrtavanje na grafiku. Svaka kolona sadrzi vrednost metrike po epohama
+for i in range(len(metrike)):
+ metrikedf[metrike[i]]=history.history[metrike[i]]
+ #print(history.history[metrike[i]])
+ plt.plot(history.history[metrike[i]])
+plt.show()
+
+#print(metrikedf)
+
+#metrikedf.to_csv("metrike.csv")
+
+
+### 15) Predvidjanje
+y_pred=classifier.predict(x_test)
+
+print(y_pred)
+
+### 15.1) Formatiranje podataka za metrike PART2
+y_pred=(y_pred>=0.5).astype('int')
+y_pred=y_pred.flatten()
+
+#print(y_pred)
+
+#print(y_test)
+### 15.2) Kreiranje DataFrame-a u kom se nalaze kolone koje predstavljaju stvarne i predvidjene vrednosti, potrebne za iscrtavanje grafika i metrike PART2
+rezultat=pd.DataFrame({"Stvarna vrednost ":y_test,"Predvidjena vrednost":y_pred})
+print(rezultat.head(20))
+
+#####METRIKE##### PART2
+
+import sklearn.metrics as sm
+
+
+### 16)Tacnost
+tacnost=sm.accuracy_score(y_test,y_pred)
+print('tacnost ',tacnost)
+
+### 17)Preciznost
+preciznost=sm.precision_score(y_test,y_pred)
+print('preciznost ',preciznost)
+
+### 18)Recall
+recall=sm.recall_score(y_test,y_pred)
+print('recall ',recall)
+
+### 19)Specificity
+tn, fp, fn, tp = sm.confusion_matrix(y_test,y_pred).ravel()
+spec = tn / (tn+fp)
+print('spec ',spec)
+
+### 20)F1
+f1=sm.f1_score(y_test,y_pred)
+print('f1 ',f1)
+
+### 21)Classification report
+classificationreport=sm.classification_report(y_test,y_pred)
+print('classification ',classificationreport)
+
+### 22)Mean squared error (mse)
+mse=sm.mean_squared_error(y_test,y_pred)
+print('mse ',mse)
+
+### 23)Mean absolute error (mae)
+mae=sm.mean_absolute_error(y_test,y_pred)
+print('mae ',mae)
+
+### 24)Mean absolute percentage error (mape)
+mape=sm.mean_absolute_percentage_error(y_test,y_pred)
+print('mape ',mape)
+
+### 25)Root mean square error (rmse) *** da bi se iskoristila u history, salje se u metrics preko funkcije
+import numpy as np
+rmse=np.sqrt(sm.mean_squared_error(y_test,y_pred))
+print("rmse ",rmse)
+
+### 26)Confusion matrix
+cmatrix=sm.confusion_matrix(y_test,y_pred)
+print('cmatrix ',cmatrix)
+
+### 27)ROC
+fpr, tpr, _ = sm.roc_curve(y_test,y_pred)
+plt.plot(fpr, tpr, color='blue')
+plt.title('ROC')
+plt.xlim([0.0, 1.0])
+plt.xlabel('False Positive Rate')
+plt.ylim([0.0, 1.0])
+plt.ylabel('True Positive Rate')
+plt.show()
+
+
+
+
+
+