diff options
Diffstat (limited to 'backend')
-rw-r--r-- | backend/microservice/mlservice.py | 286 |
1 files changed, 286 insertions, 0 deletions
diff --git a/backend/microservice/mlservice.py b/backend/microservice/mlservice.py new file mode 100644 index 00000000..0780697c --- /dev/null +++ b/backend/microservice/mlservice.py @@ -0,0 +1,286 @@ +import pandas as pd +import tensorflow as tf +import keras +import numpy as np +import matplotlib.pyplot as plt + +### 1)Ucitavanje vrednosti + +#print(1) +data1=pd.read_csv('titanic.csv') +data=data1.copy() +#print(data.head()) + +### U promenjivoj kolone nalaze se nazivi svih kolona seta podataka +kolone=data.columns +#print(kolone[1]) +#print(data[kolone[1]].isnull().sum()) +#print(data[kolone[1]].head(10)) + + +### 2)Proveravanje svih kolona za null vrednosti i popunjavanje medijanom ili srednjom vrednosti ili birisanje + +#####Part2 ##### +brisanje=input("DA LI ZELITE DA IZBRSETE SVE KOLONE SA NULL VREDNOSTIMA? ") +if(brisanje=='da'): + data=data.dropna(axis=1) +elif(brisanje=='ne'): + brisanjer=input("DA LI ZELITE DA IZBRISETE SVE REDOVE SA NULL VREDNOSTINA ") + if(brisanjer=='da'): + data=data.dropna() + elif(brisanjer=='ne'): + + for i in range(len(kolone)): + if(isinstance(data[kolone[i]].dtype, pd.CategoricalDtype)): + print('cat') + + if(data[kolone[i]].isnull().any()): + tippodataka=data[kolone[i]].dtype + kolona=data[kolone[i]].copy() + + if(tippodataka==np.float64 or tippodataka==np.int64): + popunjavanje=input("UNETI NACIN POPUNJAVANJA PROMENJIVIH SA NULL VREDNOSTIMA ") + if(popunjavanje=='medijana'): + medijana=kolona.mean() + data[kolone[i]]=data[kolone[i]].fillna(medijana) + if(popunjavanje=='srednjavrednost'): + sv=data[kolone[i]].sum()/data[kolone[i]].count() + data[kolone[i]]=sv + if(popunjavanje=='brisanjekolone'): + data=data.dropna(axis=1) + + elif(tippodataka==np.object_): + najcescavrednost=kolona.value_counts().index[0] + data[kolone[i]]=data[kolone[i]].fillna(najcescavrednost) + +### 3)Izbacivanje kolona koje ne uticu na rezultat PART2 +nredova=data.shape[0] +for i in range(len(kolone)): + if((data[kolone[i]].nunique()>(nredova/2)) and( data[kolone[i]].dtype==np.object_)): + data.pop(kolone[i]) + +print(data.head(10)) + +### 4)izbor tipa enkodiranja +kolone=data.columns ### Azuriranje postojecih kolona nakon moguceg brisanja + +enc=input("UNETI TIP ENKODIRANJA ") +onehot=0 + +### 5)Enkodiranje svih kategorijskih promenjivih label-encode metodom + +if(enc=='label'): + from sklearn.preprocessing import LabelEncoder + encoder=LabelEncoder() + for k in range(len(kolone)): + if(data[kolone[k]].dtype==np.object_): + data[kolone[k]]=encoder.fit_transform(data[kolone[k]]) + print(data.head(20)) + +### 6)Enkodiranje svih kategorijskih promenjivih onehot metodom + +elif(enc=='onehot'): + ### PART2### + onehot==1 + kategorijskekolone=[] + for k in range(len(kolone)): + if(data[kolone[k]].dtype==np.object_): + + kategorijskekolone.append(kolone[k]) ###U kategorijske kolone smestaju se nazivi svih kolona sa kategorijskim podacima + + print(kategorijskekolone) + + ### Enkodiranje + data=pd.get_dummies(data,columns=kategorijskekolone,prefix=kategorijskekolone) + print(data.head(10)) + +kolone=data.columns ### Azuriranje kolona nakon moguceg dodavanja + +### 7)Podela skupa na skup za trening i skup za testiranje + +predvidetikol=input("UNETI NAZIV KOLONE ČIJU VREDNOST TREBA PREDVIDETI ") + +xkolone=[] +for k in range(len(kolone)): + if(kolone[k]!=predvidetikol): + + xkolone.append(kolone[k])###U xkolone se smestaju nazivi kolona cije vrednosti nije potrebno predvideti !!!Prefiks one-hot!!! + +### 7.1)Podela na x i y +###Dodavanje vrednosti u x +x=data[xkolone].values +###Dodavanje vrednosti u y, samo za label enkodiranje, bez prefiksa +y=data[predvidetikol].values + +print(data[xkolone].head(10)) +print(data[predvidetikol].head(10)) + +### 7.2)Unos velicina za trening i test skup +trening=int(input('UNETI VELIČINU TRENING SKUPA ')) +#test=int(input("UNETI VELICINU TESTNOG SKUPA")) + +###Provera unetih velicina +if(trening<=0 or trening>=100): + print("POGREŠAN UNOS VELIČINE SKUPA ZA TRENING") +if(trening>1): + trening=trening/100 + +### 7.3)Da li korisnik zeli nasumicno rasporedjivanje podataka? +nasumicno=input("DA LI ŽELITE NASUMIČNO RASPOREDJIVANJE PODATAKA U TRENING I TEST SKUP? ") +###!!!Dugme za nasumici izbor +if(nasumicno=='da'): + random=50 +else: + random=0 + +### 7.4)Podela podataka +from sklearn.model_selection import train_test_split +x_train,x_test,y_train,y_test=train_test_split(x,y,train_size=trening,random_state=random) + +### 8)Skaliranje podataka +from sklearn.preprocessing import StandardScaler +scaler=StandardScaler() +scaler.fit(x_train) +x_test=scaler.transform(x_test) +x_train=scaler.transform(x_train) + +#####ZAVRSENA PRIPREMA PODATAKA##### + +#####OBUCAVANJE MODELA##### + +### 9)Inicijalizacija vestacke neuronske mreze + +classifier=tf.keras.Sequential() + +### 10)Dodavanje prvog,ulaznog sloja +aktivacijau=input("UNETI ŽELJENU AKTIVACIONU FUNKCIJU ULAZNOG SLOJA ") +brojnu=int(input("UNETI BROJ NEURONA ULAZNOG SLOJA ")) + +classifier.add(tf.keras.layers.Dense(units=brojnu,activation=aktivacijau,input_dim=x_train.shape[1])) + +### 11)Dodavanje drugog, skrivenog sloja +aktivacijas=input("UNETI ŽELJENU AKTIVACIONU FUNKCIJU SKRIVENOG SLOJA ") +brojns=int(input("UNETI BROJ NEURONA SKRIVENOG SLOJA ")) + +classifier.add(tf.keras.layers.Dense(units=brojns,activation=aktivacijas)) + +### 12) Dodavanje treceg, izlaznog sloja +aktivacijai=input("UNETI ŽELJENU AKTIVACIONU FUNKCIJU IZLAZNOG SLOJA ") + +classifier.add(tf.keras.layers.Dense(units=1,activation=aktivacijai)) + + +### 13) Kompajliranje neuronske mreze +#gubici=input("UNETI FUNKCIJU OBRADE GUBITAKA ") +optimizator=input("UNETI ŽELJENI OPTIMIZATOR ") + +### 13.1)Izbor metrike za kompajler PART2 +metrike=[] +while(1): + m=input("UNETI ZELJENE METRIKE ") + + if(m=='KRAJ'): + break + metrike.append(m) +classifier.compile(optimizer=optimizator, loss='binary_crossentropy',metrics = metrike) + +### 14) +uzorci=int(input("UNETI KOLIKO UZORAKA ĆE BITI UNETO U ISTO VREME ")) + +history=classifier.fit(x_train,y_train,batch_size=uzorci,epochs=10) + +### 14.1)Parametri grafika iz history PART2 +metrikedf=pd.DataFrame() ###DataFrame u kom se nalaze podaci o rezultatima metrika za iscrtavanje na grafiku. Svaka kolona sadrzi vrednost metrike po epohama +for i in range(len(metrike)): + metrikedf[metrike[i]]=history.history[metrike[i]] + #print(history.history[metrike[i]]) + plt.plot(history.history[metrike[i]]) +plt.show() + +#print(metrikedf) + +#metrikedf.to_csv("metrike.csv") + + +### 15) Predvidjanje +y_pred=classifier.predict(x_test) + +print(y_pred) + +### 15.1) Formatiranje podataka za metrike PART2 +y_pred=(y_pred>=0.5).astype('int') +y_pred=y_pred.flatten() + +#print(y_pred) + +#print(y_test) +### 15.2) Kreiranje DataFrame-a u kom se nalaze kolone koje predstavljaju stvarne i predvidjene vrednosti, potrebne za iscrtavanje grafika i metrike PART2 +rezultat=pd.DataFrame({"Stvarna vrednost ":y_test,"Predvidjena vrednost":y_pred}) +print(rezultat.head(20)) + +#####METRIKE##### PART2 + +import sklearn.metrics as sm + + +### 16)Tacnost +tacnost=sm.accuracy_score(y_test,y_pred) +print('tacnost ',tacnost) + +### 17)Preciznost +preciznost=sm.precision_score(y_test,y_pred) +print('preciznost ',preciznost) + +### 18)Recall +recall=sm.recall_score(y_test,y_pred) +print('recall ',recall) + +### 19)Specificity +tn, fp, fn, tp = sm.confusion_matrix(y_test,y_pred).ravel() +spec = tn / (tn+fp) +print('spec ',spec) + +### 20)F1 +f1=sm.f1_score(y_test,y_pred) +print('f1 ',f1) + +### 21)Classification report +classificationreport=sm.classification_report(y_test,y_pred) +print('classification ',classificationreport) + +### 22)Mean squared error (mse) +mse=sm.mean_squared_error(y_test,y_pred) +print('mse ',mse) + +### 23)Mean absolute error (mae) +mae=sm.mean_absolute_error(y_test,y_pred) +print('mae ',mae) + +### 24)Mean absolute percentage error (mape) +mape=sm.mean_absolute_percentage_error(y_test,y_pred) +print('mape ',mape) + +### 25)Root mean square error (rmse) *** da bi se iskoristila u history, salje se u metrics preko funkcije +import numpy as np +rmse=np.sqrt(sm.mean_squared_error(y_test,y_pred)) +print("rmse ",rmse) + +### 26)Confusion matrix +cmatrix=sm.confusion_matrix(y_test,y_pred) +print('cmatrix ',cmatrix) + +### 27)ROC +fpr, tpr, _ = sm.roc_curve(y_test,y_pred) +plt.plot(fpr, tpr, color='blue') +plt.title('ROC') +plt.xlim([0.0, 1.0]) +plt.xlabel('False Positive Rate') +plt.ylim([0.0, 1.0]) +plt.ylabel('True Positive Rate') +plt.show() + + + + + + |