EDA in Python – Parte 2

Analisi Univariata delle variabili

In questa sezione, andremo ad esplorare, una ad una, ognuna delle variabili presenti nei nostri dataset. Può sembrare un lavoro lungo e noioso ( e forse lo è 🤓) ma è di cruciale importanza. Tramite quest’attività andremo più in intimità con i nostri dati, scoprendo cose che altrimenti avremmo ignorato.

Dati_prezzi – idImpianto

Come detto nella sezione precedente, questo dovrebbe essere il numero usato per identificare ciascun distributore. Quindi non dovrebbero esserci valori duplicati, giusto? Scopriamolo

print("tipologia variabile: " + str(type(dati_prezzi["idImpianto"][0])))
print("valori null: " + str(sum(dati_prezzi["idImpianto"].isnull())))
print("valori na: " + str(sum(dati_prezzi["idImpianto"].isna())))
print("valori duplicati: " + str(sum(dati_prezzi["idImpianto"].duplicated())))
print("valore minimo: " + str(min(dati_prezzi["idImpianto"])))
print("valore massimo: " + str(max(dati_prezzi["idImpianto"])))

Output:

tipologia variabile: <class 'numpy.int64'>
valori null: 0
valori na: 0
valori duplicati: 70171
valore minimo: 3464
valore massimo: 55039

Invece di valori duplicati ce ne sono e anche molti. Questo perchè ogni riga è un prezzo di un carburante inviato all’ente e ci sono più carburanti per ciascun distributore. Poi ogni distributore potrebbe aver inviato i propri dati più di una volta in questo dataset

In quanto valore chiave, non ci curiamo dei valori massimi e minimi, dato che numeri molto alti o molto bassi sarebbero comunque plausibili

Dati_prezzi – IsSelf

Abbiamo già visto molto di questa variabile quando abbiamo effetuato i controlli a livello dataset (prima parte dell’analisi https://www.davidemarcon.com/eda-in-python-parte-1/ ). Si tratta infatti di un Boolean che assume solo valori True e False. Abbiamo anche già visto numericamente la distribuzione della variabile, ma visto che siamo stacanovisti la guardiamo anche con un grafico

import matplotlib.pyplot as plt
dati_prezzi["isSelf"].value_counts().plot(kind='bar', title='IsSelf')

Dati_prezzi – descCarburante

In questo caso abbiamo una variabile categoriale. Sappiano già che non ci sono valori null dato il controllo che abbiamo fatto sul dataset. Vediamo quali sono i valori che questa variabile assume. Utilizziamo l’oggetto Counter per farlo

print("ci sono "+str(len(Counter(dati_prezzi["descCarburante"]).most_common()))+" valori diversi")
Counter(dati_prezzi["descCarburante"]).most_common()

Output:

`ci sono 39 valori diversi`

`[('Benzina', 33937),
 ('Gasolio', 33823),
 ('Blue Diesel', 6067),
 ('GPL', 4481),
 ('Blue Super', 2900),
 ('Hi-Q Diesel', 2021),
 ('Metano', 1472),
 ('Supreme Diesel', 1396),
 ('HiQ Perform+', 1045),
 ('Gasolio Premium', 989),
 ('Gasolio speciale', 807),
 ('Benzina speciale', 367),
 ('Excellium Diesel', 317),
 ('Benzina WR 100', 303),
 ('Gasolio artico', 226),
 ('Gasolio Alpino', 166),
 ('DieselMax', 155),
 ('GNL', 139),
 ('Gasolio Oro Diesel', 133),
 ('L-GNC', 102),
 ('Gasolio Ecoplus', 89),
 ('S-Diesel', 88),
 ('Blu Diesel Alpino', 77),
 ('GP DIESEL', 71),
 ('Diesel Shell V Power', 62),
 ('Benzina Plus 98', 59),
 ('E-DIESEL', 49),
 ('Gasolio Gelo', 48),
 ('Gasolio Artico', 48),
 ('F101', 47),
 ('Excellium diesel', 19),
 ('Gasolio Energy D', 15),
 ('V-Power', 14),
 ('Diesel e+10', 7),
 ('Benzina Energy 98 ottani', 6),
 ('Benzina 100 ottani', 6),
 ('Benzina Shell V Power', 4),
 ('V-Power Diesel', 2),
 ('SSP98', 1)]`

In questo caso abbiamo 39 valori diversi in questa colonna, perciò un grafico non sarebbe bello da vedere visto l’elevato numero di barre che avrebbe. Accontentiamoci della lista.

Sono presenti però dei duplicati. Infatti valori diversi della colonna “descCarburante” si riferiscono molto probabilmente allo stesso carburante. Ad esempio:

  • ‘V-Power Diesel’ e ‘Diesel Shell V Power’
  • ‘Gasolio Gelo’,’Gasolio Artico’ e ‘Gasolio artico’

Per essere più sicuri che la sostituzione abbia senso, controlliamo che questi carburanti facciano riferimento alla stessa fascia di prezzo. Per fare ciò utilizziamo i boxplot

x1 = dati_prezzi[dati_prezzi["descCarburante"]=="V-Power Diesel"]["prezzo"]
x2 = dati_prezzi[dati_prezzi["descCarburante"]=="Diesel Shell V Power"]["prezzo"]

plt.boxplot ([x1, x2])

Sebbene ci siano pochissimi valori per “V-Power Diesel”, possiamo però vedere che come range di prezzi non si discosti molto da quello di “Diesel Shell V Power” (se il primo costasse 0,9€ e il secondo 2€, mi farei qualche domanda in più). Possiamo quindi uniformare queste descrizioni

dati_prezzi.loc[dati_prezzi["descCarburante"] == "V-Power Diesel", "descCarburante"] = "Diesel Shell V Power"

Vediamo ora i box plot anche per gli altri valori

x1 = dati_prezzi[dati_prezzi["descCarburante"]=="Gasolio Gelo"]["prezzo"]
x2 = dati_prezzi[dati_prezzi["descCarburante"]=="Gasolio Artico"]["prezzo"]
x3 = dati_prezzi[dati_prezzi["descCarburante"]=="Gasolio artico"]["prezzo"]
plt.boxplot ([x1, x2, x3])

Anche in questo caso i 3 tipi di carburante fanno riferimento allo stesso range di prezzi, anche se “Gasolio artico” ha molti più outliers. Interessante il valore minimo per “Gasolio artico”. Se esistesse un distributore che veramente vende questo carburante ad un prezzo del genere, smetterei di scrivere su questo blog e inizierei un business di rivendita di gasolio artico 😂 Vediamo precisamente di che prezzo stiamo parlando

min(dati_prezzi[dati_prezzi["descCarburante"]=="Gasolio artico"]["prezzo"])

Output:

0.222

22 centesimi a litro… Non penso sia plausibile come prezzo.

Uniformiamo intanto le descrizioni di questi tre carburanti. In seguito scremeremo anche i valori non plausibili per la colonna “prezzo”.

dati_prezzi.loc[dati_prezzi["descCarburante"] == "Gasolio Gelo", "descCarburante"] = "Gasolio Artico"
dati_prezzi.loc[dati_prezzi["descCarburante"] == "Gasolio artico", "descCarburante"] = "Gasolio Artico"

Dati_prezzi – dtComu

In questa variabile sono salvati data e orario in cui è stato comunicato quello specifico prezzo al Ministero per lo Sviluppo Economico. Vediamo la distribuzione delle date

dati_prezzi["dtComu"].groupby([dati_prezzi["dtComu"].dt.year, dati_prezzi["dtComu"].dt.month]).count().plot(kind="bar")

Moltissime date appartengono a Novembre 2022 (mese in cui sono stati scaricati i dati) ma ci sono ancora dei piccoli residui dei mesi precedenti.

Eliminare o non eliminare i dati? Questo è il dilemma. Effettivamente i dati dei mesi precedenti non sono molti, quindi la loro perdita non sarebbe molto grave. Mi aspetto però che i prezzi dei carburanti siano variati di poco in soli 5 mesi dato che, nel periodo di analisi, non ci sono stati particolari eventi che hanno causato scossoni nel mercato dei carburanti (se state pensando alle guerra in Ucraina, il conseguente aumento dei prezzi era già accaduto)

Controlliamo se è vero.

x1 = dati_prezzi[dati_prezzi["dtComu"].dt.month==7]["prezzo"]
x2 = dati_prezzi[dati_prezzi["dtComu"].dt.month==8]["prezzo"]
x3 = dati_prezzi[dati_prezzi["dtComu"].dt.month==9]["prezzo"]
x4 = dati_prezzi[dati_prezzi["dtComu"].dt.month==10]["prezzo"]
x5 = dati_prezzi[dati_prezzi["dtComu"].dt.month==11]["prezzo"]
plt.boxplot ([x1, x2, x3, x4, x5])

Sono molto simili tra loro. Possiamo quindi mantenere il dataset così, senza eliminare alcun dato. Essendoci poca o per nulla differenza tra i periodi, eventuali algoritmi basati su questi dati non sarebbero danneggiati dalla presenza di dati relativi a mesi precedenti

Dati_prezzi – prezzo

In questa variabile abbiamo tutti i prezzi comunicati al ministero dai distributori per i vari tipi di carburante. Mi aspetto che i valori abbiano un minimo di circa 0.4 ed un massimo di 3 (non ho mai visto un carburante costare 3/L, ma mi immagino che che un diesel/benzina artico venduto in cima ad una montagna sperduta sia abbastanza costoso 😅)

Vediamo innanzitutto alcune metriche base di questa variabile, tra cui il minimo e il massimo

print("tipologia variabile: " + str(type(dati_prezzi["prezzo"][0])))
print("valori null: " + str(sum(dati_prezzi["prezzo"].isnull())))
print("valori na: " + str(sum(dati_prezzi["prezzo"].isna())))
print("valori duplicati: " + str(sum(dati_prezzi["prezzo"].duplicated())))
print("valore minimo: " + str(min(dati_prezzi["prezzo"])))
print("valore massimo: " + str(max(dati_prezzi["prezzo"])))

Output:

tipologia variabile: <class 'numpy.float64'>
valori null: 0
valori na: 0
valori duplicati: 90270
valore minimo: 0.001
valore massimo: 9.999

Vediamo con l’aiuto di un grafico come si distribuiscono i valori:

plt.hist(dati_prezzi["prezzo"], bins=100)

I dati sono relativi a due fasce di prezzo. 1,5-2,5 mi aspetto sia il range di benzina/diesel, mentre 0,6-0,9 mi aspetto che sia il range del GPL e simili

Essendo di fatto 2 prodotti differenti, andiamo a dividere il nostro dataset in due gruppi e a visualizzarne i dati.

dati_prezzi_min_1_25 = dati_prezzi.loc[dati_prezzi["prezzo"]<1.25]
dati_prezzi_1_25_x_3 = dati_prezzi.loc[(dati_prezzi["prezzo"]>=1.25) & (dati_prezzi["prezzo"]<3)]

Analisi primo subframe valori < 1,25

Andiamo ora a vedere i valori del primo subframe

plt.hist(dati_prezzi_min_1_25["prezzo"], bins=100)
Counter(dati_prezzi_min_1_25["descCarburante"]).most_common()
[('GPL', 4481),
('Blue Super', 42),
('Metano', 19),
('Blue Diesel', 11),
('Gasolio', 10),
('Gasolio Oro Diesel', 10),
('Excellium Diesel', 8),
('Supreme Diesel', 7),
('Benzina Plus 98', 7),
('Hi-Q Diesel', 6),
('Gasolio Premium', 5),
('Gasolio Artico', 3),
('HiQ Perform+', 3),
('Benzina', 2),
('GNL', 2),
('V-Power', 2),
('Excellium diesel', 2),
('Gasolio Alpino', 2)]
dictplot_dati_prezzi_min_1_25 = plt.boxplot(dati_prezzi_min_1_25["prezzo"])

Decisamente la fascia di prezzo del GPL.

Notiamo come in questo caso ho “assegnato” il boxplot creato ad una variabile. Cosa significa? Significa che, ogni volta che creiamo un boxplot, possiamo salvarci alcune variabili che lo definiscono. In questo caso sono interessato ai valori di minimo e di massimo dei baffi. Queste variabili vengono salvate in un “dizionario” (per maggiori info su cosa sia un dizionario in Python, vai qui https://www.w3schools.com/python/python_dictionaries.asp).

Con la prossima riga di codice entriamo nel dizionario e ci andiamo a prendere il valore minimo del baffo (cioè il valore del 25° percentile)

lower_whisker = [item.get_ydata() for item in dictplot_dati_prezzi_min_1_25['caps']][0][0]
lower_whisker

Output:

0.618

Diamo una veloce occhiata agli ourliers inferiori. In questo caso andiamo a controllare l’intera tabella che Python ci restituisce in qanto vogliamo controllare quali siano i prezzi più strani e a che carburante appartengono

dati_prezzi_min_1_25.loc[dati_prezzi_min_1_25["prezzo"]<lower_whisker]

Output:

idImpiantodescCarburanteprezzoisSelfdtComu
5538150GPL0.599False2022-11-25 13:03:55
9532490GPL0.549False2022-11-21 00:35:54
11851335Metano0.001False2022-11-26 07:32:11
18025041Gasolio Artico0.222True2022-11-23 08:16:56
18125041Gasolio Artico0.222False2022-11-23 08:16:56
120326677Gasolio0.4True2022-09-17 18:53:34
120426677Gasolio0.4False2022-09-17 18:53:34
401343367Metano0.01False2022-11-15 11:41:36
700648816Supreme Diesel0.01True2022-11-19 18:48:53
1127444593Supreme Diesel0.01True2022-11-21 07:30:02
1127544593Supreme Diesel0.01False2022-11-21 07:30:02
1129921229Metano0.01False2022-11-21 07:30:30
1141147731Benzina Plus 980.01True2022-11-21 07:44:26
1141247731Benzina Plus 980.01False2022-11-21 07:44:26
1370652762GPL0.599False2022-11-21 12:13:03
170028627Hi-Q Diesel0.01True2022-11-22 07:12:38
170038627Hi-Q Diesel0.01False2022-11-22 07:12:38
179257554Supreme Diesel0.005True2022-11-22 08:35:08
179267554Supreme Diesel0.005False2022-11-22 08:35:08
1914950199Metano0.01False2022-11-22 10:33:26
2535912517Metano0.01False2022-11-23 09:45:01
2597148707Metano0.01False2022-11-23 10:25:35
2639511290Hi-Q Diesel0.01True2022-11-23 11:02:43
2639611290Hi-Q Diesel0.01False2022-11-23 11:02:43
2864635366Blue Super0.1False2022-11-23 16:34:21
287619649Blue Super0.1True2022-11-23 16:50:06
287629649Blue Super0.1False2022-11-23 16:50:06
3064420195Blue Diesel0.1True2022-11-23 23:05:04
3064520195Blue Diesel0.1False2022-11-23 23:05:04
3462345657GPL0.569False2022-11-24 09:03:36
3544554791Metano0.005False2022-11-24 09:32:06
3576015513Excellium Diesel0.1True2022-11-24 09:50:03
3576115513Excellium Diesel0.1False2022-11-24 09:50:03
368928387Benzina Plus 980.01True2022-11-24 10:53:13
368938387Gasolio Oro Diesel0.01True2022-11-24 10:53:13
3711128234Benzina Plus 980.006True2022-11-24 11:08:36
3711228234Benzina Plus 980.006False2022-11-24 11:08:36
373064252Metano0.01False2022-11-24 11:22:41
3753146639GPL0.569False2022-11-24 11:38:07
4207548065GPL0.61False2022-11-24 18:02:25
4211241437GPL0.61False2022-11-24 18:04:09
4212341522GPL0.61False2022-11-24 18:04:28
4776543853Metano0.01False2022-11-25 06:50:38
5351136113GPL0.565False2022-11-25 08:30:17
5950124958Metano0.01False2022-11-25 10:15:33
6095352278Metano0.01False2022-11-25 10:55:12
6095452278GPL0.01False2022-11-25 10:55:12
7042242710GNL0.01False2022-11-25 15:33:14
7262146709Excellium Diesel0.111True2022-11-25 16:39:43
7262246709Excellium Diesel0.111False2022-11-25 16:39:43
7387851238GPL0.549False2022-11-25 17:17:55
7416754816GPL0.609False2022-11-25 17:29:10
7591754819GPL0.579False2022-11-25 17:58:41
7627523392Blue Super0.1True2022-11-25 18:06:55
7627623392Blue Super0.1False2022-11-25 18:06:55
7642822687GPL0.611False2022-11-25 18:10:53
7670254818GPL0.579False2022-11-25 18:21:50
774514432Metano0.02False2022-11-25 18:48:20
7760350686GPL0.599False2022-11-25 18:55:08
8237821666GPL0.569False2022-11-26 00:24:05
860368259Gasolio0.005True2022-11-26 06:55:39
860378259Gasolio0.005False2022-11-26 06:55:39
860408259Blue Diesel0.005True2022-11-26 06:55:39
860418259Blue Diesel0.005False2022-11-26 06:55:39

Come valore minimo credibile possiamo tenere 0.450€. Ho scelto questo numero basandomi sulla mia esperienza personale e con una veloce ricerca in internet sui prezzi dei combustibili

Analisi secondo subframe 1,25 < valori < 3

plt.hist(dati_prezzi_1_25_x_3["prezzo"], bins=100)
dictplot_dati_prezzi_1_25_x_3 = plt.boxplot(dati_prezzi_1_25_x_3["prezzo"])

Qui possiamo vedere come i prezzi siano fortemente concentrati poco al di sotto dei 2€/litro. Ci sono però anche diversi outliers superiori. Andiamoli a scoprire:

upper_whisker2 = [item.get_ydata() for item in dictplot_dati_prezzi_1_25_x_3['caps']][1][0]

In questo caso andiamo ad utilizzare il “Counter most common” perchè vogliamo controllare quali siano i carburanti presenti in questi outliers. Di fatto un tetto massimo di 3€/L può anche essere credibile, ma dipende da che tipo di carburante è presente

Counter(dati_prezzi_1_25_x_3[dati_prezzi_1_25_x_3["prezzo"]>upper_whisker2]["descCarburante"]).most_common()

Output:

[('Hi-Q Diesel', 443),
 ('Metano', 367),
 ('Gasolio', 266),
 ('HiQ Perform+', 97),
 ('Gasolio Premium', 87),
 ('GNL', 86),
 ('Benzina', 76),
 ('Supreme Diesel', 68),
 ('Blue Diesel', 42),
 ('Blue Super', 36),
 ('L-GNC', 25),
 ('Gasolio speciale', 19),
 ('Benzina speciale', 18),
 ('Gasolio Ecoplus', 9),
 ('Benzina WR 100', 8),
 ('Gasolio Oro Diesel', 5),
 ('Excellium Diesel', 3),
 ('Gasolio Artico', 3),
 ('Benzina Plus 98', 2),
 ('E-DIESEL', 1),
 ('V-Power', 1),
 ('Diesel Shell V Power', 1)]

Ci sono diverse varietà di carburanti costosi, però anche “benzina”, “gasolio” o “metano” che generalmente non hanno prezzi così elevati. Continuo quindi l’analisi mantenendo anche questi outliers superiori, ricordandomi però di questa scelta

Creiamo finalmente il nostro dataframe finale di dati_prezzi, con al suo interno solamente i dati relativi ai prezzi che riteniamo credibili

dati_prezzi_cl = dati_prezzi.loc[(dati_prezzi["prezzo"]>=0.45) & (dati_prezzi["prezzo"]<3)]

Guardiamone i dati principali

dati_prezzi_cl.info()

Output:

<class 'pandas.core.frame.DataFrame'>
Int64Index: 91408 entries, 0 to 91557
Data columns (total 5 columns):
 #   Column          Non-Null Count  Dtype         
---  ------          --------------  -----         
 0   idImpianto      91408 non-null  int64         
 1   descCarburante  91408 non-null  object        
 2   prezzo          91408 non-null  float64       
 3   isSelf          91408 non-null  bool          
 4   dtComu          91408 non-null  datetime64[ns]
dtypes: bool(1), datetime64[ns](1), float64(1), int64(1), object(1)
memory usage: 3.6+ MB

C’è solo una piccola cosa ancora da sistemare. Dall’output della riga precedente notiamo come ci siano 91408 righe, ma che l’indice della tabella vari dallo 0 al 91557. Questo significa che in qualche punto della tabella l’indice salta qualche numero. Andiamo subito a correggerlo

dati_prezzi_cl = dati_prezzi_cl.reset_index()
dati_prezzi_cl.info()

Output:

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 91408 entries, 0 to 91407
Data columns (total 6 columns):
 #   Column          Non-Null Count  Dtype         
---  ------          --------------  -----         
 0   index           91408 non-null  int64         
 1   idImpianto      91408 non-null  int64         
 2   descCarburante  91408 non-null  object        
 3   prezzo          91408 non-null  float64       
 4   isSelf          91408 non-null  bool          
 5   dtComu          91408 non-null  datetime64[ns]
dtypes: bool(1), datetime64[ns](1), float64(1), int64(2), object(1)
memory usage: 3.6+ MB

Dati_anagrafica – idImpianto

Anche in questo caso abbiamo gli identificatori di ogni distributore. Anzi, è proprio grazie a questo dataset che possiamo identificare ogni singolo distributore. Qui infatti i valori di IdImpianto devono essere delle chiavi uniche, non possono esserci duplicati in questa colonna. Andiamo subito a vedere se è così

print("numero di valori duplicati: "+str(sum(dati_anagrafica_cl["idImpianto"].duplicated())))

Output:

numero di valori duplicati: 0

Dati_anagrafica – Gestore

Anche in questo caso utilizziamo l’oggetto Counter per contare le occorrenze di ogni singola categoria presente in questa colonna.

print("ci sono "+str(len(Counter(dati_anagrafica_cl["Gestore"]).most_common()))+" valori diversi")
Counter(dati_anagrafica_cl["Gestore"]).most_common()

Output:

`ci sono 13620 valori diversi`

`[('SERVIZI & GESTIONI ITALIA S.R.L.', 941),
 ('IP SERVICES S.R.L.', 797),
 ('T.D.M. S.R.L.', 511),
 ('SERVIZI & GESTIONI ITALIA srl', 373),
 ('SERVIZI E GESTIONI ZENIT S.R.L. IN SIGLA - ZENIT S.R.L.', 225),
 ('ENI FUEL S.P.A.', 221),
 ('IP', 160),
 ('GESTIONI INNOVATIVE ITALIA S.R.L.', 140),
 ............
 ('MG FUEL MANAGEMENT S.R.L.', 2),
 ('CURTI CHRISTIAN', 2),
 ("ROMA CARBURANTI SOCIETA' A RESPONSABILITA' LIMITATA SEMPLIFICATA", 2),
 ('SHAIK MAHABUB ALOM', 2),
 ('SHEIKH AL AMIN', 2),
 ('DELLA BINA SANTE E PIAZZA FIORELLA - SOCIETA IN NOME COLLETTIVO', 2),
 ("PETROLI 2000 SOCIETA' A RESPONSABILITA' LIMITATA SEMPLIFICATA", 2),
 ('ROMANIELLO DOMENICO', 2),
 ('FLAMINIA CARBURANTI SNC', 2),
 ('GE.MA. - S.N.C. DI MARFIA CLAUDIO ANTONIO E DI BELLO MATTEO', 2),
 ('GEDOIL SRL', 2),
 ('NF OIL S.N.C. DI CAVOLA FABRIZIO', 2),
 ('COLOMBO OIL SAS DI MATTEI VENANZO E PASSARIELLO GIANLUCA', 2),
 ('VERDE CAMPI DI VERDE VALENTINA', 2),
 ('MATTEI MARIA CRISTINA', 2),
 ('GESTIONE ITALIA S.A.S. DI EGIDI BRUNO', 2),
 ('MARINI SERVIZI S.R.L.', 2),
 ('luca.ferretti', 2),
 ('MA.LU SAS', 2),
 ('3S PETROL SERVICE S.R.L.', 2),
 ("CAMA PETROLI DI MAZZONE STEFANO & C. - SOCIETA' IN ACCOMANDITA SE MPLICE",
  2),
 ('RE.SI. CARBURANTI SAS DI SASIVARI FLJORIM', 2),
 ('F.G.I. SAS DI NUZZO GIULIANA & C.', 2),
 ('UBERTINI GIUSEPPE', 2),
 ...]`

In questo caso non ci è possibile agglomerare diversi valori. come abbiamo fatto per dati_prezzi – desCarburante in quanto c’è troppo variabilità. Anche se a colpo d’occhio riusciamo a vedere qualche valore anomalo (esempio: SERVIZI & GESTIONI ITALIA S.R.L. e SERVIZI & GESTIONI ITALIA srl), in questo caso è preferibile passare oltre. Se necessario possiamo tornare a questo punto e addentrarci maggiormente

Dati_anagrafica – Bandiera

Anche in questo caso abbiamo una variabile categoriale. Mi aspetto che ci siano meno valori diversi rispetto a dati_anagrafica – Gestore, quindi potrebbe essere possibile anche un aggiustamento dei presenti. Prima però di stampare a video i diversi valori, dobbiamo rendere tutto il contenuto di questa colonna maiuscolo, in modo da rendere i nomi delle Bandiere più omogenei.

for i in range(0,len(dati_anagrafica_cl)):
    dati_anagrafica_cl.loc[i,"Bandiera"] = dati_anagrafica_cl.loc[i,"Bandiera"].upper()

Per andare meglio a trovare i valori da sistemare, stampiamo a video i valori in ordine alfabetico

print("ci sono "+str(len(Counter(dati_anagrafica_cl["Bandiera"]).most_common()))+" valori diversi")
sorted(Counter(dati_anagrafica_cl["Bandiera"]).most_common())

Output:

[('357', 9),
 ('4', 7),
 ('78', 1),
 ('7SETTE', 15),
 ('ACI', 8),
 ('ACI_CL', 4),
 ('ACI_PT', 3),
 ('ACTON1Q', 24),
 ('ADAMO IDROCARBURI', 14),
 ('AF PETROLI', 29),
 ('AG ENERGY', 1),
 ('AGIP ENI', 4036),
 ('ALA', 30),
 ('ALIFUEL', 7),
 ('ALOIL', 2),
 ('AP', 21),
 ('AP STAZIONI DI SERVIZIO', 9),
 ('API-IP', 4003),
 ('AQUILA', 43),
 ('ARGENTARIO CARBURANTI', 1),
 ('AUCHAN', 20),
 ('AVIA', 11),
 ('BANDIERA NON SELEZIONATA', 3),
 ('BARTOLUCCI', 7),
 ('BC', 26),
 ('BELTRALLO CARBURANTI', 3),
 ('BENECO', 11),
 ('BENZA', 15),
 ('BERTELLI CARBURANTI', 11),
 ('BEYFIN', 112),
 ('BIANCO CARBURANTI', 14),
 ('BIANCOPETROLI', 2),
 ('BIBBIENA CARBURANTI', 1),
 ('BIG', 1),
 ('BIOIL', 3),
 ('BLANCO PETROLI', 6),
 ('BLF', 2),
 ('BLUOIL', 1),
 ('BLUPARK', 1),
 ('BN PETROLI', 5),
 ('BOGONI', 9),
 ('BOLGAN', 1),
 ('BP BACHIORRINI PETROLI', 1),
 ('BPETROL', 15),
 ('CAMER', 21),
 ('CANCELLIERI CARBURANTI', 8),
 ('CANESTRELLI PETROLI', 2),
 ('CAPRI SOC COOP', 1),
 ('CARBONOIL', 1),
 ('CARBURANTI DISCOUNT', 6),
 ('CARBURANTI PAGANELLI', 1),
 ('CARBURANTIVECCHIETTI', 7),
 ('CARREFOUR', 10),
 ('CARRIERO ENERGY', 4),
 ('CARSIE', 1),
 ('CASAREALE', 2),
 ('CATRIA ENERGY', 5),
 ('CENTRALE METANO FOLIGNO', 5),
 ('CLER CARBURANTI', 1),
 ('COIL', 23),
 ('COLAGROSSI CARBURANTI', 1),
 ('CONAD', 45),
 ('COOP', 3),
 ('COSTA CARBURANTI', 2),
 ('COSTANTIN', 105),
 ('CP', 5),
 ('CRISTOFORETTI', 4),
 ('CUCAGAS', 3),
 ('CURRERI CARBURANTI', 1),
 ('D AMICO', 1),
 ('DALL AGLIO', 3),
 ('DALLE PETROLI', 3),
 ('DBCARBURANTI', 30),
 ('DE ANGELIS CARBURANTI', 1),
 ('DELTA', 3),
 ('DELTA ENERGY', 6),
 ('DIGISERVICE', 2),
 ('DIL', 1),
 ('DILL S', 25),
 ('DIS-CAR', 30),
 ('DP CARBURANTI', 1),
 ('DV OIL', 1),
 ('E-SMART', 2),
 ('ECO FUEL', 6),
 ('ECOIL', 1),
 ('ECONOMY', 9),
 ('ECONOMYSRL', 15),
 ('EDISON METANO', 9),
 ('EDRA OIL', 20),
 ('EGO', 94),
 ('EIS STATION', 1),
 ('EKOENERGY', 1),
 ('EKOMOBIL', 2),
 ('EMME PETROLI', 1),
 ('ENERCOOP', 31),
 ('ENERFUEL', 2),
 ('ENERGAS', 62),
 ('ENERGIA FLUIDA', 3),
 ('ENERGY RETE', 6),
 ('ENERGY STATION', 1),
 ('ENERGYCA', 20),
 ('ENERPETROLI', 68),
 ('ENJOIL', 2),
 ('EOS', 40),
 ('ERNESTO RONDINI', 9),
 ('ESSE OIL', 1),
 ('ESSEPI', 1),
 ('ESSO', 2205),
 ('EUGAS', 3),
 ('EUROCAP PETROLI', 4),
 ('EUROPAM', 202),
 ('EUROPETROL', 5),
 ('EUROPETROLI', 1),
 ('EUROSELF', 1),
 ('FAST FUEL GROUP', 22),
 ('FELTREGAS', 1),
 ('FGS', 9),
 ('FIAMMA 2000', 18),
 ('FIORESE BERNARDINO', 2),
 ('FIRMIN', 10),
 ('FM ENERGY', 2),
 ('FRANZON SNC', 1),
 ('FRATELLI GENNARO', 1),
 ('FSTATION', 6),
 ('FUEL99', 1),
 ('FUELPP', 2),
 ('FULGOROIL', 10),
 ('GAFFOIL', 7),
 ('GALOIL CARBURANTI', 4),
 ('GAMMA PETROLI', 5),
 ('GAN', 10),
 ('GARAGE ROBERTO', 1),
 ('GAS E', 6),
 ('GASAUTO', 8),
 ('GATTI CARBURANTI', 2),
 ('GATTO CARBURANTI', 1),
 ('GEP CARBURANTI', 11),
 ('GGENERGY', 1),
 ('GIAP', 132),
 ('GNP', 36),
 ('GO', 17),
 ('GRAZI PETROLI', 4),
 ('GREENFUELCOMPANY', 3),
 ('GREGOIL', 1),
 ('HERMES', 1),
 ('IBLEA PETROLI', 16),
 ('ICM', 35),
 ('IES', 16),
 ('INTERPETROL', 7),
 ('IPER STATION', 11),
 ('ITALA PETROLI', 25),
 ('ITALIA CARBURANTI', 4),
 ('ITALIANA CARBURANTI', 15),
 ('KELDER', 1),
 ('KEROPETROL', 125),
 ('KEROTRIS', 32),
 ('KOSTNER', 10),
 ('LANDINI E VIGNETTI', 1),
 ('LFC PETROLI', 6),
 ('LORO', 68),
 ('LP CARBURANTI', 7),
 ('LUKOIL', 44),
 ('MACMARCHETTICARBURANTI', 9),
 ('MADOGAS NATURAL ENERGY', 2),
 ('MAJOR', 21),
 ('MAREMMANA PETROLI', 1),
 ('MC PETROLI', 2),
 ('MEN8', 1),
 ('MENGA PETROLI', 29),
 ('MESSINA CARBURANTI', 1),
 ('MESU E RIOS', 2),
 ('METANAUTO GROUP', 6),
 ('METANO SPILAMBERTO', 1),
 ('MF CARBURANTI', 2),
 ('MORO', 8),
 ('MOVE 2', 1),
 ('MOVEO', 2),
 ('MYOIL', 10),
 ('NATURAL GAS', 12),
 ('NETFUEL', 1),
 ('NEW ENERGY', 2),
 ('NOALOIL', 22),
 ('NOBILE OIL', 29),
 ('NONNAISA STATION', 3),
 ('OIL DISCOUNT', 2),
 ('OIL ITALIA', 51),
 ('OIL ONE', 15),
 ('OLL', 1),
 ('ON CARBURANTI', 1),
 ('OROIL', 3),
 ('OUTLETCARBURANTI', 2),
 ('P F M', 1),
 ('PAD', 2),
 ('PAM OIL', 1),
 ('PAN OIL', 1),
 ('PERIN', 5),
 ('PETROL COMPANY', 31),
 ('PETROL FUEL', 1),
 ('PETROL GAMMA', 53),
 ('PETROLNAFTA', 3),
 ('PETROLPICENA', 10),
 ('PICCINI FUELS', 13),
 ('PIEROPAN ELISA', 1),
 ('PINGUINO CARBURANTI', 1),
 ('PLUS', 1),
 ('PM', 10),
 ('POMPE BIANCHE', 3173),
 ('POWERGHOST', 1),
 ('PUNTO NORD', 1),
 ('Q8', 2697),
 ('RATTI', 7),
 ('REALE', 1),
 ('RENO GAS ENERGY', 7),
 ('REPSOL', 45),
 ('RESOIL', 1),
 ('RESTIANI', 2),
 ('RETITALIA', 177),
 ('ROSINA FUEL', 1),
 ('RPETROLI', 1),
 ('SACAT', 4),
 ('SACED', 8),
 ('SAN MARCO PETROLI', 107),
 ('SANROCCO CARBURANTI', 1),
 ('SARNI OIL', 41),
 ('SEP', 1),
 ('SEPA', 8),
 ('SEVENOIL', 1),
 ('SHELL', 46),
 ('SIA FUEL', 65),
 ('SICILPETROLI', 37),
 ('SIDOTI FUEL', 1),
 ('SILCASRL', 1),
 ('SIMEONE CARBURANTI', 3),
 ('SIMONETTI PETROLI', 23),
 ('SMAF', 30),
 ('SOCOGAS', 27),
 ('SOCOMCI', 1),
 ('SODIFA', 3),
 ('SODIGAS', 3),
 ('SOM/OMV', 1),
 ('SOMMESE PETROLI', 50),
 ('SP ENERGIA SICILIANA', 37),
 ('SR 203', 1),
 ('STOM', 2),
 ('TAM FULL SERVICE STATION', 2),
 ('TAM SERVICE', 2),
 ('TAMOIL', 1473),
 ('TAOIL', 8),
 ('TENERGY', 3),
 ('TERMOVENETA SRL', 4),
 ('TERNI CARBURANTI', 1),
 ('TOIL', 45),
 ('TOMA PETROLI', 3),
 ('TOMMASINI CARBURANTI', 2),
 ('TOTAL ERG', 1),
 ('TRECONFINICARBURANTI', 1),
 ('TRIVENGAS', 8),
 ('TTP', 15),
 ('TUSCIAPETROLI', 1),
 ('UP', 6),
 ('VEGA', 85),
 ('VERLINGAS', 1),
 ('VIGNETTI', 3),
 ('VITAL', 2),
 ('VULCANGAS', 4),
 ('XOIL', 2),
 ('ZANNONI', 6)]

I valori che dobbiamo sistemare sono:

  • (‘AP’, 21), (‘AP Stazioni di Servizio’, 9),
  • (‘Economy’, 9), (‘Economysrl’, 15),
dati_anagrafica_cl.loc[dati_anagrafica_cl["Bandiera"] == "AP Stazioni di Servizio", "Bandiera"] = "AP"
dati_anagrafica_cl.loc[dati_anagrafica_cl["Bandiera"] == "Economy", "Bandiera"] = "Economysrl"

Dati_anagrafica – Tipo Impianto

Un’altra variabile categoriale. Dato che questa colonna è relativa alle differenti tipologie di impianto, in questo caso mi aspetto una variabilità molto più bassa, ad esempio 5 valori

print("ci sono "+str(len(Counter(dati_anagrafica_cl["Tipo Impianto"]).most_common()))+" valori diversi")
Counter(dati_anagrafica_cl["Tipo Impianto"]).most_common()

Output:

`ci sono 2 valori diversi`

`[('Stradale', 20755), ('Autostradale', 423)]`

Ci sono infatti soltando due tipologie: impianto_ stradale e autostradale. Dato che ci sono solo 2 stati di questa variabile, potrebbe di fatto diventare una variabile booleana. Come visto in precedenza con dati_prezzi – isSelf, questa variabile potrebbe diventare dati_anagrafica – isStradale. Per semplicità manteniamo questa variabile categoriale. Ipotizzo che in futuro questo dataset possa essere unito con altri dataset, dove ci siano anche più tipologie di impianto

Dati_anagrafica – Nome Impianto / Indirizzo

Anche in questo caso abbiamo variabili categoriali, ma sarebbe difficile distinguere valori corretti dai valori non corretti. Potremmo fare un controllo duplicati, in modo da cercare se lo stesso impianto è stato inserito a database 2 volte, con quindi 2 idImpianto differenti. Ritengo però che questo controllo sia meglio farlo tramite le coordinate geografiche

Dati_anagrafica – Comune

In questo caso eventuali errori potrebbero essere errori di digitazione (non so infatti se questa variaible è inserita in automatico dal sistema o se è l’utente che deve digitarla) o errori di minuscole/maiuscole

Per risolvere intanto il secondo problema, portiamo tutta la colonna in maiuscolo

for i in range(0,len(dati_anagrafica_cl)):
    dati_anagrafica_cl.loc[i,"Comune"] = dati_anagrafica_cl.loc[i,"Comune"].upper()

Vediamo ora il problema degli errori di battitura. Stampiamo anche in questo caso tutti i valori in ordine alfabetico

print("ci sono "+str(len(Counter(dati_anagrafica_cl["Comune"]).most_common()))+" valori diversi")
sorted(Counter(dati_anagrafica_cl["Comune"]).most_common())

Output:

`ci sono 5239 valori diversi`

`[(' FRAZIONE POMONTE - VIA DEL PUGLIA SNC 06035 GUALDO CATTANEO (PG) SNC 06035 GUALDO CATTANEO',
  1),
 ('ABANO TERME', 7),
 ('ABBADIA SAN SALVATORE', 2),
 ('ABBASANTA', 2),
 ('ABBIATEGRASSO', 12),
 ('ABETONE', 1),
 ('ACATE', 3),
 ('ACCETTURA', 1),
 ('ACERENZA', 1),
 ('ACERNO', 1),
...................
 ('CASPOGGIO', 1),
 ('CASSAGO BRIANZA', 1),
 ("CASSANO ALL'IONIO", 7),
 ("CASSANO D'ADDA", 5),
 ('CASSANO DELLE MURGE', 3),
 ('CASSANO IRPINO', 1),
 ('CASSANO MAGNAGO', 4),
 ...]`

Ci sono 5239 valori diversi, di certo non mi metto a leggerli tutti 😂 Possiamo però già vedere dal primo valore della lista che questa colonna presenta degli errori. Per individuarne di simili possiamo ricercare all’interno di questa colonna le righe che contengono numeri in cifra, parentesi tonde o trattini. Vediamo come fare con le seguenti righe di codice.

y=[]
caratteri_sospetti = ["0","1","2","3","4","5","6","7","8","9","(",")","-"]
for i in range(0,len(dati_anagrafica_cl["Comune"])):
    for carattere_sospetto in caratteri_sospetti:
        if carattere_sospetto in dati_anagrafica_cl["Comune"][i]:
            y.append(i)

Abbiamo praticamente creato un doppio ciclo. Con il primo ciclo andiamo a scorrere tutti i valori della colonna “Comune”, mentre con il secondo ciclo andiamo a scorrere tutti i caratteri sospetti. Se un certo Comune ha al suo interno un carattere sospetto, salviamo l’indice di quella riga all’interno della variabile “y”

Andiamo infine ad eliminare tutte le righe appena selezionate e a riordinare l’indice della tabella

dati_anagrafica_cl.drop(y, inplace=True)
dati_anagrafica_cl = dati_anagrafica_cl.reset_index()

Dati_anagrafica – Latitudine / Longitudine

Dall’analisi che abbiamo fatto a livello del dataframe sappiamo che all’interno di queste colonne sono presenti dei float, perciò sulla tipologia dei valori siamo già apposto

Vediamo ora se, controllando sia la latitudine che la longitudine, esistano valori duplicati

print("ci sono "+ str(sum(dati_anagrafica_cl[["Latitudine","Longitudine"]].duplicated()))+" valori duplicati")

Output:

ci sono 109 valori duplicati

Abbiamo infatti 109 valori duplicati. Questo significa che con le stesse coordinate geografiche abbiamo 2 o più distributori. Questo è chiaramente non possibile, andiamo quindi a modificare il nostro dataframe.

dati_anagrafica_cl.loc[:,["Latitudine","Longitudine"]].drop_duplicates(inplace=True)

Tramite la precedente riga di codice, abbiamo cercato i valori duplicati concatenando Latitudine e Longitudine. In caso Python ne trovi uno, viene conservato solamente la prima riga con quelle coordinate, mentre le altre vengono cancellate.

Abbiamo ora finito con le analisi univariate delle variabili. Possiamo passare a quelle multivariate

Analisi multivariata delle variabili

In questo paragrafo dell’analisi andiamo a mettere in relazione diverse variabili del dataset per capire se le due metriche variano assieme

isSelf vs Prezzo

In questo caso dobbiamo capire se al variare della variabile isSelf, ci sia qualche effetto sulla variabile prezzo. In quanto isSelf è una variabile booleana e ha quindi solo 2 valori, divideremo i valori dei prezzi in due gruppi e ne plotteremo i boxplot. Mi aspetto che quando la variabile isSelf è True, si abbia un decremento dei prezzi

Per fare quest’analisi utilizziamo solamente i carburanti di tipo “Benzina” e “Gasolio” dato l’elevato numero di occorrenze.

Proviamo a vedere come variano i prezzi per la benzina

x1 = dati_prezzi_cl[(dati_prezzi_cl["descCarburante"]=="Benzina") & (dati_prezzi_cl["isSelf"]==True)]["prezzo"]
x2 = dati_prezzi_cl[(dati_prezzi_cl["descCarburante"]=="Benzina") & (dati_prezzi_cl["isSelf"]==False)]["prezzo"]

plt.boxplot([x1, x2], labels=["isSelf","Not Self"])

Stesso grafico lo creiamo per il caso del Gasolio.

x1 = dati_prezzi_cl[(dati_prezzi_cl["descCarburante"]=="Gasolio") & (dati_prezzi_cl["isSelf"]==True)]["prezzo"]
x2 = dati_prezzi_cl[(dati_prezzi_cl["descCarburante"]=="Gasolio") & (dati_prezzi_cl["isSelf"]==False)]["prezzo"]

plt.boxplot([x1, x2], labels=["isSelf","Not Self"])

I prezzi sono di fatto più bassi quando il dato è relativo ad una pompa di benzina “Self”

Tipologia Impianto vs Prezzo

La stessa tipologia di analisi la possiamo fare tra “Tipo Impianto” e “Prezzo”. Come abbiamo visto in precedenza ci sono 2 tipologie di impianto:

  • Stradale
  • Autostradale

Mi immagino quindi che lo stesso carburante costi di più in un impianto austostradale rispetto ad uno stradale. Per controllare se è vero dobbiamo prima però unire i dataset con la seguente riga di codice:

dati_prezzi_anagrafica = pd.merge(dati_anagrafica_cl,dati_prezzi_cl, on="idImpianto")
x1 = dati_prezzi_anagrafica[(dati_prezzi_anagrafica["descCarburante"]=="Benzina") & (dati_prezzi_anagrafica["Tipo Impianto"]=="Stradale")]["prezzo"]
x2 = dati_prezzi_anagrafica[(dati_prezzi_anagrafica["descCarburante"]=="Benzina") & (dati_prezzi_anagrafica["Tipo Impianto"]=="Autostradale")]["prezzo"]

plt.boxplot([x1, x2], labels=["Stradale","Autostradale"])

Sembra proprio che sia così. Vediamo se la situazione è la stessa anche per il Gasolio

x1 = dati_prezzi_anagrafica[(dati_prezzi_anagrafica["descCarburante"]=="Gasolio") & (dati_prezzi_anagrafica["Tipo Impianto"]=="Stradale")]["prezzo"]
x2 = dati_prezzi_anagrafica[(dati_prezzi_anagrafica["descCarburante"]=="Gasolio") & (dati_prezzi_anagrafica["Tipo Impianto"]=="Autostradale")]["prezzo"]

plt.boxplot([x1, x2], labels=["Stradale","Autostradale"])

Interessante anche la differenza nel numero di outliers tra le due categorie. Come visto in precedenza, ci sono 20755 record per la tipologia “Stradale” e solamente 423 per “Autostradale”. Ciò non toglie che nel caso delle autostrade gli impianti potrebbero essere più precisi nella comunicazione dei dati al Ministero dello Sviluppo Economico

Prezzo vs Latitudine

I prezzi dei carburanti cambiano tra il nord e il sud italia? Per scoprirlo andremo a plottare i prezzi registrati di uno specifico carburante (Benzina o Gasolio) e la loro latitudine. Vista la grande quantità di dati, è bene anche impostare un certo valore di trasparenze in questi grafici, in modo da avere un’idea anche della densità dei punti

plt.scatter(dati_prezzi_anagrafica[dati_prezzi_anagrafica["descCarburante"] == "Benzina"]["Latitudine"],dati_prezzi_anagrafica[dati_prezzi_anagrafica["descCarburante"] == "Benzina"]["prezzo"],alpha=0.2)

Vediamo gli stessi dati anche per il Gasolio

plt.scatter(dati_prezzi_anagrafica[dati_prezzi_anagrafica["descCarburante"] == "Gasolio"]["Latitudine"],dati_prezzi_anagrafica[dati_prezzi_anagrafica["descCarburante"] == "Gasolio"]["prezzo"],alpha=0.2)

Vediamo come tendenzialmente i prezzi rimangano gli stessi e non variano in base alla latitudine. Non c’è quindi una differenza significativa tra i prezzi negli impianti del Nord Italia e del Sud Italia

Siamo arrivati alla fine di questa EDA. Spero che la lettura sia stata interessante e che possa aver dato qualche spunto di miglioramento. Se hai consigli od osservazioni, scrivi pure qui sotto nei commenti 👍

Lascia un commento