VAL190

Validatore di Data Quality degli XML della Legge 190/2012

Questa applicazione permette una comoda validazione dei file XML relativi ai contratti di servizi, forniture e lavori dalla Pubblica Amministrazione, relativi all'art.1, comma 32 Legge n.190/2012.

Le specifiche tecniche per la compilazione di questi file sono riportate nella documentazione dell'Autorità nazionale per l'anticorruzione (ANAC), mentre i 3 schemi XSD sono

  1. http://dati.anticorruzione.it/schema/TypesL190.xsd
  2. http://dati.anticorruzione.it/schema/datasetIndiceAppaltiL190.xsd
  3. http://dati.anticorruzione.it/schema/datasetAppaltiL190.xsd
Ad ogni modo non esiste un tool, libero o non, che permetta di conoscere estensivamente la qualità dei dati di un file XML, sia per chi compila alla fonte i dati stessi, sia per gli utenti finali, fruitori delle informazioni, per capire come migliorarli laddove fosse necessario.

Da questa mancanza nasce l'idea per questa applicazione open source, come progetto di formazione del team di sviluppo di Synapta Srl, start-up torinese. L'interesse per questo tema si origina dal progetto principale dell'azienda, ContrattiPubblici.org, motore di ricerca e piattaforma d'analisi dei contratti della pubblica amministrazione italiana con più di 20 milioni di contratti della Pubblica Amministrazione.

Utilizzo

  1. Scrivere un link nella buca di ricerca in homepage
  2. Si possono avere diversi risultati a seconda di quanti passaggi vengono superati
    1. Il link non è funzionante: l'URL potrebbe essere non raggiungibile o essere scritto male
    2. Il file non è del tipo giusto: la risorsa è stata raggiunta ma il file che vi si trova non è un XML, potrebbe essere una pagina HTML, come un file zip o un video
    3. L'XML non valida lo schema XSD della legge 190: la risorsa è raggiungibile ed è un file XML, ma i tag usati e/o la loro gerarchia non sono quelli richiesti
    4. Il file supera tutti i primi controlli: si può procedere con l'analisi
      1. Il file è di tipo indice: l'applicazione non approfondisce la validazione di file di questo tipo
      2. Il file è di tipo dataset: si può procedere con l'analisi
  3. Analisi del file per cercare errori di data quality

Lista dei controlli di Data quality attualmente implementati

Si distinguono due tipi di risultati conseguenti ad un controllo: gli errori e gli avvisi.
Un errore è un imprecisione grave che può rendere eventualmente impossibile la comprensione del dato. Un avviso invece è meno grave: informa che un dato potrebbe essere errato e che quindi si richiede l'attenzione per un controllo.
  • Errori:
    • Campo assente
      • CIG
      • Codice fiscale del proponente
      • Denominazione del proponente
      • Oggetto
      • Scelta del contraente
      • Codice fiscale del partecipante
      • Ragione sociale del partecipante
      • Codice fiscale dell'aggiudicatario
      • Ragione sociale dell'aggiudicatario
      • Importo di aggiudicazione
      • Data di inizio
    • Non è presente neanche un lotto
    • CIG non è valido
    • Un codice fiscale o una partita iva non sono validi
    • Un importo non è esattamente nel formato 'IIIIIIIII.DD' (I = parte intera, D = parte decimale)
    • Una data non è nel formato 'AAAA-MM-GG' (AAAA = anno, MM = mese, GG = giorno)
    • Una data è precedente al 2000 o è successiva al 2100
    • Una data di fine è precedente ad una di inizio
    • Sono presenti più di 500 partecipanti (o aggiudicatari)
  • Avvisi:
    • Campo assente
      • Importo delle somme liquidate
      • Data di fine
      • Lista degli aggiudicatari
      • Lista dei partecipanti
    • Una ragione sociale è troppo corta (meno di 4 caratteri)
    • L'oggetto è troppo corto (meno di 4 parole)
    • L'importo di aggiudicazione è nullo
    • Un importo è maggiore di 10 miliardi
    • Una data è imprecisa (l'anno ha solo 2 cifre o è segnato solo l'anno)
    • L'importo delle somme liquidate è maggiore di due volte l'importo di aggiudicazione