Classificazione di documenti e verbatim.

La classificazione automatica di testi (o categorizzazione automatica) sta assumendo un’importanza sempre più grande nel mondo aziendale. Messa in termini banali la classificazione automatica è una tecnologia che permette di attribuire ad un documento una serie di categorie desunte da una lista prestabilita dall’utente, senza alcun intervento umano.

A seconda delle esigenze aziendali, possiamo dividere la classificazione automatica secondo tre assi ortogonali

  • Classificazione topica  vs.classificazione funzionale:Se nel sistema classificatorio aziendale è necessario distinguere i documenti in base al contenuto ci troviamo nel dominio della classificazione topica. Ad esempio tale tipologia i classificazione  si applica dovendo attribuire ad un insieme di articoli giornalistici la rubrica corretta (sport, economia, cronaca,moda). Nella classificazione funzionale, al contrario, non è il contenuto del documento l’elemento discriminante, ma la sua funzione: questo permetterà, ad esempio, di distinguere fatture, da ricevute, da contratti, ecc.

  • Documenti corti vs. documenti lunghi: Il compito di classificare testi corti, spesso caratterizzati da  sintassi ed ortografia erronei è un compito ben diverso rispetto alla categorizzazione “classica” di documenti lunghi, coerenti, spesso redatti in uno stile formale. Cadono nel primo caso testi quali i verbatim prodotti da call center, i ticket, le richieste degli utilizzatori ai motori di ricerca, i tweets. Alla seconda tipologia  ascriviamo invece gli articoli della stampa, i manuali di utilizzo, le descrizioni di prodotto, etc.

  • Classificazione basata su configurazione vs classificazione basata su apprendimento:Se ad un dato momento della sua esistenza l’organizzazione si trova in possesso di un certo insieme di documenti pre-classificati manualmente, è probabilmente giunto il tempo di passare ad un sistema di classificazione automatica basato su apprendimento: le tecnologie in uso presso Ho2S permetteranno al programma di imparare i criteri usati precedentemente, e quindi emulare il comportamento di un archivista o un classificatore umano. Al contrario, qualora la classificazione sia in corso di introduzione o qualora essa sia in continua variazione, è più conveniente fare ricorso ad un classificatore basato su regole. Poche e semplici regole, unitamente ad un insieme di esempio molto limitato, permetteranno allora al classificatore di dedurre un insieme più ampio di principi di classificazione, modificabili in qualsiasi momento.

 

In Ho2s siamo coscienti della difficoltà insita in un sistema di classificazione automatica. Grazie ad un’attività di ricerca decennale, disponiamo ad oggi di sistemi in grado di coprire l’intera matrice delle tipologie classificatori sopra riportate.

Inoltre i nostri sistemi di classificazione sono sensibili alla lingua: siamo in grado di fornire sistemi che coprono italiano, francese, inglese, tedesco e spagnolo (classificazione multilingue), ma non abbiamo la pretesa di essere indipendenti dalla lingua: gli algoritmi sottostanti tendono ad emulare i processi di classificazione di un operatore umano, ed è evidente che in questo senso la conoscenza della specifica lingua in cui sono redatti i documenti è un pre-requisito.

Case History

Alcuni esempi di applicazioni.

Un'Azienda di medie dimensioni ha classificato tutti i documenti del proprio archivio secondo molteplici gruppi di categorie:- Tipo Fatture, Ordini, Preventivi, ...- Famiglia di prodotto / Servizio- Ente interessato / Fornitore / Cliente

 

Un Istituto Bancario ha classificato i propri documenti per 'livello di riservatezza'

Una Compagnia Aerea ha classificato tutti i "brevi commenti" riportati come risposta aperta nei Questionari di Soddisfazione del Personale somministrati ai suoi 50.000 dipendenti.