La Named-entity recognition (acronimo NER, anche conosciuta come identificazione o estrazione di entità) è un processo dell’estrazione di informazioni che cerca di trovare e classificare ogni singolo elemento presente in un testo all’interno di categorie predefinite come ad esempio persone, organizzazioni, luoghi, eventi, quantità, valute monetarie, percentuali e molto altro.
La maggior parte dei sistemi di NER systems parte da blocchi di testo non annotati, come ad esempio questo qui: “WordLift è un plugin per WordPress” e da qui estrae informazioni rilevanti
- WordLift | schema-org:CreativeWork | http://data.redlink.io/91/be9/entity/wordlift
- Plugin | dbc:Software-add_ons | http://dbpedia.org/page/Plug-in_(computing)
- WordPress | dbc:Content_management_software | http://dbpedia.org/page/WordPress.
L’estrazione di entità è una delle tecnologie chiave per WordLift. Scopriamo meglio come funziona…
Per cominciare, la Named-entity recognition usa una KB (Knowledge Base) che contiene tutti i concetti noti (Named Entities) che possono essere estratti da un testo.
WordLift prende le informazioni semantiche dal contesto creati dal suo utente facendo leva sui dataset disponibili gratuitamente sul web come DBpedia e dal glossario locale creato dall’utente stesso.
Quando un nuovo concetto viene aggiunto al glossario dall’utente, WordLift apprende dal dominio di conoscenza del suo utente e migliora così la sua comprensione del contenuto.
WordLift usa un meccanismo sofisticato di ‘disambiguazione delle entità‘ (in inglese, named-entity disambiguation, anche detta NED) per riconoscere correttamente luoghi, società e persone collegandole al web dei dati.
Durante la fase di estrazione hanno luogo funzioni di NLP, tra cui POS (part of speech) tagging, tokenisation, riconoscimento dei limiti della frase, regole per l’uso delle maiuscole e riferementi interni.
L’estrazione di WordLift propone all’utente una serie di possibili entità che reppresentano i concetti che sono stati menzionati.
Per saperne di più sull’NLP di WordLift dai un’occhiata alla nostra wiki.