Cosa sono le augmentation query e come viene determinata la loro qualità?

By Bill Slawski

Luglio 5, 2019

—

12 min read

entità in questo articolo

Punteggi di qualità e augmentation query

Questo documento parla di identificazione o generazione di augmentation query, della loro archiviazione e dell’identificazione di augmentation query memorizzate, da utilizzare per ampliare le ricerche degli utenti. Un’augmentation query può essere una query che funziona bene nell’identificare le informazioni di cui l’utente ha bisogno tra i risultati di ricerca identificati. Le prestazioni di un’augmentation query possono essere determinate dalle interazioni dell’utente. Ad esempio, se molti utenti che immettono la stessa query selezionano spesso uno o più risultati di ricerca pertinenti alla query, tale query può essere designata come augmentation query.

Oltre alle ricerche effettive realizzate dagli utenti, le augmentation query possono includere anche ricerche sintetiche generate automaticamente. Ad esempio, un’augmentation query può essere identificata estraendo da un corpus di documenti i termini di ricerca per i quali risultano rilevanti i contenuti più popolari. Questi contenuti popolari includono, ad esempio, documenti che vengono scelti più frequentemente dagli utenti quando appaiono tra i risultati di ricerca. Un altro modo per identificare un’augmentation query è l’estrazione di dati strutturati, come ad esempio elenchi di telefoni aziendali, e l’identificazione di query che includono termini di questi dati strutturati, ad esempio i nomi di aziende.

Queste aumentation query possono essere memorizzate in un archivio dati. Quando un utente invia una query a un motore di ricerca, i termini della ricerca inviata possono essere valutati e abbinati ai termini delle aumentation query memorizzate per selezionare una o più query simili. Le augmentation query selezionate, a loro volta, possono essere utilizzate dal motore di ricerca per migliorare i risultati della ricerca. Ad esempio, i risultati di ricerca ottenuti da una augmentation query simile possono essere presentati all’utente insieme ai risultati di ricerca ottenuti dalla query dell’utente.

Lo scorso marzo, a Google è stato riconosciuto un brevetto per l’assegnazione di punteggi di qualità alle query (l’estratto che trovate sopra è tratto dal suddetto brevetto). Il brevetto si riferisce alle query ad alto punteggio come le augmentation query. È interessante notare che la selezione degli utenti è un criterio utilizzato per determinare i punteggi di qualità per le query. Quindi, quando qualcuno effettua una ricerca, Google può confrontare la SERP che si ottiene dalla ricerca originale con i risultati delle augmentation query in base alle ricerche precedenti che utilizzano gli stessi termini di ricerca o alle query sintetiche. Questa valutazione rispetto alle augmentation query è basata sui risultati di ricerca che hanno ricevuto più click in passato. Google potrebbe decidere di aggiungere risultati da una augmentation query ai risultati per la query cercata, per migliorare i punteggi di qualità e i risultati di ricerca generali.

In che modo Google trova le augmentation query? Un posto dove cercare è negli storici delle query e dei click. Citando il brevetto:

Per ottenere delle augmentation query, il sottosistema di augmentation query può esaminare i dati delle prestazioni indicativi delle interazioni dell’utente per identificare le ricerche che offrono esiti soddisfacenti nell’individuazione dei risultati di ricerca desiderabili. Ad esempio, le augmentation query possono essere identificate eseguendo il mining dei log delle query e dei log dei click. Utilizzando il log delle query, per esempio, il sottosistema della augmentation query può identificare le query comuni agli utenti. I log dei click possono essere utilizzati per identificare le query degli utenti più efficaci, osservando il numero di click associati a ciascuna query. Il sottosistema della augmentation query memorizza le query estratte dai log nell’archivio delle augmentation query.

Ciò non significa che Google stia utilizzando i click per determinare direttamente i ranking, ma che sta decidendo quali augmentation query potrebbe valere la pena utilizzare per fornire delle SERP in grado di soddisfare le ricerche degli utenti.

In che modo Google determina i punteggi di qualità per le augmentation query?

Ci sono altre cose che Google potrebbe considerare per decidere quali augmentation query utilizzare nei diversi risultati di ricerca. Il brevetto indica altri fattori che potrebbero essere utili. I punteggi di qualità per le augmentation query possono essere fatti da un numero di altri punteggi.

In alcune implementazioni, un punteggio di sinonimi, un punteggio di distanza di modifica e/o un punteggio di costo di trasformazione possono essere applicati a ciascuna augmentation query candidata. I punteggi di similarità possono anche essere determinati in base alla somiglianza dei risultati di ricerca delle augmentation query candidate per la query di ricerca. In altre implementazioni, i punteggi dei sinonimi, i punteggi delle distanze e altri tipi di punteggi di similarità possono essere applicati sulla base di un confronto termine per termine delle query di ricerca. Questi punteggi possono quindi essere utilizzati per calcolare un punteggio di somiglianza generale tra due query. Ad esempio, si può fare una media tra i punteggi; i punteggi possono essere sommati; oppure i punteggi possono essere ponderati in base alla struttura della parola (i nomi hanno più valore degli aggettivi, ad esempio) e poi calcolati in una media. Le augmentation query candidate possono quindi essere classificate in base a punteggi di similarità relativi.

Ho visto i white paper di Google prima di menzionare le query sintetiche, ovvero le query eseguite dal motore di ricerca anziché dagli utenti umani. Per Google è logico esplorare gli spazi delle query in questo modo, per vedere quali sono i risultati e utilizzare informazioni come i dati strutturati come fonte di quelle query sintetiche. Ho già parlato delle query sintetiche almeno un paio di volte e nel post: Does Google Search Google? How Google May Create and Use Synthetic Queries.

Segnali impliciti di ranking e qualità delle query

Il brevetto di Google è particolarmente interessante, in quanto parla di cose come i click lunghi e i click brevi e classifica le pagine web sulla base di queste caratteristiche. Il brevetto ne parla indicandoli come “segnali impliciti di qualità delle query”. Qui trovate ulteriori informazioni sul brevetto:

In alcune implementazioni, vengono utilizzati segnali impliciti di qualità della query per determinare se una query possa essere utilizzata come augmentation query. Un segnale implicito è un segnale basato sulle azioni dell’utente in risposta alla query. Esempi di segnali impliciti possono includere percentuali di click (CTR) correlate a diverse query utente, metriche di click lungo e/o inversioni di click-through, registrate nei log di click. Può verificarsi un click-through per una query, ad esempio quando un utente di un dispositivo seleziona o clicca su un risultato restituito da un motore di ricerca. Il CTR si ottiene dividendo il numero di utenti che hanno fatto click su un risultato di ricerca per il numero di volte in cui la query è stata inviata. Ad esempio, se una query viene immessa 100 volte e 80 persone fanno click su un risultato di ricerca, il CTR per quella query è 80%.

Un click lungo si verifica quando un utente, dopo aver fatto click su un risultato di ricerca, si sofferma sulla pagina di destinazione (ad esempio, il contenuto a cui i risultati di ricerca si collegano) del risultato della ricerca o fa click su collegamenti aggiuntivi presenti nella pagina di destinazione. Un click lungo può essere interpretato come un segnale che la query ha identificato informazioni che l’utente riteneva interessanti, in quanto l’utente ha trascorso un determinato periodo di tempo sulla pagina di destinazione o ha trovato ulteriori elementi di interesse nella pagina di destinazione.

Una inversione di click-through (nota anche come “click breve”) si verifica quando un utente, dopo aver fatto click su un risultato di ricerca e aver visto la pagina di riferimento, torna rapidamente alla pagina dei risultati di ricerca dal contenuto di riferimento. Una inversione di click-through può essere interpretato come un segnale che la query non ha identificato le informazioni che l’utente riteneva interessanti, poiché l’utente è tornato rapidamente alla pagina dei risultati di ricerca.

Questi esempi di segnali impliciti possono essere aggregati per ogni query, ad esempio raccogliendo statistiche per più istanze di utilizzo della query nelle operazioni di ricerca e possono inoltre essere utilizzati per calcolare un punteggio di prestazioni complessivo. Ad esempio, una query con un CTR elevato, molti click lunghi e poche inversioni di click-through potrebbe ricevere un punteggio grazie alle alte prestazioni; viceversa, una query con un CTR basso, pochi click lunghi e molte reversioni di click-through potrebbe ricevere un punteggio basso.

Le ragioni del processo dietro il brevetto sono spiegate nella sezione descrittiva del brevetto dove ci viene detto:

Spesso gli utenti forniscono query che fanno sì che un motore di ricerca restituisca risultati che non interessano agli utenti o che non soddisfano pienamente le lori esigenze di informazione. I motori di ricerca possono fornire tali risultati per una serie di motivi, ad esempio se la query include termini il cui peso non riflette l’interesse degli utenti (ad esempio, nel caso in cui a una parola ritenuta più importante dagli utenti sia attribuito meno peso dal motore di ricerca rispetto ad altre parole nella query); oppure la query esprime male le informazioni specifiche di cui l’utente ha bisogno; o ancora la query include parole errate o una terminologia non convenzionale.

Un segnale di qualità per un termine appartenente alla query può essere definito in questo modo:

Il segnale di qualità ha lo scopo di valutare le prestazioni della prima query nell’individuazione di informazioni di interesse per gli utenti per una o più istanze di una prima operazione di ricerca in un motore di ricerca; inoltre, determina se la prima query supera una certa soglia di prestazione; e in caso superi tale soglia memorizza la prima query in un archivio dati di augmentation query.

Potete trovare il brevetto qui:

Query augmentation
Inventori: Anand Shukla, Mark Pearson, Krishna Bharat e Stefan Buettcher
Assegnatario: Google LLC
Brevetto USA: 9.916.366
Concesso: 13 marzo 2018
Archiviato: 28 luglio 2015

Abstract:

Metodi, sistemi e apparati, inclusi prodotti per programmi informatici, per generare o utilizzare augmentation query. In un punto, si identifica una prima query memorizzata in un registro delle query e un segnale di qualità correlato alle prestazioni della prima query viene confrontato con una soglia di prestazione. La prima query viene archiviata in un archivio dati di augmentation query se il segnale di qualità indica che la prima query supera una certa soglia di prestazioni.

Riferimenti bibliografici sulle Augmentation Query:

Qui sotto sono elencate alcuni dei riferimenti bibliografici citati dai candidati al brevetto. Essendomi sembrate particolarmente interessanti, ho fatto qualche ricerca per trovarli e condividerle qui.

Boyan, J. et al., A Machine Learning Architecture for Optimizing Web Search Engines,” School of Computer Science, Carnegie Mellon University, May 10, 1996, pp. 1-8. cited by applicant.
Brin, S. et al., “The Anatomy of a Large-Scale Hypertextual Web Search Engine“, Computer Science Department, 1998. cited by applicant.
Sahami, M. et al., T. D. 2006. A web-based kernel function for measuring the similarity of short text snippets. In Proceedings of the 15th International Conference on World Wide Web (Edinburgh, Scotland, May 23-26, 2006). WWW ’06. ACM Press, New York, NY, pp. 377-386. cited by applicant.
Ricardo A. Baeza-Yates et al., The Intention Behind Web Queries. SPIRE, 2006, pp. 98-109, 2006. cited by applicant.
Smith et al. Leveraging the structure of the Semantic Web to enhance information retrieval for proteomics” vol. 23, Oct. 7, 2007, 7 pages. cited by applicant.
Robertson, S.E. Documentation Note on Term Selection for Query Expansion J. of Documentation, 46(4): Dec. 1990, pp. 359-364. cited by applicant.
Talel Abdessalem, Bogdan Cautis, and Nora Derouiche. 2010. ObjectRunner: lightweight, targeted extraction and querying of structured web data. Proc. VLDB Endow. 3, 1-2 (Sep. 2010). cited by applicant .
Jane Yung-jen Hsu and Wen-tau Yih. 1997. Template-based information mining from HTML documents. In Proceedings of the fourteenth national conference on artificial intelligence and ninth conference on Innovative application of artificial intelligence (AAAI’97/IAAI’97). AAAI Press, pp. 256-262. cited by applicant .

Ganesh, Agarwal, Govind Kabra, and Kevin Chen-Chuan Chang. 2010. Towards rich query interpretation: walking back and forth for mining query templates. In Proceedings of the 19th international conference on World wide web (WWW ’10). ACM, New York, NY USA, 1-10. DOI=10. 1145/1772690. 1772692 http://doi.acm.org/10.1145/1772690.1772692. cited by applicant.

Un secondo sguardo alle Augmentation Query

Il brevetto di Google è un brevetto di continuazione, il che significa che è stato concesso prima, con la stessa descrizione, e ora contiene nuove indicazioni. Quando ciò accade, può essere interessante fare un confronto tra le nuove e le vecchie indicazioni per vedere come sono cambiate. Una cosa che mi piace, per esempio, è il fatto che la nuova versione sembra concentrarsi maggiormente sui dati strutturati. Quello che ci dice è che potrebbe utilizzare i dati strutturati in siti visualizzati per query come query sintetiche e, se questi soddisfano la soglia di prestazioni, possono essere aggiunti ai risultati di ricerca visualizzati per le query originali. Le nuove indicazioni sembrano concentrarsi un po’ di più sui dati strutturati come query sintetiche, ma in realtà non ci sono molte differenze con quelle vecchie. Non essendo cambiate molto, non è necessario pubblicare i due testi fianco a fianco per confrontarli.

Cosa ha dichiarato Google sui dati strutturati e sui ranking

I portavoce di Google ci hanno detto che i dati strutturati non influiscono direttamente sui ranking , ma ultimamente sembra che le cose stiano andando in maniera diversa. Nel post sul Search Engine Roundtable, Google: Structured Data Doesn’t Give You A Ranking Boost But Can Help Rankings ci viene detto che il solo fatto di avere dati strutturati su un sito non aumenta automaticamente il posizionamento di una pagina, ma se i dati strutturati vengono utilizzati come query sintetiche per una pagina e soddisfano la soglia di prestazione come augmented query (ottenendo determinati punteggi di qualità) allora potrebbero apparire nei ranking, contribuendo così al posizionamento (come ci dice questo brevetto).

Bisogna notare che queste informazioni non sono nuove, e che le indicazioni del brevetto di continuazione non sembrano essere cambiate di molto: i dati strutturati sono ancora usati come query sintetiche, e viene controllato per vedere se funzionano come augmented query. Questo sembra essere un buon motivo per assicurarti di utilizzare i dati strutturati appropriati per le tue pagine.

Questo articolo è stato originariamente pubblicato su SEO by the Sea, il blog di Bill Slawski.

[et_pb_section global_module=”3872″][/et_pb_section]