Come scrivere meta description con l’intelligenza artificiale di BERT
Se hai ancora qualche dubbio sulla funzione e l’importanza delle meta description nella SEO e vuoi scoprire come farle fare all’Intelligenza Artificiale, questo articolo fa per te.
Non è tutto: se non vedi l’ora di mettere alla prova l’Intelligenza Artificiale sulla scrittura di contenuti, leggi l’articolo completo. Alla fine, infatti, ti darò uno script per aiutarti a scrivere meta description su larga scala usando BERT: il modello linguistico pre-addestrato e non supervisionato di Google, che ha recentemente attirato forti attenzioni nella comunità SEO dopo che sia Google che BING hanno annunciato di utilizzarlo per fornire risultati più utili.
Personalmente, mi è capitato spesso di sottovalutare l’importanza delle meta description: dopotutto, i dati ci dicono che Google le utilizza solo nel 35,9% dei casi (secondo un’analisi di Moz dell’anno scorso, fatta dall’illustre @dr_pete). In realtà, questi brevi frammenti di testo, aiutano notevolmente ad attirare sempre più utenti sul tuo sito web e, indirettamente, sono persino capaci di influenzare il tuo posizionamento incrementando il tasso di click (CTR).
Anche se è vero che Google può ignorare le meta description aggiunte nell’HTML delle tue pagine, cercando di trovare una coerenza tra i seguenti fattori esistono molte possibilità di migliorare il CTR nelle pagine dei risultati di Google:
- l’intento principale dell’utente (ossia, la query di destinazione)
- il titolo della pagina
- la meta description.
Nel corso di questo articolo esamineremo i seguenti aspetti e, dal momento che è piuttosto lungo, sentiti libero di saltare direttamente all’argomento che ti interessa di più. Ti ricordo che lo script è disponibile alla fine. ?
Cosa sono le meta description?
Come al solito, tendo a “chiedere” agli esperti online una definizione per iniziare. Con una semplice domanda su Google, possiamo ottenere questa definizione dai nostri amici di WooRank:
Le meta description sono tag HTML che compaiono nella sezione Head di una pagina web. Il contenuto all’interno del tag fornisce una descrizione dell’argomento della pagina e del suo contenuto. Nel contesto della SEO, le meta description dovrebbero essere lunghe circa 160 caratteri.
Ecco un esempio di come appare una meta description (dallo stesso articolo):
Quanto dovrebbe essere lunga la tua meta description?
Quando scriviamo una meta description vogliamo essere, come con qualsiasi altro contenuto sul nostro sito, autentici, colloquiali e user-friendly. Il tutto in 155-160 caratteri (corrispondenti a 920 pixel). Una cosa da tenere presente è che la lunghezza “ottimale” potrebbe cambiare in base alla query dell’utente. Ciò significa che dobbiamo fare del nostro meglio nei primi 120 caratteri e creare una connessione accattivante tra la query, il tag del titolo e la meta description. In alcuni casi, all’interno di questa connessione è molto importante considerare il ruolo dei breadcrumbs. Guardando nuovamente l’esempio di WooRank, possiamo notare che la definizione arriva da una pagina educativa presente sul sito: una caratteristica coerente con la mia richiesta di informazioni.
Su quali meta description dovremmo concentrarci?
La SEO è un processo: dobbiamo impostare i nostri obiettivi, analizzare i dati con cui stiamo iniziando, migliorare i nostri contenuti e misurare i risultati. Non ha senso guardare un sito web di grandi dimensioni e dire: “ok, ora ho bisogno di scrivere un trilione di meta description poiché sono tutte mancanti”. Un approccio del genere rappresenterebbe solo una perdita di tempo.
Oltre al fatto che in alcuni casi – potremmo decidere di non aggiungere affatto una meta description.
Ad esempio, quando una pagina copre query diverse e il testo è già ben strutturato, potremmo lasciare che sia Google a creare lo snippet migliore per ogni super query (sono bravissimi a farlo ?). Dobbiamo esaminare le pagine più importanti che abbiamo – non dimentichiamo che scrivere una buona meta description è proprio come scrivere una copia di annunci – generare click non è un gioco banale.
Come regola generale, preferisco focalizzare la mia attenzione su:
- Pagine che hanno già un qualche posizionamento su Google (posizione > 0). L’aggiunta di una meta description a una pagina che non è classificata non farà differenza.
- Pagine che non sono tra le prime 3 posizioni: se sono già ben posizionate, a meno che non riesca a vedere alcune opportunità reali, preferisco lasciarle così come sono.
- Pagine che hanno un valore commerciale: sul sito web di WordLift, non ha senso aggiungere meta description a pagine di destinazione che non hanno un potenziale organico. Preferirei concentrarmi sui contenuti del blog. Il discorso dipende dai casi ma, in generale, è molto importante capire su quale tipo di pagine voglio concentrarmi.
Questo criterio può essere utile, soprattutto se prevediamo di eseguire programmaticamente il crawl del nostro sito web e scegliere dove focalizzare l’attenzione utilizzando i dati di scansione. Continua a leggere e ci arriveremo, promesso!
Una breve introduzione alla sintesi di documenti singoli
La sintesi automatizzata dei testi è un compito particolarmente impegnativo per il NLP che consiste nel fornire un breve e possibilmente accurato riassunto di un lungo testo. Con la crescente quantità di contenuti online, la necessità di comprendere e sintetizzare i testi è, infatti, molto elevata. In termini puramente tecnologici, la sfida per la creazione di riassunti ben costruiti è enorme e i risultati sono, nella maggior parte dei casi, ancora lontani dall’essere perfetti (o paragonabili al livello umano).
Il primo lavoro di ricerca sulla sintesi automatica del testo risale a 50 anni fa, così come le sue tecniche. Da allora, queste tecniche sono state utilizzate per estrarre contenuti pertinenti da testi non strutturati.
“I diversi approcci alla sintesi testuale possono essere generalmente classificati in base al tipo di input (documento singolo o multiplo), allo scopo (generico, specifico del dominio o basato su query) e al tipo di output (estrattivo o astrattivo).”
— A Review on Automatic Text Summarization Approaches, 2016.
Metodo estrattivo o astrattivo?
Diamo un’occhiata ai diversi metodi che abbiamo a disposizione per sintetizzare una pagina web.
“I metodi di sintesi estrattivi funzionano identificando sezioni importanti del testo e riprendendole alla lettera; […] I metodi di sintesi astrattivi mirano a produrre nuovo materiale pertinente. In altre parole, interpretano ed esaminano il testo usando tecniche di linguaggio naturale avanzate al fine di generare un nuovo testo più breve che trasmetta le informazioni più rilevanti tratte dal testo originale ”
— Text Summarization Techniques: A Brief Survey, 2017.
In parole semplici: con il riassunto estrattivo useremo un algoritmo per selezionare e combinare le frasi più rilevanti in un documento. Usando metodi di riassunto astrattivi, useremo sofisticate tecniche di PNL (cioè reti neurali profonde) per leggere e comprendere un documento al fine di generare nuove frasi.
Con i metodi estrattivi, un documento può essere visto come un grafico in cui ogni frase è un nodo e le relazioni tra queste frasi sono vettori ponderati. Questi vettori possono essere calcolati analizzando la somiglianza tra i set di parole di ogni frase. Possiamo quindi utilizzare un algoritmo come Page Rank (lo chiameremo Rank del testo in questo contesto) per estrarre le frasi centrali nel nostro documento-grafico.
L’impronta di carbonio del NLP e perché preferisco i metodi estrattivi per creare meta description
In un recente studio, i ricercatori dell’Università del Massachusetts, ad Amherst, hanno eseguito una valutazione del ciclo di produzione di numerosi grandi modelli di Intelligenza Artificiale comuni, con focus su modelli linguistici e attività di NLP. Hanno scoperto che l’addestramento di un modello linguistico complesso può emettere emissioni pari a cinque volte l’intero ciclo di vita di una macchina americana media (compreso tutto ciò che è necessario per fabbricare l’auto stessa!).
Nonostante l’automazione rappresenti la chiave del futuro, non vogliamo contribuire all’inquinamento del nostro pianeta abusando della tecnologia che abbiamo. In linea di principio, l’utilizzo di metodi astrattivi e di tecniche di deep learning offre un maggiore grado di controllo quando si comprimono articoli in paragrafi di 30-60 parole ma, considerando il nostro obiettivo finale (ovvero attirare più click dalla ricerca organica), possiamo probabilmente trovare un buon compromesso senza spendere molte risorse computazionali (e ambientali). So che sembra un po’ ingenuo ma… non lo è e vogliamo essere sostenibili ed efficienti in tutto ciò che facciamo.
Che cos’è BERT?
BERT: Il Potente Trasformatore
Ora, considerando che è stata già spesa una notevole quantità di energia per addestrare BERT (1.507 kWh secondo il documento sopra citato), ho deciso che valeva la pena testarlo per eseguire un riassunto di tipo estrattivo.
Devo anche ammettere che è passato un po’ di tempo dalla prima volta che mi sono divertito a fare il riassunto automatico di un testo online e che ho sperimentato molti metodi diversi prima di provarci con BERT.
BERT è un modello di elaborazione del linguaggio naturale non supervisionato e pre-addestrato, creato da Google e rilasciato come programma open source (evviva!) che fa magie su 11 delle attività NLP più comuni.
BERTSUM è una variante di BERT, progettata per la sintesi estrattiva, che è ora all’avanguardia (qui puoi trovare il paper che lo riguarda).
Derek Miller, sfruttando questi progressi, ha fatto un lavoro formidabile per portare questa tecnologia alle masse (me compreso) creando una libreria Python super elegante e facile da usare, che possiamo usare per sperimentare su larga scala il riassunto estrattivo dei testi basato su BERT. Un grande ringraziamento va anche al team di HuggingFace poiché lo strumento di Derek utilizza la libreria dei trasformatori di Pytorch. ?
Lunga vita all’intelligenza artificiale, automatizziamo la scrittura delle meta description con il nostro adorabile robot [IL CODICE SI TROVA QUI]
Quindi, ecco come funziona il codice che troverai in questo articolo.
- Iniziamo con un CSV che ho generato utilizzando il crawler di WooRank (qui puoi modificare il codice e utilizzare qualsiasi CSV che ti aiuti a rilevare dove mancano gli MD sul sito e dove può essere utile aggiungerli); il file fornito nel codice è disponibile su Google Drive (in questo modo possiamo sempre guardare i dati prima di eseguire lo script).
- Analizziamo i dati dal crawler e costruiamo un dataframe usando Panda.
- Scegliamo quindi quali URL sono più critici: nel codice fornito, lavoro sostanzialmente sull’analisi del sito web stg-wordliftblogq-stage.kinsta.cloud e mi concentro solo sul contenuto del blog inglese che ha già una posizione di ranking. Sentiti libero di giocare con i filtri Pandas e di infondere la tua conoscenza ed esperienza SEO allo script.
- Quindi eseguiamo la scansione di ogni pagina (e qui potresti voler definire la classe CSS che il sito utilizza nell’HTML per rilevare il corpo dell’articolo, impedendoti quindi di analizzare menu e altri elementi non necessari nella pagina).
- Chiediamo a BERT (con una configurazione vanilla che puoi mettere a punto) di generare un riassunto per ogni pagina e scriverlo su un file CSV.
- Con il CSV risultante possiamo tornare al nostro amato CMS e trovare il modo migliore per importare i dati (potresti voler curare i suggerimenti di BERT prima di andare andare online – ancora una volta – nella maggior parte dei casi possiamo fare meglio della macchina).
Super facile, non troppo intenso in termini computazionali ed… ecologico ?
Divertiti a giocarci! Ricorda sempre: è un amico robot e non un vero sostituto del tuo prezioso lavoro. BERT può fare il duro lavoro di leggere la pagina ed evidenziare ciò che conta di più, ma potrebbe comunque non riuscire ad ottenere la giusta lunghezza o aggiungere la CTA corretta (per esempio, “Continua a leggere per scoprire…”).
Considerazioni finali e lavoro da svolgere in futuro
La bellezza dell’automazione e in generale dell’agentive SEO, come mi piace chiamarla, è la possibilità di ottenere superpoteri pur mantenendo il pieno controllo del processo. L’Intelligenza Artificiale è lungi dall’essere magica o diventare (almeno in questo contesto) un elemento in grado di sostituire scrittori di contenuti e SEO. Piuttosto, l’IA è un assistente intelligente che può migliorare il nostro lavoro.
Ovviamente, esistono alcuni limiti molto chiari con il riassunto testuale estrattivo, legati principalmente al fatto che abbiamo a che fare con frasi e che, se abbiamo lunghe frasi nella nostra pagina web, finiremo per avere uno snippet troppo lungo per diventare una meta description perfetta. Ho intenzione di continuare a lavorare per mettere a punto dei parametri per ottenere i migliori risultati possibili in termini di espressività e lunghezza, ma… finora solo un 10-15% può ritenersi abbastanza buono, senza richiedere alcun intervento aggiuntivo da parte della nostra intelligenza naturale. La stragrande maggioranza dei riassunti ha un bell’aspetto ed è significativo, ma va ancora oltre il limite di 160 caratteri.
Vedo, naturalmente, molto potenziale in queste sintesi. Oltre alla generazione di meta description per la SEO possiamo, ad esempio, creare un’esperienza simile ai “featured snippet” per fornire abstract pertinenti ai lettori. Inoltre, se il tono dell’articolo è abbastanza colloquiale, il riepilogo potrebbe anche diventare un paragrafo speakable che possiamo usare per introdurre il contenuto su dispositivi vocali (per esempio: “di cosa parla l’ultimo articolo di WordLift?”). Quindi, anche se non possiamo lasciare che la macchina faccia tutto da sola, c’è un valore concreto nell’uso di BERT per i riassunti testuali.
Credits
Dato che sei arrivato alla fine di questo lungo articolo, è arrivato il momento di ricordare che niente tutto ciò sarebbe possibile senza il lavoro di persone e organizzazioni illuminate, che si impegnano quotidianamente a lavorare su tecnologie open source, fornendo sostegno e strumenti adeguati a tutti i professionisti, per rendere (speriamo) il web un posto migliore!
È anche grazie a pensatori indipendenti e a esperti SEO con un approccio statistico-matematico come Paul Shapiro e Hamlet che mi sono interessato all’argomento e mi sono preparato a sperimentare nuovi strumenti.
Fai qualche tentativo con questo codice su Google Colab e inviami commenti o suggerimenti su Twitter o LinkedIn.
Vuoi potenziare l’effetto del tuo lavoro di marketing con Woorank e con il servizio di gestione SEO di WordLift? Parliamone, non vedo l’ora di sapere tutto sulle tue nuove sfide!