A Google folyamatosan finomhangolja algoritmusát, hogy minél relevánsabb találatokkal szolgálja ki a webet. Egy ilyen algoritmusfrissítés történt 2019. október 25.-én is, amikor bemutatták a BERT algoritmust.
A BERT a keresőóriás szerint az utóbbi 5 év legnagyobb előrelépése a Rankbrain óta. A frissítés Amerikában 10-ből 1 keresési találatot érint, és bár Magyarországon egyelőre még nem érhető el, fontos tisztában lenni vele.
Mi az a BERT, és miért van rá szükség?
A BERT nem más, mint a Google neurális hálózaton alapuló modellje, melynek célja a természetes nyelv feldolgozása. Az algoritmus az angol Bidirectional Encoder Representations from Transformers kifejezés rövidítése. Az új frissítés alapjaiban formálja át a Google-ben látott keresési találatokat, és jelentős hatása van a keresőoptimalizálással foglalkozó marketingesek munkájára is.
Nem más a keresőmotorok célja, minthogy a lehető legjobban tudják kiszolgálni a keresési szándékot. Ehhez elengedhetetlen, hogy felismerjék a felhasználó keresése mögötti információigényt, melyhez a legjobb eszköz a konkrét szavak értelmezése. Ez eddig ismerősen hangzik, hiszen a Google eddig is a szavak alapján adta vissza a találatokat. Akkor mi változott?
Míg korábban a szavakat egyesével elemezték a keresőrobotok, a BERT-nek köszönhetően ez már a kontextus vizsgálatával történik meg. Gondoljunk csak arra, milyen komplex például a magyar nyelv: rengeteg kötőszót és ragot használunk nap mint nap, melyek adott esetben teljesen módosíthatják a kifejezés jelentését. Nem mindegy, hogy valami felé vagy valamitől el szeretnénk utazni, ahogyan az sem lényegtelen, hogy valamiről vagy valakitől szeretnénk olvasni.
Míg az esetleges elgépeléseket az esetek túlnyomó részében már hosszú ideje helyesen ismeri fel a Google és felajánlja a megfelelő alakot, addig a szabad beszédhez hasonló szófordulatok értelmezésével még bőven vannak hiányosságok. Nem véletlen, hogy átszoktunk a kulcsszó-alapú keresésre, azaz egy kérdés feltétele helyett általában inkább néhány főnevet írunk egymás után.
Jellemző jelenség, hogy ahelyett, hogy “mikor indul a vonat Bécsbe” azt írjuk be a keresőmezőbe, hogy “bécs vonat menetrend”. Érezhetjük, hogy a második verzió nagyon távol áll a természetes beszédtől, mégis túlnyomórészt ezt választjuk remélve, hogy így pontosabb találatokat kaphatunk. Pontosan emiatt lett létrehozva a BERT algoritmusa.
Hogyan működik az algoritmus?
Ahogy azt már említettük, a BERT rövidítés tartalmazza a bidirectional, azaz kétoldalú szót. Ez a gyakolatban azt jelenti, hogy az algoritmus megvizsgálja a kifejezésben az előtte és utána található szavakat is, ezzel megértve a kontextust. A mesterséges intelligencia mindehhez a Wikipedia szócikkeinek elemzését használta fel az úgynevezett masking, azaz álcázás taktika alkalmazásának segítségével.
Az volt az algoritmus feladata, hogy egy szó kitakarásával, pusztán a kifejezés kontextusából jósolja meg a lefedett szót. Például abból, hogy “bevertem a [_] a plafonba” kitalálja a modell, hogy a kitakart szó a fejem.
Mindez azt eredményezi, hogy még pontosabb keresési eredményeket kapunk. Erre a Google hoz is egy látványos angol nyelvű példát: ha azt írjuk be a keresőbe, hogy “2019 brazil traveler to usa need a visa”, akkor a BERT algoritmusfrissítés előtt merőben eltérő találatokat láttunk volna, mint amikkel jelenleg találkozhatunk.
Tudjuk, hogy az angol nyelv megértésében rendkívül nagy jelentősége van az elöljárószavaknak, jelen esetben a “to”-nak. A fenti kifejezés arról szól, hogy brazilok utaznának Amerikába, nem pedig fordítva. 2019. október 25. előtt az algoritmus nem tulajdonított volna jelentőséget az elöljárószónak, ezért a keresési eredmények arról szóltak volna, hogy mit kell tudniuk a Brazíliába utazó amerikaiaknak a vízumról. Szerencsére a BERT óta a Google képes értelmezni a kifejezés teljes egészét, ezért megérti, hogy a “to”-nak kiemelt szerepe van a jelentés értelmezésében. Ennek következtében a konkrét keresési találatok is merőben más találatokat adnak vissza a frissítés óta.
Hiába a nagy hype a BERT körül, nem szabad túlértékelni ezt az új modellt, mert attól még messze áll a Google, hogy teljesen lekövesse az emberi nyelvet. Az azonban előremutató, hogy nem lesz szükséges ragaszkodni a kulcsszó-alapú kereséshez, nyugodtan használhatjuk olyan nyelvezettel a keresőt, ahogy az nekünk természetes.
Azt is fontos megjegyezni, hogy a másik ismert mesterséges intelligencián alapuló algoritmus, a RankBrain továbbra is aktív, a BERT pusztán kiegészíti annak működését. A Google többféle metódust is használ annak érdekében, hogy minél pontosabb képet kaphasson az adott nyelvről és minél jobban megértse, valójában mire kíváncsi a felhasználó. Ezen eszközök tárháza bővült ki most még eggyel, ezért előfordulhat, hogy egy adott kifejezés jelentésének pontosításához ötvözi a különféle modelleket.
Végezetül pedig mit jelent mindez a keresőoptimalizálás oldaláról nézve? Nem érdemes nagy változásra számítani, továbbra is igaz az örök szabály, miszerint olyan tartalmat készítsünk, mely maradéktalanul kiszolgálja a keresési szándékot. A BERT algoritmusa csupán abban segít, hogy sokkal pontosabban párosítsa össze a keresési kifejezést a megfelelő találatokkal.