Vés al contingut

Cerca semàntica

De la Viquipèdia, l'enciclopèdia lliure

La cerca semàntica és un procés utilitzat per millorar la cerca realitzada per Internet mitjançant l'ús de dades de les xarxes semàntiques per tal de desambiguar les consultes i el text del web amb la finalitat de trobar els resultats més rellevants en relació a la demanda de l'usuari.

Introducció

[modifica]

Degut a la ràpida evolució del web (des de la primera generació o web 1.0 passant pel web 2.0 fins a arribar al web 3.0 o web semàntic) i al gran increment de continguts presents a Internet com a xarxa global, cada vegada es fa més necessari tenir mètodes eficients de recuperació d'informació.

La recuperació d'informació consisteix a trobar el material (normalment documents) entre grans col·leccions de dades per a satisfer la necessitat d'un usuari. El principal objectiu del sistema de recuperació d'informació ha de ser obtenir els documents més rellevants possibles en relació a una consulta particular.

Avui en dia és imprescindible l'ús de motors de cerca per tal de realitzar les consultes a Internet i és possible que un mateix motor de cerca proporcioni respostes diferents per a diferents versions d'una mateixa pregunta. Aquests resultats poden dependre de les paraules clau utilitzades i no sempre són correctes.

Aquestes són les principals motivacions per al desenvolupament de mètodes de cerca semàntica, aprofitar les propietats de la semàntica (com l'estudi del significat de les paraules) per tal d'orientar la cerca i així intentar obtenir resultats òptims.

La dificultat d'aquest tipus de cerca es troba en que pels éssers humans és fàcil establir equivalències semàntiques entre diferents expressions però aquest procés no és evident pels sistemes automatitzats. Un sistema de cerca semàntica ideal hauria d'emular un hipotètic sistema de cerca humà amb una memòria suficientment gran per recordar i relacionar totes les preguntes i respostes anteriorment consultades. És cert que diferents persones poden donar diferents respostes a una mateixa pregunta però per molt que reformulem la consulta la resposta serà similar, ja que semànticament seran consultes equivalents

Finalment l'objectiu definitiu per a un sistema artificial de cerca semàntica serà obtenir els mateixos resultats i en el mateix ordre de rellevància respecte a diferents consultes semànticament equivalents.

Hildebrand et al.[1] proporciona una visió general enumerant sistemes de cerca semàntica i identifica altres usos de la semàntica en els processos de cerca.

Desambiguació

[modifica]

El cas que es presenta típicament és el d'un usuari amb una necessitat d'informació més o menys concreta que fa una consulta a un motor de cerca. Aquesta consulta conté paraules clau que l'usuari considera necessàries o correctes per a obtenir la informació desitjada. Llavors, el motor de cerca converteix en metadades les paraules clau utilitzades en la consulta (crea una representació de la informació) i realitza la cerca en la seva base de dades. Aquesta base de dades conté la relació de metadades amb tots els documents que coneix i retorna una llista de resultats en funció de la rellevància establerta per l'ordre de classificació. Aquest sistema té dues limitacions principals: hi ha vegades en què l'usuari no és capaç de definir correctament el seu objectiu mitjançant paraules clau i, a més, els motors de cerca no entenen el llenguatge natural.

El llenguatge natural té una gran complexitat a causa, en gran part, del gran nombre de sinònims i paraules polisèmiques que conté. En aquest punt entra en joc la importància de l'aplicació de sistemes de cerca semàntica en els motors de cerca. En general el procés de cerca semàntica és:

A. Interpretar la pregunta de l'usuari definint els conceptes més rellevants de la frase. B. Utilitzar aquest grup de conceptes per tal de crear una consulta i utilitzar-la contra l'ontologia del sistema. C. Presentar els resultats a l'usuari.

Per tal d'entendre què és allò que l'usuari està cercant (punt A del procés), s'ha de desambiguar el significat de les paraules clau utilitzades a la pregunta. Es considera que un terme és ambigu quan aquest pot tenir un considerat nombre de significats possibles, per exemple la paraula terra pot referir-se "al planeta Terra" o "al sòl que trepitgem en caminar". Gràcies als processos de desambiguació s'escull el significat més probable d'entre tots els possibles.

Aquests processos tenen en compte el significat de la resta de paraules presents a la frase i la resta del text de les webs. La determinació de cada significat influeix en la desambiguació de la resta de termes fins a arribar a una situació de màxima versemblança i coherència per a la frase consultada. Tota la informació fonamental per al procés de desambiguació, és a dir, tot el coneixement utilitzat pel sistema, es veu representada en forma d'una xarxa semàntica organitzada al voltant d'un nucli conceptual.

Xarxa semàntica

[modifica]

El principal objectiu de la investigació de xarxes semàntiques és el desenvolupament d'una sèrie de llenguatges i la tecnologia necessària per expressar informació semàntica que pugui ser entesa i processada pels ordinadors per poder aplicar-ho a l'entorn de treball en xarxa.

Una estructura d'aquest tipus pretén representar el coneixement lingüístic mostrant les interrelacions entre conceptes. Cada concepte lèxic coincideix amb el node d'una xarxa semàntica i està connectat amb altres per relacions semàntiques específiques en una estructura jeràrquica i hereditària. D'aquesta forma, cada concepte enriqueix amb les seves característiques i el seu significat els nodes propers.

Cada node de la xarxa agrupa un conjunt de sinònims que representen el mateix concepte lèxic i poden contenir:

  • Lemes simples ('seient', 'vacances', 'treball', 'ràpid', 'més', etc.).
  • Compostos ('sud-americà', 'teòrico-pràctica', 'coliflor', 'audiovisual', etc.).
  • Col·locacions (per exemple: 'prendre mesures').

Els enllaços que identifiquen les relacions semàntiques entre els conjunts de sinònims són les directrius a seguir per a l'organització de la xarxa semàntica de conceptes.

Ontologia

[modifica]

Abans s'ha mencionat el concepte d'ontologia, que apareix en la part del procés de la cerca semàntica en què ja s'ha desambiguat el missatge inicial de l'usuari i es pretén realitzar la consulta definitiva.

Ontologia és un terme originalment utilitzat en filosofia i ara relacionat amb la informàtica com un conjunt de termes jeràrquicament estructurat per descriure un domini que pot ser utilitzat com a nucli d'una base de coneixements. Per tal que les ontologies puguin ser interpretades pels ordinadors, els conceptes, propietats i les seves relacions, restriccions i normes, es descriuen amb un llenguatge formal. Per tant, l'ontologia d'un domini de coneixement proporciona un vocabulari amb el qual es representa el coneixement d'aquell domini i el conjunt de relacions que mantenen els termes utilitzats al vocabulari.

La definició d'ontologies és un procés bàsic per al desenvolupament de cerques semàntiques, ja que se n'obtenen molts beneficis. Defineixen la terminologia d'un domini de cerca de forma no ambigua a més d'obtenir una relació directa entre conceptes semàntics similars. Les ontologies són la base per a l'estructuració de les xarxes semàntiques.

Referències

[modifica]
  1. «Semantic Search Survey». Arxivat de l'original el 2011-08-12. [Consulta: 21 desembre 2009].

Articles:

  • Tomasz, Imielinski i Alessio, Signorini: «If you ask nicely, I will answer: Semantic Search and Today's Search Engines». IEEE International Conference on Semantic Computing (2009).
  • Junaidah, Mohamed Kassim i Mahathir, Rahmany: «Introduction to Semantic Search Engine». International Conference on Electrical Engineering and Informatics (del 5 al 7 de agosto de 2009; Selangor. Malasya).
  • DU, Zhi-Qiang; HU, Jing; YI, Hong-Xia i HU, Jin-Zhu: «The Research of the Semantic Search Engine based on the Ontology».
  • WEI-DONG, Fang; LING, Zhang; YAN-XUAN, Wang i SHOU-BIN, Dong: «Toward a Semantic Search Engine Based on Ontologies». Proceedings of the Fourth International Conference on Machine Learningand Cybernetics (del 18 al 21 de agosto de 2005; Guangzhou, China).