Perspective pentru dezvoltarea sistemelor de căutare. Motoarele de căutare pe internet

05.03.2020 Photoshop 3D

Motoarele de căutare moderne sunt cele mai puternice sisteme hardware și software, al căror scop este indexarea documentelor pe Internet pentru a furniza date la cererea utilizatorilor.

Pentru a oferi informații de înaltă calitate și relevante, motoarele de căutare trebuie să își îmbunătățească constant formulele de clasare. Asigurarea unei calități cât mai înalte a rezultatelor căutării pentru utilizatori și prevenirea manipulării acestora prin optimizare sunt obiectivele cheie ale dezvoltării motoarelor de căutare.

Într-o perioadă în care motoarele de căutare abia începeau să apară, algoritmii lor de clasare erau foarte primitivi. Datorită acestui fapt, cei mai ingenioși optimizatori au început să-și promoveze site-urile astfel încât să apară în rezultatele căutării pentru interogările care îi interesează. Ca urmare, acest lucru a condus la faptul că resursele care adesea nu oferă utilizatorului nicio informație utilă au devenit primele, relegând astfel site-urile mai utile în plan secund.

Ca răspuns la aceste acțiuni, motoarele de căutare au început să se apere prin îmbunătățirea algoritmilor de clasare, introducând tot mai multe variabile în formule și luând în considerare tot mai mulți factori. De-a lungul timpului, această luptă între optimizatori și motoarele de căutare a trecut la un nou nivel și a contribuit la apariția unor algoritmi mai avansați, bazați, printre altele, pe învățarea automată.

Etapele dezvoltării motorului de căutare:

După cum puteți vedea din diagramă, dezvoltarea motoarelor de căutare și a algoritmilor acestora merge în cerc. Unii creează algoritmi noi, alții se adaptează la aceștia. Este greu de spus dacă acest proces se va opri vreodată, dar personal înclin să cred că nu se va opri. În ciuda faptului că algoritmii de clasare în motoarele de căutare au schimbat recent nu numai semnificația diferiților factori, ci și-au schimbat și calitativ, acest lucru nu îi sperie pe optimizatori: arsenalul lor este în mod constant completat cu tot mai multe tehnici noi.

Cât de des își schimbă motoarele de căutare algoritmii?

Să ne întoarcem la motorul de căutare principal al Runet - Yandex. Modificări calitative și fundamentale în formulele de clasare au loc în medie o dată pe an. Nu cu mult timp în urmă, Yandex a introdus o nouă platformă de căutare numită „Kaliningrad”. Esența sa este de a genera rezultate personale pentru fiecare utilizator pe baza istoricului de căutare și a preferințelor sale.

În plus, nu trebuie să uităm că fiecare motor de căutare, inclusiv Yandex, se confruntă în mod constant cu „ajustări” în formulele de clasare, atunci când în modul automat sau semi-automat influența anumitor factori este subestimată, în timp ce alții, dimpotrivă, sunt crescute. Toate acestea se realizează cu un singur scop - să îmbunătățească rezultatele căutării cât mai mult posibil, eliminându-le de site-urile care nu satisfac nevoile utilizatorilor și sporind astfel relevanța acesteia.

Privind modificările din motorul de căutare Google, puteți observa că și transformările în formula de clasare au loc în mod constant, iar Google însuși raportează sute de mici modificări de la an la an. Dar dacă vorbim nu despre formula de clasare, ci despre filtrele care ajută Google să curețe rezultatele site-urilor de calitate scăzută, atunci la fiecare 3-6 luni apar noi versiuni de algoritmi, precum Panda sau Penguin.

Răspunsul la întrebarea pusă mai sus poate fi următorul: motoarele de căutare își îmbunătățesc constant algoritmii de clasare, iar schimbări dramatice apar în medie o dată la 6-12 luni.

Ce algoritmi pentru motoarele de căutare reprezintă o amenințare reală pentru promovare?

Aș dori să răspund la „raliu” - niciunul, dar totuși, să ne dăm seama. Și pentru a face acest lucru, trebuie să ne punem întrebarea: își pun motoarele de căutare scopul de a preveni promovarea în motoarele de căutare?

Cred că nu. Există mai multe justificări pentru aceasta:

1. Optimizatorii ajută motoarele de căutare să-și îmbunătățească algoritmii, ceea ce duce în cele din urmă la o calitate îmbunătățită a rezultatelor căutării. La urma urmei, dacă nu ar exista optimizatori, atunci motoarele de căutare, cel mai probabil, și-ar fi oprit dezvoltarea în 2000.

2. Fără optimizatori, rezultatele pentru multe interogări comerciale ar arăta ca o colecție de rezumate și articole de informații inutile.

Dacă promovarea motoarelor de căutare nu ar exista în principiu, atunci nu ar avea sens ca motoarele de căutare să crească și să se dezvolte la fel de intens ca acum.

Astfel, ajungem la următoarea concluzie:

Motoarele de căutare și SEO sunt strâns și indisolubil legate între ele. De aceea, urmând regulile stabilite de ei, nu poți avea absolut nicio teamă de algoritmi, deoarece PS-urile nu își propun să distrugă SEO ca atare.

Dezvoltarea serviciilor de motoare de căutare

Vorbind despre motoarele de căutare, nu uitați că Yandex, Google sau Bing au propriile lor servicii concepute pentru a ajuta utilizatorii. Pe lângă rezultatele căutării, de-a lungul anilor de evoluție, motoarele de căutare au studiat comportamentul utilizatorilor lor pentru a crește satisfacția față de rezultatele căutării.

De fapt, în acest scop, motorul de căutare Yandex a creat așa-numitul mecanism. „Vrăjitorii” care ajută utilizatorul să obțină rapid un răspuns la întrebarea lor. Deci, de exemplu, când introduceți cererea „prognoză meteo”, Yandex va afișa informații despre vremea pentru data curentă direct pe pagina cu rezultatele căutării, eliberând astfel utilizatorul de nevoia de a naviga prin rezultatele căutării.

Alte motoare de căutare, de exemplu, Google, au mers mai departe și în loc de „Vrăjitorii” au oferit o soluție mai interesantă - „Knowledge Graph”.

„Graficul cunoștințelor”(din engleză Knowledge Graph) este primul pas pe calea Google către căutarea inteligentă. Datorită acestei inovații, motorul de căutare afișează în rezultatele căutării nu numai link-uri standard, ci și răspunsuri directe la întrebările utilizatorilor, informații succinte despre obiectul solicitării și informații despre fapte legate de acesta. Din punct de vedere tehnic, „Graficul de cunoștințe” este o rețea semantică care leagă între ele diverse entități: indivizi, evenimente, sfere ale vieții, lucruri, categorii. Baza de informații pentru „graful de cunoștințe” este o serie de surse: baza de date semantică deschisă Freebase, Wikipedia, colecția de date deschise CIA și alte surse.

Ce concluzii se pot trage, vă întrebați?

Răspunsul este simplu: serviciile de căutare și căutare vor continua să se dezvolte spre răspunsuri rapide și relevante la întrebările utilizatorilor, oferind posibilitatea de a obține toate informațiile necesare direct în SERP și eliminând nevoia de a merge pe alte site-uri.

Există o părere că motoarele de căutare, cu dorința lor de a răspunde la întrebarea utilizatorului aici și acum, pot distruge optimizarea motoarelor de căutare, devenind un fel de baze de cunoștințe globale. Dar astfel de temeri sunt nefondate, deoarece pentru a deveni baze de cunoștințe globale au nevoie de informații, iar acestea sunt stocate chiar de site-urile la care lucrează aceiași optimizatori care sunt implicați în faptul că motoarele de căutare nu stau pe loc, dar sunt în continuă evoluție.

După cum puteți vedea, atât SEO, cât și motoarele de căutare sunt verigi din același lanț care nu pot exista unul fără celălalt. Prin urmare, gândurile despre moartea iminentă a SEO sunt nefondate. Este posibil ca optimizarea pentru motoarele de căutare să evolueze în cele din urmă spre, de exemplu, consultanță, dar cu siguranță nu va muri. Le doresc tuturor promovarea cu succes în TOP!

O varietate de tehnologii și metode create de-a lungul anilor de dezvoltare a teoriei și practicii de regăsire a informațiilor își găsesc aplicarea în sistemele moderne de regăsire a informațiilor. Alături de sistemele clasice de regăsire a informațiilor bibliotecii, care continuă să fie îmbunătățite, are loc o dezvoltare intensivă în domeniul sistemelor globale de regăsire a informațiilor pe Internet, care a devenit principala forță motrice a tehnologiilor moderne de regăsire a informațiilor. Volumul enorm de resurse de informații disponibile necesită utilizarea algoritmilor de căutare scalabili. Hipertextele permit utilizarea unor modele de căutare fundamental noi bazate pe analiza semantică a colecțiilor de documente. Viteza mare de actualizare a paginilor, plasarea lor gratuită și lipsa garanției unui acces constant duce la necesitatea reindexării constante a resurselor informaționale actuale.

În cele din urmă, compoziția eterogenă a utilizatorilor, care de multe ori nu au abilitățile necesare pentru a lucra cu un motor de căutare, ne obligă să căutăm modalități eficiente de a formula interogări care funcționează cu informații inițiale minime.

6.1. Dicţionar information retrieval systems

Sistemele de căutare a informațiilor din dicționar sunt astăzi cele mai rapide și mai eficiente motoare de căutare care sunt cele mai răspândite pe Internet. Căutarea informațiilor necesare în sistemele de informații din dicționar se realizează folosind cuvinte cheie. Rezultatele căutării sunt generate în timpul lucrului unuia sau altui algoritm de căutare cu un dicționar și o interogare compilată de utilizator în limba IP.

Structura vocabularului IPS (Fig. 13) constă din următoarele componente: un vizualizator de documente, o interfață cu utilizatorul, un motor de căutare, o bază de date de imagini de căutare și un agent de indexare.

Matricea de informații include resurse de informații potențial disponibile pentru utilizator. Acestea includ documente text și grafice, informații multimedia etc. Pentru un IRS global, acesta este întregul Internet, unde toate documentele sunt caracterizate de un URL unic (URL - Uniform Resource Locator).

Interfața motorului de căutare determină modul în care utilizatorul interacționează cu motorul de căutare. Acestea includ reguli pentru formarea interogărilor, un mecanism de vizualizare a rezultatelor căutării etc. Interfața motoarelor de căutare de pe Internet este de obicei implementată într-un mediu de browser web. Este utilizat un software adecvat pentru a lucra cu informații audio și video.

Funcția principală a unui motor de căutare este implementarea modelului de căutare adoptat. În primul rând, cererea utilizatorului, pregătită în IP, este tradusă conform regulilor stabilite într-o cerere formală. Apoi, în timpul executării algoritmului de căutare, cererea este comparată cu imagini de căutare ale documentelor din baza de date. Pe baza rezultatelor comparației, se generează o listă finală a documentelor găsite. În mod obișnuit, conține titlul, dimensiunea, data creării și adnotarea scurtă a documentului, un link către acesta, precum și valoarea măsurătorii de similitudine dintre document și interogare.

Fig. 13. Structura vocabularului IPS.

Lista este supusă ierarhizării (ordonarea după un anumit criteriu, de obicei după valoarea relevanței formale).

Baza de date a imaginilor documentelor de căutare este concepută pentru a stoca descrieri ale documentelor indexate. Structura unei baze de date tipice de dicționar IRS este descrisă în detaliu în partea 1 a ghidului.

Agentul de indexare realizează indexarea documentelor disponibile pentru a compila imaginile de căutare ale acestora. În sistemele locale, această operațiune se efectuează de obicei o singură dată: după finalizarea formării unei serii de documente, toate informațiile sunt indexate și imaginile de căutare sunt introduse în baza de date. În matricea dinamică de informații descentralizată a Internetului, este utilizată o abordare diferită. Un program special de robot, numit spider sau crawler, accesează continuu rețeaua. Tranzițiile între diferite documente se fac folosind hyperlinkurile pe care le conțin. Viteza de actualizare a informațiilor din baza de date a motorului de căutare este direct legată de viteza de scanare a rețelei. De exemplu, un robot de indexare puternic poate accesa cu crawlere întregul Internet în câteva săptămâni. Cu fiecare nou ciclu de accesare cu crawlere, baza de date este actualizată și vechile adrese nevalide sunt eliminate.

Unele documente sunt închise pentru motoarele de căutare. Acestea sunt informații care sunt autorizate sau accesate nu printr-un link, ci la cererea dintr-un formular. În prezent sunt dezvoltate metode inteligente de scanare a părții ascunse a Internetului, dar acestea nu au fost încă utilizate pe scară largă.

Pentru indexarea documentelor hipertext, programele agent folosesc surse: link-uri hipertext (href), titluri (titlu), titluri (H1, H2, etc.), adnotări, liste de cuvinte cheie (cuvinte cheie), legende imagini. URL-urile sunt folosite pentru a indexa informații non-text (de exemplu, fișiere transferate prin FTP).

De asemenea, sunt utilizate capabilități de indexare semi-automată sau manuală.

În primul caz, administratorii lasă mesaje despre documentele lor, pe care agentul de indexare le prelucrează după un timp, în al doilea, administratorii introduc în mod independent informațiile necesare în baza de date IRS.

Un număr tot mai mare de sisteme de recuperare a informațiilor produc indexare full-text. În acest caz, întregul text al documentului este utilizat pentru a compune imaginea de căutare. Formatarea, linkurile etc. devin în acest caz un factor suplimentar care influențează semnificația unui anumit termen. Un termen din titlu va primi mai multă pondere decât un termen din legenda figurii.

Sistemele moderne de regăsire a informațiilor mari trebuie să proceseze sute de solicitări într-o secundă. Prin urmare, orice întârziere poate duce la o ieșire de utilizatori și, în consecință, la nepopularitatea sistemului și defecțiuni comerciale. Din punct de vedere arhitectural, astfel de sisteme informatice sunt implementate sub forma unor sisteme de calcul distribuite formate din sute de calculatoare situate in intreaga lume. Algoritmii de căutare și codul programului sunt supuse unei optimizări extrem de atente.

În sistemele de regăsire a informațiilor cu o bază de date mare de documente, tehnologiile sunt folosite pentru a le accelera munca separare și tăiere .

Separare constă în împărțirea bazei de date în părți evident mai relevante și mai puțin relevante. În primul rând, IPS caută documente în prima parte a bazei de date. Dacă nu sunt găsite documente sau nu sunt găsite suficiente, atunci căutarea se efectuează în partea a doua.

Când se utilizează tăierea (Tăiere – abreviere engleză, ștergere) procesarea cererii se oprește automat după găsirea unui număr suficient de documente relevante.

De asemenea, utilizat pe scară largă modele de căutare de prag , care definesc anumite valori prag pentru caracteristicile documentelor emise utilizatorului. De exemplu, relevanța documentelor este de obicei limitată la o anumită valoare a relevanței

Toate documentele cu valoare de relevanță sunt aduse la cunoștința utilizatorului

Dacă clasați rezultatele căutării după dată, pragurile determină intervalul de timp în care documentele au fost modificate. De exemplu, IPS poate tăia automat documentele care nu au fost modificate în ultimii trei ani.

Principalul avantaj al unui IPS de tip dicționar este automatizarea sa aproape completă. Sistemul analizează în mod independent resursele de căutare, compilează și stochează descrierile acestora și caută printre aceste descrieri. Acoperirea largă a resurselor de internet este, de asemenea, un avantaj al unor astfel de sisteme. Volumele semnificative ale bazelor de date fac ca sistemele de informații din dicționar să fie deosebit de utile pentru căutări exhaustive, interogări complexe sau pentru localizarea informațiilor obscure.

În același timp, numărul mare de documente din baza de date a sistemului duce adesea la găsirea prea multor documente. Acest lucru cauzează dificultăți pentru majoritatea utilizatorilor atunci când analizează informațiile găsite și face imposibilă căutarea rapidă. Metodele de indexare automată nu pot lua în considerare specificul documentelor specifice și numărul documentelor nepertinente dintre acestea

găsit de un astfel de sistem este adesea mare.

Un alt dezavantaj al sistemului de informații din dicționar este necesitatea de a formula interogări către sistem într-o limbă specială. Deși există o tendință de convergență a FL cu limbajele naturale, astăzi utilizatorul trebuie să aibă anumite abilități în formularea interogărilor.

  • GNU (un acronim recursiv pentru GNU's Not UNIX - „GNU is not Unix!”) este un proiect de creare a unui sistem de operare gratuit asemănător UNIX, deschis în 1983 de Richard Stallman.
  • I. Declaratie-cerere pentru certificarea sistemului calitatii II. Date inițiale pentru o evaluare preliminară a stării producției
  • Căutarea specificată de operatorii booleeni este literală - mașina caută cuvinte sau expresii exact așa cum au fost introduse. Acest lucru poate cauza probleme atunci când cuvintele introduse sunt ambigue. De exemplu, cuvântul englezesc „Bed” poate însemna un pat, un pat de flori, un loc în care peștii depun icre și multe altele. Dacă utilizatorul este interesat doar de unul dintre aceste sensuri, nu are nevoie de pagini cu un cuvânt care are alte semnificații. Este posibil să construiți o interogare de căutare literală menită să elimine valorile nedorite, dar ar fi bine dacă motorul de căutare însuși ar putea oferi asistență adecvată.

    Una dintre opțiunile pentru modul în care funcționează un motor de căutare este căutarea conceptuală. O parte a acestei căutări implică utilizarea analizei statistice a paginilor care conțin cuvinte sau expresii introduse de un utilizator pentru a găsi alte pagini care ar putea fi de interes pentru acel utilizator. Este clar că căutarea conceptuală necesită stocarea mai multor informații despre fiecare pagină, iar fiecare interogare de căutare va necesita mai multe calcule. În prezent, multe echipe de dezvoltare lucrează la îmbunătățirea eficienței și performanței acestor tipuri de motoare de căutare. Alți cercetători s-au concentrat pe o zonă diferită numită interogări în limbaj natural.

    Ideea din spatele interogărilor în limbaj natural este ca un utilizator să formuleze o interogare în același mod în care ar întreba persoana care stă lângă el, fără a fi nevoit să țină evidența operatorilor booleeni sau a structurilor complexe de interogare. Cel mai popular site modern de căutare în limbaj natural este AskJeeves.com, care analizează interogarea pentru a identifica cuvintele cheie care sunt apoi folosite pentru a căuta în indexul site-ului construit de motorul de căutare. Site-ul menționat funcționează doar cu interogări simple de căutare, dar dezvoltatorii, într-un mediu extrem de competitiv, dezvoltă un motor de căutare în limbaj natural care poate gestiona interogări foarte complexe.


    30. Sisteme semantice: definiție, scop, esență tehnică, clasificare, caracteristici, arhitectură, exemple și perspective de dezvoltare. Principii de bază ale optimizării web semantice



    Rețea semantică (sistem) – un model informativ al unei zone de subiect, sub forma unui grafic direcționat, ale cărui vârfuri corespund obiectelor zonei subiectului, iar arcele (marginile) definesc relațiile dintre ele. Obiectele pot fi concepte, evenimente, proprietăți, procese. Astfel, rețeaua semantică este una dintre modalitățile de reprezentare a cunoștințelor. Numele combină termeni din două științe: semantica în lingvistică studiază semnificația unităților de limbaj, iar o rețea în matematică este un tip de grafic - un set de vârfuri conectate prin arce (margini). Într-o rețea semantică, rolul vârfurilor este jucat de conceptele bazei de cunoștințe, iar arcele (și cele dirijate) definesc relațiile dintre ele. Astfel, rețeaua semantică reflectă semantica disciplinei sub formă de concepte și relații.

    Matematica ne permite să descriem majoritatea fenomenelor din lumea care ne înconjoară sub formă de afirmații logice. Rețelele semantice au apărut ca o încercare de a vizualiza formule matematice. Reprezentarea principală pentru web-ul semantic este grafic. Totuși, nu trebuie să uităm că în spatele imaginii grafice există cu siguranță o notație matematică strictă și că ambele aceste forme nu sunt concurente, ci complementare.



    Principala formă de reprezentare a unei rețele semantice este un grafic. Conceptele rețelei semantice sunt scrise în ovale sau dreptunghiuri și sunt conectate prin săgeți cu semnături - arce (vezi figura). Aceasta este cea mai convenabilă formă de perceput de oameni. Neajunsurile sale apar atunci când începem să construim rețele mai complexe sau încercăm să ținem cont de caracteristicile limbajului natural. Schemele rețelelor semantice, care indică direcțiile relațiilor de navigație, se numesc hărți de cunoștințe, iar colecția lor, care permite acoperirea unor zone mari ale rețelei semantice, se numește atlas de cunoștințe.

    În matematică, un grafic este reprezentat printr-o mulțime de vârfuri V și o mulțime de relații între ele E. Folosind aparatul logicii matematice, ajungem la concluzia că fiecărui vârf îi corespunde un element din mulțimea subiectului, iar un arc îi corespunde. la un predicat.

    Un exemplu de rețea (sistem) semantică

    În lingvistică, relațiile sunt înregistrate în dicționare și tezaure. În dicționare, în definiții prin gen și diferență specifică, conceptul generic ocupă un anumit loc. În tezaure, articolul pentru fiecare termen poate indica toate posibilele legături ale acestuia cu alți termeni înrudiți la subiect. Este necesar să se distingă tezaurele de regăsire a informațiilor de astfel de tezaure cu liste de cuvinte cheie din articole care sunt destinate funcționării sistemelor de căutare de descriptori.

    Clasificarea rețelelor semantice

    Pentru toate rețelele semantice, împărțirea după aritate și numărul de tipuri de relații este valabilă.

    · După numărul de tipuri de relații, rețelele pot fi omogenŞi eterogen.

    o Rețelele omogene au un singur tip de relație (săgeată), de exemplu, clasificarea mai sus menționată a speciilor biologice (cu o singură relație AKO).

    o În rețelele eterogene, numărul de tipuri de relații este mai mare de două. Ilustrațiile clasice ale acestui model de reprezentare a cunoștințelor reprezintă tocmai astfel de rețele. Rețelele eterogene prezintă un interes mai mare în scopuri practice, dar și mai greu de studiat. Rețelele eterogene pot fi reprezentate ca o împletire a structurilor multistrat asemănătoare arborilor. Un exemplu de astfel de rețea ar fi Web-ul semantic Wikipedia.

    După aritate:

    o rețelele tipice sunt binar relații (conectând exact două concepte). Relațiile binare sunt foarte simple și sunt descrise convenabil pe un grafic ca o săgeată între două concepte. În plus, ei joacă un rol excepțional în matematică.

    o În practică, totuși, este posibil să aveți nevoie de relații care conectează mai mult de două obiecte - N-ary. În acest caz, apare o dificultate - cum să descrii o astfel de conexiune pe un grafic pentru a nu te confunda. Graficele conceptuale (vezi mai jos) atenuează această dificultate prin reprezentarea fiecărei relații ca un nod separat.

    · După mărime:

    o Pentru a rezolva probleme specifice, de exemplu, cele rezolvate de sistemele de inteligență artificială.

    o S.S. de scară industrială ar trebui să servească drept bază pentru crearea unor sisteme specifice, fără a pretinde o semnificație universală.

    o Web semantic global. Teoretic, o astfel de rețea ar trebui să existe, deoarece totul în lume este interconectat. Poate că într-o zi World Wide Web va deveni o astfel de rețea.

    Utilizarea rețelelor semantice

    Semantizarea- procesul de modificare a textelor în care relaţiile semantice sunt evidenţiate fără modificarea conţinutului acestora. Wikipedia are proiecte privind semantizarea articolelor și Arborele de categorii.

    § Semantizarea articolelor constă în principal în utilizarea șabloanelor, unele categorii fiind create automat.

    § Semantizarea arborelui de categorii este posibilă în părți după analiza sa și identificarea zonelor cu categorii generice

    Web semantic

    Conceptul de organizare hipertext amintește de binar omogen rețea semantică, dar există o diferență semnificativă:

    1. Conexiunea realizată printr-un hyperlink nu are semantică, adică. nu descrie sensul acestei conexiuni. Scopul rețelei semantice este de a descrie relatii obiecte, mai degrabă decât informații suplimentare despre domeniul subiectului. O persoană își poate da seama de ce este nevoie de acest sau acel hyperlink, dar un computer nu înțelege această conexiune.

    2. Paginile legate prin hyperlinkuri sunt documente, care, de regulă, descriu situația problematică în ansamblu. Într-o rețea semantică, vârfurile (ce relații se leagă) reprezintă concepte sau obiecte din lumea reală.

    A fost numită încercarea de a crea o rețea semantică bazată pe World Wide Web web semantic. Acest concept folosește RDF (limbaj de marcare bazat pe XML) și este conceput pentru a oferi link-urilor un sens pe care sistemele computerizate îl pot înțelege. Acest lucru va transforma Internetul într-o bază de cunoștințe distribuită la scară globală.

    ACADEMIA TEHNOLOGICĂ DE STAT KOVROV

    Informații și referințe analitice despre informatică

    pe tema: „Motoare de căutare moderne, tendințe de dezvoltare ale unuia dintre liderii de piață Yandex.”

    Completat de: student anul I

    3 grupe academice

    Makarov Ivan

    Introducere. 3

    Partea principală. 4

    Concluzie. 11

    Introducere.

    Yandex este o companie IT rusă care deține sistemul de căutare pe internet cu același nume și un portal de internet. Motorul de căutare Yandex este al optulea cel mai mare site de căutare din lume în ceea ce privește numărul de interogări de căutare procesate (1,290 miliarde, statistici pentru august 2009) și al doilea cel mai mare motor de căutare non-englez după chinezul Baidu.

    Site-ul companiei a fost deschis pe 23 septembrie 1997. 2000 este anul înființării companiei Yandex. Fondatorul Yandex este CompTek (compania care a dezvoltat motorul de căutare Yandex și i-a oferit sprijinul). Compania a ajuns la autosuficiență în 2002, cifra de afaceri pentru 2006 a fost de 72,6 milioane de dolari, profitul net - 29,9 milioane, pentru 2005 - 35,6 milioane de dolari, profitul net - 13,6 milioane de dolari.

    Direcția principală și prioritară a companiei este dezvoltarea unui motor de căutare, dar de-a lungul anilor, Yandex a devenit un multi-portal. În 2009, Yandex a inclus peste 30 de servicii. Cele mai populare sunt: ​​Yandex.News, Yandex.Photos, Yandex.Toys și altele.

    Sediul principal al companiei este situat în Moscova. Compania are birouri în Sankt Petersburg, Ekaterinburg, Odesa, Simferopol și Kiev. La mijlocul lunii iunie 2008, compania a anunțat deschiderea Yandex Labs, un birou în SUA, California.

    Partea principală.

    Istoria înființării companiei.

    Motorul de căutare Yandex.Ru a fost anunțat oficial pe 23 septembrie 1997 la expoziția Softool. Principalele caracteristici distinctive ale Yandex.Ru la acea vreme erau verificarea unicității documentelor (cu excepția copiilor în diferite codificări), precum și proprietățile cheie ale motorului de căutare Yandex, și anume: luarea în considerare a morfologiei limbii ruse (inclusiv căutarea după forma exactă a cuvântului), căutarea luând în considerare distanțe (inclusiv în cadrul unui paragraf, fraza exactă) și un algoritm atent dezvoltat pentru evaluarea relevanței (respectarea răspunsului la interogare), luând în considerare nu numai numărul de interogări cuvintele găsite în text, dar și „contrastul” cuvântului (frecvența lui relativă pentru un document dat), distanța dintre cuvinte și poziția cuvântului în document.

    Puțin mai târziu, în secțiunea „Basme” (observații despre conținutul internetului rusesc), a apărut primul basm Runet - „Web - umanism sau chernukha?” Și în secțiunea „Numere” - prima estimare a volumului Runetului, 5 mii de servere și 4 GB de texte.

    Două luni mai târziu, în noiembrie 1997, a fost implementată interogarea în limbaj natural. De acum înainte, puteți pur și simplu să accesați Yandex.Ru „în rusă”, să adresați întrebări lungi, de exemplu: „de unde să cumpărați un computer”, „produse modificate genetic” sau „coduri telefonice internaționale” și să primiți răspunsuri precise. Lungimea medie a unei interogări în Yandex.Ru este acum de 2,7 cuvinte. În 1997, era de 1,2 cuvinte, apoi utilizatorii motoarelor de căutare s-au obișnuit cu stilul telegraf.

    În 1998, Yandex.Ru a introdus capacitatea de a „găsi un document similar”, o listă de servere găsite, de a căuta într-un interval de date specificat și de a sorta rezultatele căutării după ultima oră de modificare. În acest an, „volumul” internetului rusesc s-a dublat, ceea ce a condus la necesitatea de a optimiza motoarele de căutare. Atât atunci, cât și acum (cu un volum de 200 GB), viteza de căutare pe Yandex.Ru este o fracțiune de secundă.

    Pe parcursul anului 1999, Runet a crescut cu un ordin de mărime, atât în ​​volumul de texte, cât și în numărul de utilizatori. Acesta a fost un an de dezvoltare rapidă pentru Yandex.Ru. Noul robot de căutare a făcut posibilă optimizarea și accelerarea accesării cu crawlere a site-urilor Runet. Astăzi, baza de căutare a Yandex.Ru este de două ori mai mare decât cea a concurenților săi cei mai apropiați.

    Noul robot a făcut posibilă oferirea utilizatorilor noi oportunități - căutare în diferite zone de text (titluri, linkuri, adnotări, adrese, subtitrări pentru imagini), limitând căutarea la un grup de site-uri, căutarea după linkuri și imagini și, de asemenea, evidenţierea documentelor în limba rusă. A apărut o căutare pe categorii de catalog și pentru prima dată în Runet a fost introdus conceptul de „index de citare” - numărul de resurse care fac referire la una dată.

    Pe parcursul anului s-au continuat lucrările privind analiza cantitativă și calitativă a Runetului. A fost deschis indicele NINI (indicele „Inconstanța intereselor populației de internet”), care arată dinamica schimbărilor în interesele utilizatorilor de internet. S-a deschis Forumul de căutare și un nou serviciu - solicitați abonament, adică puteți lăsa solicitarea pe Yandex.Ru și puteți primi periodic informații prin e-mail despre apariția documentelor noi și/sau modificate care corespund acestei solicitări. Până la începutul anului școlar, „Familia Yandex” a fost deschisă, eliminând rezultatele căutării din obscenități și pornografie.

    Originea cuvântului "Yandex".

    Astăzi, „Yandex” este un cuvânt din viața de zi cu zi a unui utilizator de internet. Pe internet vezi adesea „Ce, Yandex a fost deja anulat?”, „Singurătatea este atunci când Yandex este primul care te felicită de ziua ta”, „Toate întrebările către Yandex”. Mulți oameni cred deja că așa a fost întotdeauna. Într-un fel, acest lucru este adevărat - Yandex a apărut într-adevăr simultan cu internetul în masă, când accesul la rețea a încetat să fie lotul specialiștilor tehnici selecționați. Dar cuvântul „Yandex” în sine este artificial, are proprii săi autori și propria sa istorie.

    În 1993, Arkady Volozh, viitorul director general al viitoarei companii Yandex, și Ilya Segalovich, viitorul director de tehnologie al companiei, au dezvoltat, după cum s-a dovedit mai târziu, principala tehnologie - căutarea informațiilor nestructurate ținând cont de rusă. limbă.

    Dezvoltarea trebuia să se numească ceva. Ilya își amintește cum a scris într-o coloană diferite derivate ale cuvintelor care descriau sensul tehnologiei. Destul de repede a devenit clar că căutarea („căutare”) în rusă sună prea disonantă și nu poți face o combinație de succes pe baza ei. Cuvântul index era mai potrivit. Deci yandex a apărut în lista de nume - încă un indexator („un alt indexator” sau index de limbă). Atât Ilya, cât și Arkady le-a plăcut opțiunea - ușor de pronunțat, ușor de scris. În plus, Arkady a sugerat ca litera „I” din nume - în special rusă - ar trebui lăsată în limba rusă pentru claritate. Așa a fost inventat cuvântul „Yandex”. Și fișierul de program, în consecință, a fost numit yandex.exe.

    În 1996, când pentru prima dată căutarea a fost oferită publicului larg ca tehnologie, și nu ca parte a unui produs de conținut (înainte de a exista Clasificarea Internațională a Invențiilor și Bible Computer Reference), linia de programe a fost numită Yandex și acest nume a fost explicat ca Language iNDEX. Primele programe din linie au fost Yandex.Site (căutați pe unul dintre propriile site-uri - acest produs se numește acum Yandex.Server) și Yandex.Dict (un prefix morfologic pentru AltaVista, singurul motor de căutare care în acel moment putea să funcționeze cumva). cu alfabetul chirilic) .

    Dar, desigur, cuvântul „Yandex” a devenit larg răspândit în septembrie 1997, după lansarea motorului de căutare www.yandex.ru. De atunci, utilizatorii sistemului ne oferă interpretările lor. De exemplu, Tyoma Lebedev, pregătindu-se să deseneze prima versiune a paginii principale a site-ului Yandex, a spus: „Oh, mi-am dat seama că dacă primul „eu” din indexul de cuvinte este tradus în rusă, va fi „eu” , adică se va dovedi a fi „Yandex”.” Autorii au recunoscut sincer că nu s-au gândit la asta, dar este o interpretare bună și este acceptată. Apoi cineva de pe Internet a sugerat o altă opțiune, după ce a văzut două părți ale Internetului, INDEX și YANDEX. Acest cuvânt a dobândit deja derivate, de exemplu, angajații Yandex sunt adesea numiți „Yandexoids” și mai rar „oameni Yandex”.

    Căutați „Yandex”.

    Căutarea Yandex vă permite să căutați pe Runet, Uanet și Kaznet (din 14 octombrie 2009) documente în rusă, ucraineană, belarusă, română, engleză, germană și franceză, ținând cont de morfologia limbilor rusă și engleză. și proximitatea cuvintelor dintr-o propoziție. De la începutul anului 2006, căutarea Yandex a fost instalată pe portalul Mail.ru.

    Pe lângă paginile web în format HTML, Yandex indexează documentele în PDF (Adobe Acrobat), Rich Text Format (RTF), formate binare Microsoft Word, Microsoft Excel, Microsoft PowerPoint, SWF (Macromedia Flash), RSS (bloguri și forumuri).

    O caracteristică distinctivă a Yandex este capacitatea de a regla fin interogarea de căutare. Acest lucru se realizează printr-un limbaj de interogare flexibil. Deci, de exemplu, pentru o operație de excludere puteți specifica domeniul de aplicare: interogarea A ~~ B va găsi documente (pagini) în care A este prezent, dar B nu este prezent, iar interogarea A ~ B va găsi documente în care cuvântul B nu este prezent cu cuvântul A într-o propoziție. În mod similar, operatorul & caută combinații de cuvinte cheie într-o propoziție, în timp ce operatorul && caută întregul document.

    Operator! vă permite să dezactivați morfologia pentru un anumit cuvânt, eh!! vă permite să specificați forma normală, ceea ce evită unele probleme asociate cu omonimia. De exemplu, interogarea!!Ivanov va găsi Ivanov și Ivanovs, dar nu Ivan.

    În mod implicit, Yandex afișează 10 link-uri pe fiecare pagină de rezultate în setările rezultatelor căutării, puteți crește dimensiunea paginii la 20, 30 sau 50 de documente găsite. Uneori, ordinea site-urilor de pe aceste pagini poate diferi, deoarece bazele de date pentru aceste rezultate nu sunt actualizate în același timp.

    Dacă o interogare găsește o mulțime de link-uri, pagina de rezultate oferă limitarea intervalului de căutare - după regiune (adică după intervalul IP) sau după dată. Dacă nu se găsește nimic pentru un cuvânt sau cuvinte, se propune înlocuirea lui/le cu altele similare (întrucât opțiunile propuse depind de frecvența de a găsi cuvinte similare, uneori apar situații amuzante). De asemenea, se propune corectarea cuvintelor tastate cu tastatura greșită.

    Din când în când, algoritmii Yandex responsabili de relevanța rezultatelor căutării se modifică, ceea ce duce la modificări ale rezultatelor interogărilor de căutare. Ultimele modificări anunțate oficial au avut loc în martie 2004, aprilie 2005 și ianuarie 2007; conform informațiilor neoficiale, sunt mult mai multe (de exemplu, ultima din august-septembrie 2007).

    În special, aceste modificări sunt îndreptate împotriva spam-ului de căutare, ceea ce duce la rezultate irelevante pentru unele interogări (mai rar, pentru familii întregi de interogări). Moderarea semi-automată și manuală a rezultatelor căutării (folosind așa-numitele „optimizatoare de pălărie albă”), precum și refuzul direct de a indexa site-urile „răuțioase”, sunt folosite împotriva spam-ului de căutare care nu este eliminat automat.

    Proprietari, management și indicatori de performanță.

    Peste 30% din companie, conform datelor proprii, aparține fondurilor de investiții ru-Net Holdings și Baring Vostok Capital Partners, 15% fondului Tiger Technologies, aproximativ 30% fondatorilor companiei și 20% managerilor și managerilor. alți acționari minoritari.

    La mijlocul lunii septembrie 2009, a devenit cunoscut faptul că compania-mamă a Yandex, compania olandeză Yandex N.V., a emis o acțiune prioritară, care a fost transferată către Sberbank pentru un euro simbolic. Singurul drept pe care îl acordă acțiunea este de a se opune vânzării a peste 25% din acțiunile companiei.

    Management: Rkady Volozh - director general, Ilya Segalovich - director tehnic, Elena Kolmanovskaya - redactor-șef, Alexey Tretyakov - director comercial, Svetlana Kondrashova - director de publicitate.

    Toate serviciile Yandex.

    Preluare informatii:

    Caută și ya.ru

    Director - director de site-uri web sortate după index de citare. Este completat manual de editorii de catalog și există posibilitatea de înregistrare plătită.

    Știri - Cele mai importante articole ale zilei, provenite de la principalele instituții media găsite pe Internet. Este posibil să căutați după știri, precum și să vă abonați la știri pentru o anumită interogare de căutare.

    Yandex.XML - folosind acest serviciu puteți face interogări de căutare automate către Yandex în format xml.

    Căutați bloguri și forumuri - căutați prin resurse care au un flux RSS, precum și evaluări ale interogărilor curente, categorii populare și știri.

    Piata - cautare oferte de vanzare de bunuri si servicii, selectie de modele.

    Căutarea „meditativă” este singurul serviciu de căutare din lume care are un buton „Găsiți”, dar fără bară de căutare.

    Dicționare - enciclopedii, cărți de referință, dicționare-traducători.

    Imagini - căutare imagini.

    Video - căutare video.

    Hărți - hărți ale Europei și Rusiei, hărți ale marilor orașe ale Federației Ruse (exacte la casă), căutare pe hartă, precum și capacitatea de a „rătăci” pe străzile unor orașe [sursă?]

    Adrese - căutați informații de contact după numele companiilor și organizațiilor.

    Poster - informații despre evenimentele disponibile: cinema, teatru, concerte, sport, cluburi etc.

    Vremea - prognoza meteo.

    Program TV - programe de la canale TV centrale, regionale și prin satelit.

    Orare - orare trenuri și avioane.

    Personalizat:

    Yandex.Video - găzduire video și căutare video.

    Mail - email.

    Ya.ru este un serviciu de blogging.

    Yandex.Photos - gazduire foto.

    Apărare împotriva spamului - filtrarea spamului.

    Oameni - găzduire gratuită pentru pagini personale de Internet, precum și un serviciu de stocare a fișierelor.

    Yandex.Money este un sistem de plată care vă permite să plătiți pentru bunuri și servicii pe internet.

    Bookmarks este un sistem de stocare a marcajelor integrat cu Yandex. Bar."

    Abonamente - abonament la știri.

    Lenta - cititor RSS online

    Yandex.Direct este un sistem de plasare a reclamelor contextuale cu plata prin clicuri.

    Cup - competiții obișnuite de căutare pe Internet.

    Orașe - indexuri de internet ale orașelor rusești.

    Tarif - căutare după tarifele furnizorilor de internet.

    Cărți poștale

    Primăvara - generarea automată de eseuri filosofice.

    Internet - măsoară viteza conexiunii la Internet.

    Mirror - Oglindă a principalelor distribuții de sistem de operare Linux, precum și FreeBSD și alte proiecte.

    Yandex. Rețea locală - oferă posibilitatea de a utiliza toate serviciile Yandex nu la nivel federal, ci la tariful local.

    Metrics - vă permite să măsurați traficul, să analizați comportamentul utilizatorilor și să evaluați eficacitatea campaniilor de publicitate.

    Produse software:

    Filtru de spam Apărare împotriva spamului pentru uz corporativ (plătit).

    Un program pentru căutarea fișierelor Yandex Desktop Search pe un computer.

    Ya.Online program de mesagerie instantanee bazat pe Jabber. Vă permite să primiți și notificări despre noile e-mailuri de la Yandex. E-mail despre evenimente noi de pe site-urile Odnoklassniki.ru și VKontakte.

    Programul Punto Switcher este un comutator automat de layout.

    Widgeturi pentru sistemele de operare Mac OS X și Windows Vista, precum și pentru browserul Opera: Căutare, Trafic, Ceas, Știri.

    Yandex ICQ este o versiune specială a clientului ICQ cu simboluri și integrarea unor servicii de la Yandex.

    Fapte interesante.

    1) Lungimea medie a unei cereri în Yandex.Ru este acum de 2,7 cuvinte. În 1997, era de 1,2 cuvinte, apoi utilizatorii motoarelor de căutare s-au obișnuit cu stilul telegraf.

    2) Yandex a apărut înaintea www.yandex.ru. Cuvântul Yandex a fost inventat în 1993 și a fost pronunțat public în 1996 și atunci nu a însemnat o companie sau un motor de căutare, ci o tehnologie de căutare pe propriul server și un prefix morfologic al motorului de căutare Altavista.com.

    3) www.yandex.ru a fost lansat pentru a demonstra capabilitățile tehnologiei Yandex, nimeni nu s-a gândit să câștige bani din publicitate.

    4) Sloganul „Totul poate fi găsit” a fost inventat în 2000. În același an, Yandex a lansat prima reclamă pentru un site de internet la televiziunea rusă.

    5) Potrivit Yandex însuși, aproximativ 80% din audiența sa este din Rusia, aproximativ 3% din Europa și puțin peste 1% din SUA.

    6) Unii dintre angajații de asistență tehnică Yandex operează sub pseudonimul colectiv „Platon Shchukin”.

    Concluzie.

    Deci, acum avem informații complete despre Yandex. Știm cine îl conduce, cum funcționează din interior, care este istoria dezvoltării companiei și multe altele. Acum putem înțelege cu ușurință de ce Yandex este lider pe piețele rusești și globale. Cred că principalul motiv pentru succesul Yandex este că motorul de căutare face față bine complexității limbii ruse. Acesta este motivul pentru care motoarele de căutare care au fost dezvoltate pentru limba engleză nu pot indexa și clasifica și documentele în limba rusă. Al doilea avantaj pe care îl văd este sloganurile creative, prietenoase și vesele cu care Yandex atrage utilizatorii să folosească serviciile sale Imaginile tematice pe care Yandex le plasează lângă linia de căutare sunt mult mai accesibile utilizatorului rus.

    Lideri, tendinţă Creșterea numărului de propuneri va continua. Cei prezenti azi piaţă plata electronica sisteme... Mai mult unul eveniment de referință: Paycash a încheiat un acord cu cel mai mare motor de căutare sistem ...

  • Districtul Federal Volga: modern starea si perspectivele dezvoltare(folosind exemplul Republicii Tatarstan)

    Lucrări de curs >> Economie

    ... tendinte mai departe dezvoltare. ... lider. ... dezvoltare unul din cel mai important... complex motor de căutare si acrobatica... piaţă. Dezvoltare ... modern tehnologii, echipamente de înaltă performanță, modern...supertoxicante; - dezvoltare sisteme monitorizarea terenului...

  • Modern probleme sociologice ale culturii fizice şi sportului

    Rezumat >> Sociologie

    Pentru a populariza politica lideri, partide, ... subiect-obiect agregat sistem socio-pedagogice... creative motor de căutare activitati... piaţă si statul. Piaţă ... Tendințe dezvoltare modern Mișcarea olimpică Rusia este unul din ...

  • Tendințe dezvoltare industria petrolului în economia globală

    Rezumat >> Economie

    Lume piaţă ulei: tendinte dezvoltareși... deja efectuate căutare-lucrari de explorare, ... Evaluare preliminara. Liderîn consumul mondial... este unul din elemente esentiale modern economic mondial... economic global sistem, in timpul...

  • Pentru a căuta în index, utilizatorul trebuie să formuleze o interogare și să o trimită motorului de căutare. Solicitarea poate fi foarte simplă, cel puțin ar trebui să fie compusă dintr-un cuvânt. Pentru a crea o interogare mai complexă, trebuie să utilizați operatori booleeni care vă permit să rafinați și să extindeți termenii de căutare.

    Cei mai des utilizați operatori booleeni sunt:

    • AND - toate expresiile conectate de operatorul „ȘI” trebuie să fie prezente pe paginile sau documentele căutate. Unele motoare de căutare folosesc operatorul „+” în locul cuvântului ȘI.
    • SAU - cel puțin una dintre expresiile alăturate de operatorul „SAU” trebuie să fie prezentă în paginile sau documentele căutate.
    • NOT - expresia sau expresiile care urmează operatorului „NU” nu trebuie să apară pe paginile sau documentele căutate. Unele motoare de căutare folosesc operatorul „-” în loc de cuvântul NU.
    • URMAT DE - una dintre expresii trebuie să o urmeze imediat pe cealaltă.
    • NEAR - una dintre expresii trebuie să fie la o distanță de cealaltă nu mai mare decât numărul specificat de cuvinte.
    • Ghilimele - cuvintele cuprinse între ghilimele sunt tratate ca o expresie care poate fi găsită în document sau fișier.

    Perspective pentru dezvoltarea motoarelor de căutare

    Căutarea specificată de operatorii booleeni este literală - mașina caută cuvinte sau expresii exact așa cum au fost introduse. Acest lucru poate cauza probleme atunci când cuvintele introduse sunt ambigue. De exemplu, cuvântul englezesc „Bed” poate însemna un pat, un pat de flori, un loc în care peștii depun icre și multe altele. Dacă utilizatorul este interesat doar de unul dintre aceste sensuri, nu are nevoie de pagini cu un cuvânt care are alte semnificații. Este posibil să construiți o interogare de căutare literală menită să elimine valorile nedorite, dar ar fi bine dacă motorul de căutare însuși ar putea oferi asistență adecvată.

    Una dintre opțiunile pentru modul în care funcționează un motor de căutare este căutarea conceptuală. O parte a acestei căutări implică utilizarea analizei statistice a paginilor care conțin cuvinte sau expresii introduse de un utilizator pentru a găsi alte pagini care ar putea fi de interes pentru acel utilizator. Este clar că căutarea conceptuală necesită stocarea mai multor informații despre fiecare pagină, iar fiecare interogare de căutare va necesita mai multe calcule. În prezent, multe echipe de dezvoltare lucrează la îmbunătățirea eficienței și performanței acestor tipuri de motoare de căutare. Alți cercetători s-au concentrat pe o zonă diferită numită interogări în limbaj natural.

    Ideea din spatele interogărilor în limbaj natural este ca utilizatorul să formuleze o interogare în același mod în care ar întreba persoana care stă lângă el, fără a fi nevoit să țină evidența operatorilor booleeni sau a structurilor complexe de interogare. Cel mai popular site modern de căutare în limbaj natural este AskJeeves.com, care analizează interogarea pentru a identifica cuvintele cheie care sunt apoi folosite pentru a căuta în indexul site-ului construit de motorul de căutare. Site-ul menționat funcționează doar cu interogări simple de căutare, dar dezvoltatorii, într-un mediu extrem de competitiv, dezvoltă un motor de căutare în limbaj natural care poate gestiona interogări foarte complexe.