Tražilice će znati što želite… prije

Sergey Brin and Larry Page: The genesis of Google (Srpanj 2019).

Anonim

Ako unesete "Oklahoma" u tražilicu, možda ćete dobiti putopis, vijesti o naftnoj industriji, Oklahoma State nogometnim rezultatima ili članak o mjuziklima Rodgers i Hammerstein. Ono što se pojavljuje na vrhu popisa može - i treba - ovisiti o onome što ste zapravo tražili.

Web tražilice, web stranice društvenih medija i trgovaca koji vam nude preporuke ponekad "personaliziraju" rang rezultate gledanjem vaše povijesti pretraživanja.

"Ako večeras kupite nešto od Amazona, kada se vratite sutra, mogu vam pokazati povezane proizvode", objasnio je Wenlei Xie, diplomirani student na području računalne znanosti. "Izračunali su online rezultate rangiranja na temelju vašeg izbora."

Ali sada, Xie i njegovi kolege pročistili su algoritam (temeljni dizajn računalnog programa) kako bi ga brže, tako da tražilice mogu postati interaktivne, odgovarajući na vaše interese u stvarnom vremenu. Nova metoda je, kažu, "razbijanje desetljeća stare izvedbene barijere". Tehnike se mogu primijeniti u društvenim medijima i privatnim i komercijalnim bazama podataka, kao i na web pretraživačkim i preporučenim sustavima.

Xie je prvi autor novine koji opisuje inovaciju predstavljenu na 21. ACM SIGKDD konferenciji o otkrivanju znanja i podatkovnom rudarstvu, prošlog ljeta u Sydneyu, Australija, gdje je dobila nagradu za najbolju studentsku papir. Surađivao je s Johannesom Gehrkom, profesorom računalnih znanosti Sveučilišta Tisch; David Bindel, docent računalnih znanosti; i glavni istraživač Alan Demers.

Vaša povijest pretraživanja može se vizualizirati kao "grafikon". U računalnoj znanosti to nije čudno crta koja pokazuje kako je dobit vaše tvrtke pada, već neka vrsta konceptne mape u kojoj mali krugovi nazvanih "čvorovi" predstavljaju informacije, povezane linijama nazvanim "rubovi" koji predstavljaju odnose, (Računalo ne koristi slike, nego samo pohranjuje podatke i veze između njih. Ljudi privlače grafikon kako bi pomogli razmišljanju o tome.)

Da biste ispitali svoju povijest, računalo će napraviti "slučajnu šetnju" kroz grafikon dok ne pročita sve informacije. Za vođenje šetnice, čvorovi i rubovi mogu biti "ponderirani". Čvorovi mogu zabilježiti koliko puta ste posjetili tu web stranicu ili pogledali taj proizvod. Rubovi mogu pokazati važnost odnosa. U društvenim medijima, primjerice, "supružnik" je jači odnos nego "suradnik".

S algoritmom "čvorom ponderiranom", hodalica koja slijeva na čvorove s niskim ocjenama mogla bi slučajno "teleportirati" drugima, završavajući informacije o najzanimljivijim čvorovima. No, "rubna težina" bolje funkcionira, kažu znanstvenici Cornell.

Na Twitteru ističu, poredak koliko dvije osobe imaju zajedničke interese daje bolje rezultate nego samo gledati teme na kojima svaki korisnik tweete.

Već postoje algoritmi rangiranja koji koriste rubne težine, ali su spori. Kako bi ga ubrzali, istraživači "smanjili" grafikon i prošetali brže - neka vrsta gleda na kartu Sjedinjenih Država koja prikazuje samo međudržavne autoceste, ne sve županijske ceste i gradske ulice.

Algoritam traži čvorove koji su "korelirani" - koji predstavljaju slične interese i s jakim vezama između njih. Učenik srednje škole koji je provjeravao fakultete mogao bi posjetiti mnoge sveučilišne web stranice; one se mogu kombinirati u jedan veliki i vrlo važan čvor u pojednostavljenom grafikonu. "Kao da možemo srušiti milijune čvorova u stotinu virtualnih čvorova", objasnio je Xie.

Istraživači su testirali svoju metodu na bazi podataka znanstvenih publikacija i sustava za pretraživanje blogova i utvrdili da je radilo pet redova veličine brže od trenutno korištenih metoda. Također su otkrili da je njihov reducirani model ubrzao "naučiti rangirati" sustave gdje računalo bilježi koje stavke na popisu korisnik klikne da bi dobio ideju o preferencama korisnika.

Način kako bi rezultati bili još više pravovremeni, naveli su istraživači, mogli bi napraviti izračune na strani klijenta nakon preuzimanja smanjenog modela na klijentsko računalo. Također bi željeli neprekidno ažurirati smanjeni model u trenutku kada dođu novi podaci.

menu
menu