LinkRank

LinkRanks è un nuovo servizio di PubSub che terrà traccia della popolarità dei siti web in base alla quantità e qualità dei link contenuti nei weblog. Maggiore è la “freschezza” dei link e la varietà dei link ad una data pagina, migliore sarà il linkrank di quella pagina.

Attualmente la pagina con il miglior linkrank è w3.org/, mentre il miglior weblog è Boing Boing al 19° posto.

Maggiori informazioni, comprese le formule matematiche usate per calcolare i LinkRanks.

[Via Boing Boing]

Google Suggest Javascript

Another Google-Day.

Adesso tocca al codice Javascript usato da Google Suggest. Usa un meccanismo simile a quello di GMail, ma in una pagina molto più semplice. Per nostra fortuna gli investigatori di Slashdot hanno già fatto buona parte del lavoro necessario per capirne il funzionamento:

Il sorgente della pagina è abbastanza semplice; la maggior parte del lavoro accade in una libreria JavaScript condensata. Non è facile da leggere (condensata significa nomi di funzioni e variabili di 1 o 2 caratteri, e tutti gli spazi estranei rimossi), ma in realtà non è troppo complessa.
Prima disabilita l’autocompletamento del browser (per ovvie ragioni). Poi definisce una <div> nascosta per i contenuti del menù a tendina dell’autocompletamento (varia a seconda dei browser … incompatibilità).
Ogni volta che si digita un carattere, il corpo della <div> viene popolato con i risultati di una veloce e minimale query mandata a Google.

Per esempio, se abbiamo digitato “slash”, quando viene rilasciato il tasto h, tramite XMLHttpRequest viene inviata una query all’indirizzo http://www.google.com/complete/search?hl=en&js=true&qu=slash (sostituite qualsiasi altro termine a “slash”, per sperimentare). La risposta che arriva da Gooogle è un semplice blocco di testo:
sendRPCDone(frameElement, "slash", new Array("slashdot", "slash", "slashdot.org", "slash dot", "slash fiction", "slashdot rss", "slash and burn", "slashdot.com", "slash fanfiction", "slashdotorg"), new Array("8,960,000 results", "2,770,000 results", "1 result", "389,000 results", "802,000 results", "2,540,000 results", "470,000 results", "1 result", "132,000 results", "966 results"), new Array(""));

Questo blocco di JavaScript viene eseguito per popolare la <div> con i nuovi contenuti del menu a tendina:
Google Suggest slash results
E’ possibile verificare la corrispondenza.

Google Suggest non esegue ogni volta una ricerca, ma con ogni probabilità va a pescare i risultati in un array associativo (non proprio: un trie) che contiene i risultati delle ricerche più popolari e dei numeri dei risultati. Questo spiegherebbe la straordinaria velocità di risposta (un solo lookup in un array associativo e poche decine di caratteri da trasferire ad ogni nuovo carattere inserito).

Continua lo ./er:

Cool. Concetto interessante, bella esecuzione. E una di quelle aggiunte che sono ovvie solo a posteriori.

Update: LiveSearch, per aggiungere l’autocompletamento alle ricerche del proprio sito, con codice Open Source e un pò di spiegazione. Sempre via ./.

L’abbecedario di Gooogle

Google Suggest, appena annunciato, già suscita un sacco di dibattito e fornisce dati molto interessanti.

Via Inside Google, un poster su /. ha compilato l’elenco dei suggerimenti che Google dà per ogni lettera dell’alfabeto:

A sta per Amazon
B sta per Best Buy
C sta per CNN
D sta per Dictionary
E sta per Ebay
F sta per Firefox (!!!)
G sta per Games
H sta per Hotmail
I sta per Ikea
J sta per Jokes
K sta per Kazaa
L sta per Lyrics
M sta per Mapquest
N sta per News
O sta per Online dictionary
P sta per Paris Hilton (???!)
Q sta per Quotes
R sta per Recipes
S sta per Spybot
T sta per Tara Reid
U sta per Ups
V sta per Verizon
W sta per Weather
X sta per Xbox
Y sta per Yahoo
Z sta per Zip Codes

Andando ad approfondire, scopriamo che questi risultati sono filtrati con SafeSearch, il piccolo autocensore di Google:

x : xbox
xx: xxl
xxx:
p: paris hilton
po: poems
por: porsche
porn:
s: spybot
se: sears
sex:

Per ora, “sesso” compare tra i suggerimenti, ma sono sicuro che quando Suggest sarà esteso a Google.it, l’errore sarà rettificato.

Update: questa pagina mostra l’alfabeto secondo Google aggiornato all’istante.

Yahoo Desktop Search – in arrivo

Yahoo! ha annunciato che a gennaio arriverà la risposta di Yahoo! a Google Desktop Search.

Yahoo! Desktop Search sarà basato sulla tecnologia sviluppata da X1, un altra delle start-up di Bill Gross di Idealab (che ha già venduto Overture a Yahoo!).

Il Financial Times si chiede come Google e Yahoo! pensano di guadagnare dal software di ricerca desktop, visto che viene dato via gratis. Penso che la risposta sia abbastanza semplice:

  • Fidelizzazione degli utenti
  • Possibilità di accrescere la rilevanza della pubblicità, aggiungendo valore sia per gli inserzionisti che per l’utente

YDS non è neanche il primo esempio di software “regalato” da parte di Yahoo! Anzi, c’è da chiedersi perchè Yahoo! Desktop Search non diventi una funzione aggiuntiva di Yahoo! Messenger.

Update: Una slide in cui Yahoo! vanta i modi in cui YDS è meglio di GDS:

  Yahoo Competizione
Pertinenza Possibilità di far pivotare i dati su ogni dimensione:
"freschezza", creatore, destinatario, tipo, ecc.
Ranking solo per data e pertinenza
Completezza Capacità di indicizzare oltre 225 tipi di dati, e allegati email 5 tipi di dati, allegati non indicizzati
Freschezza V1.0 Beta: Incrementale, ad intervalli prestabiliti
V1.0: quasi in tempo reale
Quasi in tempo reale
Presentazione Interfaccia utente nativa
Cerca-mentre-scrivi, anteprima, azioni post-ricerca
Limitata alla presentazione HTML

Si spera che l’interfaccia nativa di YDS non sia un ostacolo alla diffusione di altre piattaforme oltre a Windows (cui X1 è limitata).

Google e gif animate

I clienti di Google non sono le persone che fanno ricerche: sono le aziende che comprano la pubblicità. E il cliente ha sempre ragione.

Quindi, in via sperimentale, Google AdSense permetterà agli inserzionisti di mettere immagini animate nelle pubblicità.

Come osserva John Battelle, questo non ha nulla a che fare con il punto di forza di Google (rilevanza della pubblicità rispetto ai contenuti della pagina), riguarda semplicemente il conquistare l’attenzione del lettore.

Le immagini animate dovrebbero essere limitate alla pubblicità gestita da Google per altri siti, e non comparire nelle pagine del motore di ricerca. Per ora. Ma lo scivoloso sentiero verso il basso è cominciato.

L’abbaglio di Google News: Bush arrestato

Google News risulta sempre meno utile: ieri sono stati illustrati i rischi di usare un algoritmo per selezionare le notizie. Ad un certo punto la storia più in evidenza su Google News (edizione Americana) proveniva da Axis of Logic, un sito di sinistra, ed era un articolo satirico titolato “Bush arrestato dalle autorità canadesi per crimini di guerra” (screenshot).

Ci si può immaginare un certo imbarazzo nel Googleplex.

[Via John Battelle]

Snap, il futuro della trasparenza finanziaria

Ammirevole la trasparenza che dimostra Snap, un nuovo motore di ricerca fondato da Bill Gross di Idealab. Molti dati sono mostrati sulla home page e approfonditi alla pagina delle statistiche:

  • La Top 10 di ricerche su Prodotti, Persone (celebrità) e Musica;
  • Il numero totale di ricerche effettuate dalla nascita del motore di ricerca e il numero di ricerche quotidiane;
  • Il numero di visitatori, di pagine viste e di inserzionisti;
  • Il numero di click sulle pubblicità e la media di entrate per click;
  • I dati finanziari, comprese le entrate giornaliere di Snap (55$ a fine Novembre: la società è giovane!!).

Complimenti a Bill Gross per il coraggio. Il suo commento in una intervista su Silicon Beat:

Mi spaventa un pò rendere pubblici quei dati. Allo stesso tempo è anche liberatorio. Penso che avrà buoni effetti nel lungo termine. Penso che sarà un trend. Sotto tutti i punti di vista, è meglio essere aperti [open].

Google Desktop, talmente bravo che …

Bruce Scheneier ha un altra prospettiva sui potenziali problemi di privacy che Google Desktop Search può causare: Google Desktop svolge bene il suo lavoro di ricerca, talmente bene che mette in evidenza i difetti di altre applicazioni.

Il fatto che Google Desktop trovi password salvate, codici per l’home banking e il testo in chiaro di file che dovrebbero essere criptati è una cosa negativa, ma è causata da errata progettazione dei browser e dei programmi per criptare le comunicazioni.

Se il browser lascia nella cache copie in chiaro delle pagine criptate provenienti da connessioni SSL (tipo home banking e webmail), la falla è nel browser, non in GDS: le copie in chiaro del materiale confidenziale non dovrebbero mai essere lasciate in memorie persistenti, quindi non dovrebbero essere presenti nella cache, non dovrebbero essere salvati in file temporanei. Allo stesso modo, le password “importanti” non dovrebbero mai essere memorizzate nel browser. Se anche GDS venisse modificato per evitare di includere queste informazioni nei risultati di ricerca, le informazioni sarebbero comunque presenti nel sistema, pronte per essere trovate da un altro programma, magari creato apposta per questo scopo.

Video: nuova frontiera della ricerca

Lungo articolo di News.com sui progetti segreti di Google, Yahoo e Microsoft nel campo della ricerca video.

L’anno prossimo Google dovrebbe lanciare un motore di ricerca video simile a Google Images, che permetta di ricercare all’interno dei materiali video presenti su Internet. Oltre a questo, sta trattando con i maggiori fornitori di contenuti video per avere accesso ai loro archivi, ed offrire un servizio per il video simile a Google Print, che permette di effettuare ricerche nei testi dei libri. Per costruire l’archivio necessario, pare che Google stia registrando una gran quantità di show televisivi, compresi i sottotitoli, in maniera da poter associare concetti e parole chiave agli spezzoni di video. I risultati di ricerca verrebbero mostrati associati a immagini provenienti dal video e con spezzoni dei testi.

Il futuro servizio di ricerca video Microsoft, invece, dovrebbe essere accessibile solo da PC con Windows Media Center o dalle piattaforme Internet TV di Microsoft. Salvo riservarsi il diritto di fare dietro-front, e aprire il servizio al pubblico, se Windows Media Center non avrà diffusione universale e i servizi di Google e Yahoo! diventeranno troppo popolari.

Il motore di ricerca di materiali multimediali di Yahoo! dovrebbe essere disponibile nel primo trimestre 2005, e indicizzare materiale video già presente su Internet, al contrario dei servizi di Google e Microsoft che puntano ad indicizzare anche una gran quantità di materiale non ancora su Internet (o almeno, non ancora legalmente…).

Il problema maggiore per tutti è la negoziazione dei diritti per la riutilizzazione dei materiali video.

Go Fish: motore di ricerca musicale

Go Fish logoGo Fish è un motore di ricerca musicale. Il lancio ufficiale sarà lunedì 29, ma è già “live”.

Go Fish cerca all’interno dei cataloghi dei principali negozi online di musica. I risultati di ricerca comprendono link per l’acquisto diretto di album, brani e suonerie, con link diretti per l’ascolto di campioni (quando disponibili).

Il modello di business è doppio: commissioni sugli acquisti effettuati da clienti provenienti da Go Fish e royalty per l’uso della tecnologia in altri motori di ricerca. Il primo di questi è Zen Kicker, che integra i risultati di Google con quelli di Go Fish.

Qualcuno dovrebbe integrare i risultati di Go Fish con la fantastica modalità di visualizzazione di Music Plasma.

[via John Battelle]

Blog Attacks redux

Poche settimane fa si discuteva di Blog Attacks e della pericolosità che possono avere gli attacchi personali che partono da un blog popolare, vista l’alta rilevanza che i motori di ricerca danno ai blog.

Ora qualcuno ha deciso di mettere in pratica quello che Tim Bray aveva solo paventato: un blogger ha cominciato ad attaccare personalmente in maniera pesante Russell Beattie, persona che può non piacere o con cui si può non andare d’accordo, ma che non merita di vedersi versato addosso tanto veleno in pubblico.

Il problema (grosso) è che il sito del blogger attaccante è indicizzato anche da Google News. Russell Beattie ha fatto un appello pubblico perchè il weblog venga escluso dall’indice di Google News, esponendo la sua versione dei fatti.

Google Scholar

Arrivo tardi a Google Scholar, il motore di ricerca accademico di Google [via Pandemia].

ResourceShelf sembra avere la critica più articolata a Google Scholar.

Alcuni dati su Google Scholar:

  • Pesca quelli che pensa siano materiali accademici/scientifici dalla rete. L’algoritmo usato per determinare quale materiale debba essere incluso non è identificato
  • Nei risultati di ricerca, per ogni articolo c’è un un link con l’elenco degli articoli dove è stato citato.
  • Non si conosce la lista completa degli editori di pubblicazioni scientifiche che hanno collaborato con Google per rendere disponibili i loro materiali.
  • Non tutti gli articoli indicizzati saranno accessibili gratuitamente. In alcuni casi sarà necessario essere abbonati alla fonte da cui proviene l’articolo.
  • Sarà interessante vedere l’impatto di Google Scholar sui costi proibitivi di molte pubblicazioni scientifiche e sui tentativi di mettere in piedi riviste accademiche alternative a quelle gestite dai giganti del publishing scientifico, che abbiano costi minori e permettano agli autori di mantenere il copyright sugli articoli che pubblicano.

Exabot e Exalead

Guardando i log del server ho trovato le tracce lasciate da un nuovo spider: Exabot. Mi è piaciuto subito, perchè al contrario degli altri mette nel campo referer la url da cui proviene.

Cercando informazioni su Exabot, ho scoperto che è lo spider di Exalead, un motore di ricerca in beta, con funzioni di categorizzazione dei risultati (anche geografica), suggerimenti di termini e categorie correlate, screenshot dei siti e, per ogni sito, è possibile visualizzare in un frame delle pagine contenenti i termini di ricerca senza lasciare la pagina di ricerca.

Interessante e da tenere sott’occhio.