Script bash per calcolare il PageRank di una pagina Web


Tweet

Secondo i termini tecnici il PageRank è un algoritmo di analisi che assegna un valore numerico ad ogni collegamento che un motore di ricerca assegna a ciascuna pagina web.
Immaginiamo di essere in una biblioteca dalle dimensioni spropositate e che ogni libro presente corrisponda a un’indirizzo diverso.
Se il PageRank operasse in questa situazione imaginaria  catalogherebbe ogni singolo libro in base all’attenzione che riceve dal lettore e a parità di argomento collocherebbe il più letto in una posizione maggiormente visibile e raggiungibile dall’utente.
Detta così fa abbastanza ridere ma questo è il concetto di PageRank espresso in parole povere.
Ora non abbiamo a che fare con una biblioteca ma con il World Wide Web, i libri sono i collegamenti alle varie pagine Web e l’importanza di una pagina rispetto all’altra è data dall’attenzione che gli utenti gli pongono.

In questo articolo tratterremo quelli che sono i segreti per ottenere il miglior valore ma vi propongo un semplice script bash per calcolare in pochi secondi il valore di PageRank che Google assegna a ogni singola pagina.

Lo script, lanciato da console,calcolerà in pochi istanti il valore di PageRank della pagina in oggetto.

Innanzitutto occorre effettuare il download del file pagerank.c che potete scaricare cliccando QUI.

Per compilare il programma è necessario utilizzare gcc che dovrà necessariamente essere installato nel sistema in uso.

Aprire una console e digitare questo comando per verificare la presenza o meno di gcc:

rpm -qa|grep gcc

Nel mio caso è installato è l’output è il seguente:

gcc-c++-4.3-39.1

Nel caso non fosse installato provvedere a integrarlo nel proprio sistema.

Aprire una console e creare una directory nella quale sistemeremo il file precedentemente scaricato:

mkdir /home/`whoami`/Pagerank

Spostare il file "pagerank.c"  nella directory appena creata. Se il file risiede nel Desktop digitare:

mv /home/`whoami`/Desktop/pagerank.c /home/`whoami`/Pagerank

Entrare nella cartella creata (Pagerank):

cd /home/`whoami`/Pagerank

Compilare il binario:

sudo gcc -o pagerank pagerank.c

Per via grafica o tramite l’uso di un’editor testuale creare un file denominato prank.sh e copiare al suo interno quanto segue:

#!/bin/bash

#
# prank.sh - Find any URL's Google Page Rank (PR)
#
# 2008 - Mike Golvach - [email protected]
#
# Creative Commons Attribution-Noncommercial-Share Alike 3.0 United States License
#

if [ $# -ne 1 ]
then
 echo "Usage: $0 HttpOrHttpsURL\n"
 exit 1
fi
 
pr_checksum_prog="./pagerank"
 
if [ ! -x $pr_checksum_prog ]
then
 echo "Cannot Find Checksum Program: $pr_checksum_prog !"
 exit 2
fi
 
wget=/usr/bin/wget
prank_url=$1
mod_prank_url=`echo $prank_url|sed -e 's/:/%3A/g' -e 's/\//%2F/g'`
prank_checksum=`$pr_checksum_prog $prank_url|sed 's/Checksum=//'`
 
prank_qurl="http://toolbarqueries.google.com/search?client=navclient-auto&ch=${prank_checksum}&ie=UTF-8&oe=UTF-8&features=Rank&q=info:${mod_prank_url}"
 
echo -n "Google PR For $prank_url = "
 
$wget -nv -O - "$prank_qurl" 2>&1|grep "Rank_"|sed 's/Rank_[0-9]:[0-9]://'
exit 0

Salvare il file. (prank.sh deve essere necessariamente posizionato all’inerno della directory creata precedentemente /Pagerank).

Rendere eseguibile il file prank.sh digitando questo comando nella console:

chmod +x /home/`whoami`/Pagerank/prank.sh

La procedura di instalazione è terminata, non ci resta che azionare lo script utilizzando questa sintassi:

./prank.sh Indirizzo_Web

Lo script va mandato in eseguzione dalla directory in cui risiede.

Es:

./prank.sh www.google.it

L’output indica che Google assegna alla pagina un valore di PageRank uguale a 8.

Google PR For www.google.it = 8

L’articolo è ispirato e resta dunque la traduzione in linea di massima del documento che trovate a questo indirizzo.

 

Articoli Correlati

,

Segnala questo articolo: Queste icone linkano i siti di social bookmarking sui quali i lettori possono condividere e trovare nuove pagine web.
  • Facebook
  • del.icio.us
  • Digg
  • Reddit
  • StumbleUpon
  • Technorati
  • OKnotizie
  • Google Bookmarks
  • TwitThis
  • Upnews
  • Segnalo