[OT] Web Spider

Ciao... :smiley:
Avrei una questione assolutamente non collegata ad arduino che riguarda l'informatica ed internet.
Posso scrivere un OT in questa sezione? Od è meglio evitare?
Mi sono accorta che qui dentro ci sono molte persone parecchio esperte di informatica e reti in generale... con cui sarebbe interessante parlare. Non c'è però una sezione "cazzeggio" dove poter andare fuori dal seminato ed interagire cmq con queste persone.
Quindi preferisco chiedere prima ed avere, eventualmente, il permesso. Nel caso contrario chiudo il topic senza problemi :slight_smile:

Chiedi senza problemi.

Posso scrivere un OT in questa sezione? Od è meglio evitare?

anche perchè non ci sono altre sezioni, sono anni che devono farle!!! Si va alle votazioni e poi vengono cestinate..... un po' come il Ns. governo in piccolo :slight_smile:

ciao

Occhei... vado, non linciatemi però :slight_smile:

Per lavoro devo fare una lunghissima e noiosissima ricerca in rete.
Devo, in pratica, aprire google, inserire le mie parole chiave ed immergermi nel web sfogliando migliaia di pagine.
Memore della patente ECDL mi sono tornati in mente i web crawler / spider, ma non riesco a trovarne uno gratuito decente.
Qualcuno di voi esperti sa consigliarmi un web crawler/spider FREE che analizzi a partire da una ricerca google i risultati, con un ampio limite nella profondità dello scan, creando un report con i link delle pagine in cui sono presenti le mie parole chiave?

Per intenderci esiste una versione free di questo:
http://www.newprosoft.com/web-spider.htm ?
Sto provando il trial e mi sembra faccia esattamente quello che mi serve è però, ovviamente, limitato nell'utilizzo.

Che poi, volendo, un po in topic è... più tempo riesco a risparmiare da questo compito, più tempo posso dedicare all'arduino :stuck_out_tongue:
Scherzi a parte, scusate l'OT.

La domanda è stupida ma... perché non compri la versione completa? Se lo fai per lavoro, poi ricarichi la spesa sul cliente finale, o anche no tanto poi è uno strumento che comunque resta a tua disposizione... Ho detto una ca@@ata? :stuck_out_tongue:

PS:

Qui ho visto che c'è una lista di web crawlers opensource

leo72:
La domanda è stupida ma... perché non compri la versione completa? Se lo fai per lavoro, poi ricarichi la spesa sul cliente finale, o anche no tanto poi è uno strumento che comunque resta a tua disposizione... Ho detto una ca@@ata? :stuck_out_tongue:

Non hai detto una cazzata, sono parecchio tentata di passare all'acquisto anche perché l'idea di spendere intere giornate a fare ricerche in google mi demoralizza.
Il punto è che, all'interno del dottorato, non sempre tutti gli strumenti vengono passati dall'università.
C'è il compito da fare e sul come farlo a volte bisogna arrangiarsi :smiley:
Insomma i soldini li sborserei di tasca mia, non ci sono clienti da ricaricare :smiley:

leo72:
PS:
Web crawler - Wikipedia
Qui ho visto che c'è una lista di web crawlers opensource

Yes già tutti visionati, ma non mi sembra di aver trovato qualcosa di equivalente purtroppo.
Sto vagliando anche questa lista: Open Source Crawlers in Java e continuo a googlare...
e tra una googlata e l'altra mi son detta, sentiamo un po' gli esperti :slight_smile:

Parlavi di "lavoro", pensavo proprio inteso come attività.

Non è proprio chiara e diretta la cosa che vuoi ottenere, google fornisce già in base alle parole chiave dei link abbastanza selezionati, probabilmente tu vuoi che questi siti vengano aperti e letti automaticamente alla ricerca di un altra parte di parole chiave, ma spesso capita che alcune pagine portano a link che magari con google non troveresti mai e il programma non sarebbe in grado di intercettare. Comunque se servisse a me mi farei un bel codice in javascript magari prendendo parti in rete già fatti, non è poi così difficile.

ciao

non ho capito bene, se ti servono le statischiche su delle parole chiave google te lo fa (a gratis)

in oltre ormai sai come si fa una richiesta GET, e come se ne legge un risultato... fai le richieste GET a google/yahoo/quel che vuoi, aggiungo un pò di codice per estrarre ciò che cerchi et voilà, il tuo bellissimo crawler personalizzato (consiglio java, che col network e in particolare l'HTTP è una baggianata da imparare)

No lesto, non mi servono statistiche...
Mi serve un programma che esplori una pagina web, i suoi contenuti e tutti i suoi sottolink (interni ed esterni) e che mi scriva un report con gli indirizzi http delle pagine trovate che contengono le mie parole chiave.
Così poi io clicco su quei link e mi vado a leggere la pagina :slight_smile:
In pratica un crawler del tutto identico a quello che ho linkato qualche post sopra, che esplori qualche centinaio di pagine al secondo.
@pablos non mi serve esplori "l'hidden web" (pagine dinamiche ecc).
Quello che cerco io dovrebbe essere tutto in pagine statiche, pdf od al massimo .doc.
Programmarlo io... lasciamo perdere, ragazzi io sono piuttosto scarsa in programmazione :
Probabilmente ce la farei, ma ci impiegherei 4 mesi :smiley:
E la scadenza per questo lavoro è di 30-40 gg, del resto è solo la parte preliminare di un progetto di ricerca per il quale forse arriveranno dei finanziamenti.
Ora come ora l'alternativa è comprarmi quel programmino da 50 dollari, cosa che probabilmente farò se qualche esperto non se ne esce all'ultimo minuto indicandomi un crawler FREE che funzioni :slight_smile: