FilmFreewayScraper

Scrape author from filmfreeway

Obiettivo

L'obiettivo di questo script è automatizzare la raccolta delle email e informazioni delle persone interessate a determinati festival di FilmFreeway. Per persone interessate si intendono le persone che hanno lasciato una recensione sul festival analizzato.

Installazione

Scaricare Tampermonkey
Scaricare script.js
Importalo in Tampermonkey
Divertiti

Uso

Vai sulla pagina di un festival (https://filmfreeway.com)
Se ci sono recensioni comparirà il pulsante "Scarica autori" vicino ad esse
Cliccando procederà al download dei dati in formato csv.

Story

ALPHA (Python)

È stata realizzata prima una versione alpha in python (webscraper.py) che attraverso l'uso della libreria requests effettuava una serie di richieste per:

ricavare l'id del festival
ottenere le recensioni per ogni "pagina" (max 5 per pagina)
ricavare le persone "cliccabili"
ottenere i dati degli artisti trovati
creare il file csv associato

Ha funzionato per un po', ma aveva dei problemi perchè dopo un tot di richieste veniva bloccato completamente il programma. Il sito non rispondeva con la pagina, ma con una pagina intermedia di redirect.

BETA (Interfaccia in Python)

Si è pensato di aggiornare la versione alpha creando una versione con interfaccia (sviluppata in tkinter): newScraper.py. L'interfaccia ha un campo di testo e una tabella in cui aggiungere tutti i link dei festival da analizzare e un pulsante per avviare l'analisi e poi scaricare i dati. C'erano possibiltà di aggiornamenti con funzionalità come l'editing di csv esportati dal programma, la modifica di alcuni dati degli autori e altro. Il codice è stato strutturato a classi, implementando l'interfaccia e una classe che attraverso i thread avrebbe dovuto effettuare lo scrape Scraper.py

Utilizzando librerie che implementavano un vero e proprio browser (pyppeteer e selenium) invece di effettuare richieste curl, funzionava, ma a un certo punto interveniva Cloudfare con la verifica captcha. Anche se si rallentavamo le richieste. Il ciò ha portato all'abbandono del linguaggio python.

VERSIONE 1.0

Si è pensato che se ad effetturare le richieste sarebbe stato il sito stesso, non si sarebbe mai bloccato... e così è stato. È stato realizzato uno script javascript (script.js) da iniettare nel sito con Tampermonkey. Implementa un pulsante "Scarica autori" che avvia lo scrape e il download del csv associato seguendo i passaggi della versione alpha.

Questa versione funziona.

CSV

Il file di output è formato dalle seguenti colonne:

nome
cognome
email
città
titolo
biografia
data di nascita
link autore
link festival

TODO

[] Scrape multi festival [] Aggiungere pulsante download recensioni fuori dalla pagina del festival [] Migliorare divisione nome/cognome [] Pulire codice

Contatti

Sviluppato da jonathan-caputo@hotmail.com

Name		Name	Last commit message	Last commit date
Latest commit History 10 Commits
LICENSE		LICENSE
README.md		README.md
Scraper.py		Scraper.py
newScraper.py		newScraper.py
screenshot.jpeg		screenshot.jpeg
script.js		script.js
webscraper.py		webscraper.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

FilmFreewayScraper

Obiettivo

Installazione

Uso

Story

ALPHA (Python)

BETA (Interfaccia in Python)

VERSIONE 1.0

CSV

TODO

Contatti

About

Releases 1

Packages

Languages

License

Jonnycp/filmfreewayScraper

Folders and files

Latest commit

History

Repository files navigation

FilmFreewayScraper

Obiettivo

Installazione

Uso

Story

ALPHA (Python)

BETA (Interfaccia in Python)

VERSIONE 1.0

CSV

TODO

Contatti

About

Resources

License

Stars

Watchers

Forks

Releases 1

Packages 0

Languages

Packages