Web scraping – Um spider para baixar vídeos do facebook usando Chrome Headless

No último post, vimos como criar um scraper básico usando  apenas programas do GNU/Linux e as limitações que encontramos por usar ferramentas genéricas. É melhor usar uma linguagem de programação completa para criar um spider, assim podemos usar as bibliotecas pensadas para casos de uso como esse. Vejam o mesmo programa para obter a foto do dia do site da NASA, agora feito em Python 3:

#!/usr/bin/env python3
#!-*- encoding: utf8 -*-
#Baixa a mais recente imagem do site APOD(apod.nasa.gov)
from bs4 import BeautifulSoup #Para parsear HTML
from pathlib import Path #Para obter path da pasta do usuário do sistema
import requests #Para fazer requisições a servidores web
from urllib.parse import urljoin #Para concatenar URL

#pega o html da página
#inicia o parser com esse html
#obtem a url relativa da imagem
#GET para URL da imagem
linkBase = 'http://apod.nasa.gov/apod'
req = requests.get(linkBase)
soup = BeautifulSoup(req.text, 'html.parser')
src = soup.find('img').get('src')
res = requests.get(urljoin(linkBase,src)) 

#Se houve sucesso na requisição..
if res.status_code == 200:
	imgPathDisk = str(Path.home()) + '/' + src.split('/')[-1]
	print("Salvando imagem em " + imgPathDisk)
	#salva no path ~/<nome-foto-do-dia.jpg>
	with open(imgPathDisk, 'wb') as f: f.write(res.content)
else: print("Erro, não consegui baixar a imagem do dia :(")

Com o BeautifulSoup, esse spider já entende o html da página e suporta CSS Selectors. Isso é infinitamente melhor para encontrar elementos numa página web que filtrar o código usando expressões regulares ou grep como no post anterior.

Além de entender o html ao buscar a imagem, esse script não é muito mais que uma tradução para Python do script mostrado no post anterior.

Ele pode bastar para casos de uso simples como esse mas a medida que as necessidades de scraping vão introduzindo operações como login e/ou interações com interfaces geradas por js, esse script vai se tornando limitado, ele entende html porém não processa javascript, portanto teria dificuldades para interagir com uma aplicação web gerada assim, o que é cada vez mais comum.

solareclipseHDR_largeDemeter
The Crown of the Sun 
Image Credit & Copyright: Derek Demeter (Emil Buehler Planetarium) Fonte: apod.nasa.gov

Os robôs que fizemos até agora conseguem simular interações simples com sites feitos para serem consumidos por usuários e seus browsers. Isso é ótimo porém a medida que precisarmos fazer coisas mais complexas, nossa dificuldade vai se concentrar cada vez mais na simulação do browser, se nosso robô precisar clicar em algo, precisamos ser capazes de disparar essa ação sem o click, por exemplo, encontrando a função chamada quando clicamos um determinado botão e a executá-la diretamente. Isso não é trivial e como muitos sites obfuscam o javascript, pode se tornar bem difícil de fazer.

Mas e se não precisarmos fingir que somos um browser?

A muito tempo já existe a possibilidade de automatizar ações dentro de um browser. Isso é: o seu navegador aberto executando um script sem necessidade de interação do usuário. Isso poderia ser feito via plugins, extensões, AutoIt’s que tem por aí.  O problema é que isso ocupa toda a interface gráfica e impede paralelização, além de não escalar. Você poderia realizar uma tarefa por vez pois ela ocuparia seu mouse, sua tela e seu browser. Isso é pouco prático para cenários reais onde é comum precisar obter uma grande quantidade de dados.

Também existe a possibilidade de simular essas interações com engines de browsers funcionando separadas da interface através de um software dirigindo isso como o Selenium. O problema é que o desenvolvimento dessas engines nem sempre acompanha o dos browsers e isso expõe os robôs a diferenças entre a tela que eles veriam e a tela que o usuário veria. Ou seja, seu spider enxergaria os sites de modo diferente de um usuário humano e isso é PÉSSIMO para esse tipo de trabalho. Imagina que você fez um robô para testar a interface do seu programa a cada atualização, seria inútil se quando ele visitar a página do seu programa ele visse algo diferente de seus clientes, correto?

Ainda tem outra alternativa: simular uma tela de computador que abre um navegador e manipula tudo isso na memória sem nunca enviar para um display server. Ou seja: Executar o navegador “virtualmente”. Ele executa de verdade, apenas não envia as informações para a tela, esse já é um enorme avanço em relação aos métodos anteriores pois o scraping é executado de modo “invisível” e pode ser paralelizado sem problemas.

O Google varre a internet com seu robô que visita os sites e o indexa. A muito tempo pessoas suspeitavam que esse robô era uma versão modificada do Chrome para esse fim.
Em abril desse ano isso foi confirmado com o lançamento do Chrome 59 com a opção –headless.

Agora nós desenvolvedores temos todo o poder necessário pra escrever spiders de qualquer tipo, seja lá o que um usuário faça num site, poderá ser reproduzido de forma automática dentro de um browser completo e real.

Você já tentou baixar um vídeo do facebook? Pelo browser do desktop você encontra um endereço de streaming do vídeo se o examinar com o Developer Tools. O modo mais conhecido para se obter o arquivo completo é indo até a versão mobile da página do vídeo que deseja baixar e dar play. Então um vídeo será reproduzido a partir de um arquivo .mp4 que é facilmente baixável ao contrário do vídeo exibido na versão desktop. Por exemplo:

Suponha que quero baixar esse vídeo do endereço: http://www.facebook.com/dcmjunior/videos/1794891250528272/

O jeito seria visitar  a URL m.facebook.com/dcmjunior/videos/1794891250528272/ para obter a versão mobile da página do vídeo, dar play e então salvá-lo no disco.

Vamos fazer um robô que recebe o link de um vídeo do facebook e devolve o arquivo mp4 desse vídeo para nos salvar desse processo? Não vale usar a API do facebook, estamos fazendo um spider!

As bibliotecas BeautifulSoup e requests já não nos bastam mais, podemos fazer um login que mantenha a sessão porém provavelmente travaríamos na parte de dar play no vídeo para chamar o javascript que exibe o mp4 a ser baixado pois essas bibliotecas não foram feitas para simular interação de um navegador web com um site.

Vamos usar o Chrome Headless. Existem vários softwares feitos para interfacear com o ele, já testei o puppeteer, o chromeless e o TagUI mas toda semana são lançados outros.

Antes nós usamos um bando de ferramentas que precisam ser colocadas juntas pra fazer algo parecido com uma interação de usuário com o site, agora temos um browser completo, programável e invisível para interfacearmos com os sites. Melhor ainda, ele é difícil de detectar como spider, isso significa que os sites não conseguem facilmente diferenciar um spider de um usuário comum, por isso podemos confiar que a página será enxergada pelo robô como o usuário a enxergaria.

Tem situação melhor para se fazer um web-spider? Acho que não!

Para esse exemplo, escolhi o puppeteer para controlar o Chrome Headless, o script resumido para obter o link completo do vídeo fica assim:

const puppeteer = require('puppeteer');
const { URL } = require('url');

(async () => {
	const browser = await puppeteer.launch();
	const page = await browser.newPage();
	const link = new URL('http://www.facebook.com/dcmjunior/videos/1794891250528272/');

	if(["www.facebook.com",
	    "facebook.com",
	    "www.fb.com",
	    "fb.com",
	    "m.facebook.com",
	    "mobile.facebook.com"
	   ].includes(link.host)){
		await page.goto("http://m.facebook.com" +
						 link.href.substring(link.origin.length, link.href.length),
						{waitUntil: 'networkidle'});

		await page.click('#u_0_0 > div > div > div > div > div > i');
		await page.waitForSelector('#mInlineVideoPlayer', {visible: true});

		// Pega o link do video da página
		const videoLink = await page.evaluate(() => {
		return document.getElementById('mInlineVideoPlayer').src;
		});

		console.log(videoLink);
	} else {
		console.log('URL fornecida é inválida')
	}

  	browser.close();
})();

Com esse tooling já temos muito mais poder em mãos para criar spiders, com o puppeteer e o Chrome Headless podemos dizer como o programa deve se comportar tendo o browser disponível para interação. Nesse script, as linhas principais são:

page.goto("http://m.facebook.com" + ... ,{waitUntil: 'networkidle'});
page.click('#u_0_0 > div > div > div > div > div > i');
page.waitForSelector('#mInlineVideoPlayer', {visible: true});

A primeira diz que o browser deve visitar a URL do vídeo e esperar até que o browser baixe todos os requests feitos;
A segunda manda o browser clicar no vídeo, selecionando o elemento com um CSS Selector;
A terceira espera a div com o mp4 surgir, depois o script retorna a URL do vídeo.

Salve esse script como getvideo.js, depois:

$node getvideo.js | xargs wget

Pronto, agora você tem um robô que baixa o vídeo de uma página do facebook (e salva com um nome horrível!) a partir de um comando apenas.
Esse script é só um exemplo, uma versão mais completa que aceita qualquer link de vídeo no facebook como argumento e é software livre está num repositório no github.

2 comentários em “Web scraping – Um spider para baixar vídeos do facebook usando Chrome Headless

Deixe um comentário