Hallo zusammen,
ich hoffe ich stelle die Frage im korrekten Unterforum.
Ich versuche grade mit Hilfe von BeautifulSoup einige URLs von Amazon Prime Instant Video zu erfassen. Das funktioniert soweit schon ganz gut.
Der folgende Code:
Python
import requests
from bs4 import BeautifulSoup
html = requests.get(
'http://www.amazon.de/s/ref=atv_sn_piv_cl1_mv_pl?_encoding=UTF8&rh=n:3010075031,n:3356018031&sort=popularity-rank').text
bs = BeautifulSoup(html)
links = bs.select('div.a-row.a-spacing-none a[href^=http]')
for a in links:
if a.has_attr('href'):
print a.attrs['href']
Alles anzeigen
Gibt mir so eine Ausgabe:
Code
http://www.amazon.de/Zombieland-Woody-Harrelson/dp/B00FZN23UC
http://www.amazon.de/Zombieland-Woody-Harrelson/dp/B00FZN23UC
http://www.amazon.de/Zombieland-Woody-Harrelson/product-reviews/B00FZN23UC
http://www.amazon.de/Safe-Todsicher-Jason-Statham/dp/B00ILRIHR2
http://www.amazon.de/Safe-Todsicher-Jason-Statham/dp/B00ILRIHR2
http://www.amazon.de/Safe-Todsicher-Jason-Statham/product-reviews/B00ILRIHR2
http://www.amazon.de/Aushilfsgangster-Ben-Stiller/dp/B00H39XWU6
http://www.amazon.de/Aushilfsgangster-Ben-Stiller/dp/B00H39XWU6
http://www.amazon.de/Aushilfsgangster-Ben-Stiller/product-reviews/B00H39XWU6
http://www.amazon.de/Red-Lights-Cillian-Murphy/dp/B00KY1T6I2
http://www.amazon.de/Red-Lights-Cillian-Murphy/product-reviews/B00KY1T6I2
http://www.amazon.de/Wolkig-Mit-Aussicht-Auf-Fleischb%C3%A4llchen/dp/B00H39TO7G
http://www.amazon.de/Wolkig-Mit-Aussicht-Auf-Fleischb%C3%A4llchen/dp/B00H39TO7G
http://www.amazon.de/Wolkig-Mit-Aussicht-Auf-Fleischb%C3%A4llchen/product-reviews/B00H39TO7G
http://www.amazon.de/Jonas-Christian-Ulmen/dp/B00NV8VJ1M
http://www.amazon.de/Jonas-Christian-Ulmen/dp/B00NV8VJ1M
http://www.amazon.de/Jonas-Christian-Ulmen/product-reviews/B00NV8VJ1M
http://www.amazon.de/Twilight-Biss-Morgengrauen-Kristen-Stewart/dp/B00KAXMRY4
http://www.amazon.de/Twilight-Biss-Morgengrauen-Kristen-Stewart/dp/B00KAXMRY4
http://www.amazon.de/Twilight-Biss-Morgengrauen-Kristen-Stewart/product-reviews/B00KAXMRY4
http://www.amazon.de/Happy-Feet-Elijah-Wood/dp/B00ESNJSPI
http://www.amazon.de/Happy-Feet-Elijah-Wood/dp/B00ESNJSPI
http://www.amazon.de/Happy-Feet-Elijah-Wood/product-reviews/B00ESNJSPI
http://www.amazon.de/Place-Beyond-Pines-Ryan-Gosling/dp/B00I84GR0W
http://www.amazon.de/Place-Beyond-Pines-Ryan-Gosling/dp/B00I84GR0W
http://www.amazon.de/Place-Beyond-Pines-Ryan-Gosling/product-reviews/B00I84GR0W
Alles anzeigen
Wie man in der Ausgabe sehen kann, werden die Links doppelt ausgegeben und zusätzlich noch ein Link zu den Product Reviews. Das liegt wohl daran, dass sich die Verlinkungen alle in dem DIV befinden, dass ich oben abfrage.
Wie wäre die Richtige Herangehensweise um die Ausgabe so zu filtern, dass nur noch ein Video Link angezeigt wird?
Ich bin absoluter Python Noob und kenne mich dementsprechend schlecht aus.
Viele Grüße
elcravo