Frage zu Kodierung UTF-8 und JSON

Linkinsoldier

Hallo beisammen,

ich hab mal ein bisschen angefangen mit ein bisschen "Fingerübungen" für ein kleines Addon. Kurz gesagt bin ich zu faul immer mal wieder zu schauen ob es bei bestimmten Buchreihen von mir neue Bücher gibt und manchmal bin ich mir über die Reihenfolge nicht sicher. Natürlich macht ne Handyapp mehr Sinn, ich wollte aber mal mich etwas mehr in Kodi und Python Programmierung probieren und hab hin und wieder mal etwas rumprobiert. Wirklich schnell ist das nicht voran gegangen, aber es hat relativ gut "funktioniert", solange ich nicht mit Umlauten zu kämpfen hatte. Und irgendwie hab ich das Gefühl ich komm hier nicht mehr ohne Hilfe weiter:

Problem ist folgendes:
- Ich extrahiere mit RegEx aus ner HTML nen JSON String, der von der Codierung her noch passt.
Sobald ich aber json.loads mache, passt die codierung nicht mehr und ich raff irgendwie nicht, wie ich damit umgehen muss...

Beispiel:
In der URL: https://www.lovelybooks.de/autor/Robert-G…lge-1117815300/
steckt im Quellcode:

Spoiler anzeigen

{"@type":"ItemList","itemListElement":[{"name":"Der Ruf des Kuckucks","url":"https://www.lovelybooks.de/autor/Robert-Galbraith/Der-Ruf-des-Kuckucks-1062572907-w/","position":"1","@type":"Book","author":{"@type":"Person","name":"Robert Galbraith","url":"https://www.lovelybooks.de/autor/Robert-Galbraith/"}},{"name":"Der Seidenspinner","url":"https://www.lovelybooks.de/autor/Robert-Galbraith/Der-Seidenspinner-1114616007-w/","position":"2","@type":"Book","author":{"@type":"Person","name":"Robert Galbraith","url":"https://www.lovelybooks.de/autor/Robert-Galbraith/"}},{"name":"Die Ernte des Bösen","url":"https://www.lovelybooks.de/autor/Robert-Galbraith/Die-Ernte-des-Bösen-1221430454-w/","position":"3","@type":"Book","author":{"@type":"Person","name":"Robert Galbraith","url":"https://www.lovelybooks.de/autor/Robert-Galbraith/"}}],"@context":"http://schema.org"}

Wenn ich nun folgenden Code verwende

Code

try:
        # Read data from url
        html_page = urllib2.urlopen(url).read()  
        # xbmc.[definition='1','0']log[/definition]('The HTML RAW Data for the url %s is %s' % (url, html_page))        
        # Use RegEx to find the JSON Data within this html_page provided within <script type="application/ld\+json"> and </script>
        raw_data = re.compile('<script type="application/ld\+json">(.+?)</script>', re.DOTALL).findall(html_page)[0]
        xbmc.[definition='1','0']log[/definition]('The HTML RAW Data in the Script tags for the url %s is %s' % (url, raw_data))
        # Load the data into JSON Format
        json_data = json.loads(raw_data)
        # # Output the Data
        xbmc.[definition='1','0']log[/definition]('The JSON output for the url: %s is %s' % (url, json_data))


    except (urllib2.URLError), e:
        MyLog('Error reason: %s' % e )
        if '429' or 'timed out' in e:
            attempt += 1
            MyLog('Attempt #%s - Too many requests - Pause 1 sec' % attempt)
            xbmc.sleep(1000)
            if attempt < 4:
                return getJSONfromLovelyBooks(url)
        return json_data
    return json_data

Alles anzeigen

Dann ist der Output von Kodi:

Spoiler anzeigen

Bösen wird also zu B\xf6sen, was später zum Problem führt:
"UnicodeEncodeError: 'ascii' codec can't encode character u'\xf6' in position 65: ordinal not in range(128)"

Nun die Frage: was mach ich falsch bei json.loads? Ich hab das Gefühl da gibts irgendeinen Trick, aber ich hab alles mit .encode('utf8'), encoding('utf8') usw. probiert, was mir eingefallen ist... leider ohne Erfolg...

Hab euch mal den Code hinzugefügt, falls jemand es sich anschauen will... seid aber gnädig, ist mein erstes Kodi Addon das ich von Grundauf gebastelt hab und auch meine "ersten wirklichen Pythonversuche" ... bin also nicht sehr tief drin... außerdem bastel ich nur alle Wochen/Monate mal wieder Abends n bissl .. ist nur n Hobby

Viele Grüße,
Linkin

Sandmann

Das Problem scheinen eher die URLs zu sein, als das json das ist ja Unicode.
Nur eben die URLs mit ihren Umlauten die müssen noch encodiert werden.

Sprich wenn die zwei Funktionen so abgeändert werden dann sollte das passen:

Code: main.py

def getBookDetailsFromCache(url, book_number, bookreihen_url, reihen_name):
    return BookCache.cacheFunction(CreateJSONfromLovelyBooksBookPage, urllib.quote(url.encode('utf-8'), ':/'), book_number, urllib.quote(url.encode('utf-8'), ':/'), reihen_name)


def getBookSeriesDetailsFromCache(url):
    return BookSeriesCache.cacheFunction(getJSONfromLovelyBooks, urllib.quote(url.encode('utf-8'), ':/'))

Da gibt es bestimmt auch noch eine elegantere Lösung, die mir aber gerade nicht einfallen will

Linkinsoldier

VIELEN VIELEN DANK - das hat es gelöst!!!!

Hatte noch nen anderen Bug drin (attemp war nicht initialisiert bevor es initialisiert wurde) aber danach lief es einwandfrei durch! Herzlichen Dank!

edit: For the record, Zeile 68 ist:

return BookCache.cacheFunction(CreateJSONfromLovelyBooksBookPage, urllib.quote(url.encode('utf-8'), ':/'), book_number, urllib.quote(bookreihen_url.encode('utf-8'), ':/'), reihen_name)

Aber sonst alles super! Das war das Problem... ich glaub da hätte ich noch ne halbe Ewigkeit dem falschen Problem hinterher gesucht... Dafür vielen herzlichen Dank!!!

Jetzt mitmachen!