Wpis z mikrobloga

Skopiuj link

10.06.2015, 13:07:13

#python
Mam dany z zewnątrz taki string: "najbliÄšĹşszym", w jaki sposób mogę go zamienić na "najbliższym" i wyświetlić użytkownikowi? Próbowałem się bawić encode i decode, ale nic z tego nie wyszło...

Faja

10.06.2015, 13:10:52

@niezielony: jaka wersja pythona?

niezielony

10.06.2015, 13:12:35

@Faja, 3.4.1

r.....h

konto usunięte 10.06.2015, 13:18:48

@niezielony:
Spróbuj napisac: u''
Może to pomoze: https://pl.python.org/forum/index.php?topic=3163.0

Pipcieo

10.06.2015, 13:21:07

@niezielony: masz taki string czy taką jego reprezentację widzisz? Z tego co ja widzę to jest unikod potraktowany jako zwykły 8bit.

niezielony

10.06.2015, 13:24:19

@Pipcieo: Mam po prostu taki string, sprawa wygląda tak, że to część xmla, którego kiedyś skopiowałem z pewnej strony, ta strona już padła, a ja mam właściwie tylko plaintext tego xmla z takimi właśnie krzaczkami. I parsowanie się sypie, gdy trafi na coś takiego, mimo że encoding ustawione jest na UTF-8
@raffish: String z u na przodzie zwraca to samo.

jooj

10.06.2015, 13:38:54

@niezielony:
Ale ten string raczej nie ma wartości "najbliższym"

In [8]: [ i for i in "najbliÄšĹşszym"]
Out[8]: 
['n',
 'a',
 'j',
 'b',
 'l',
 'i',
 '\xc3',
 '\x84',
 '\xc5',
 '\xa1',
 '\xc4',
 '\xb9',
 '\xc5',
 '\x9f',
 's',
 'z',
 'y',
 'm']

Dla przykładu
Znak Ä w unikodzie to '\xc3\x84' natomiast ż to '\xc5\xbc'

Pokaż w jaki sposób wczytałeś tego stringa.

niezielony

10.06.2015, 13:45:58

Na razie wczytuje normalnie i kombinuję jak zamienić na "najbliższym"

body = "najbliÄšĹşszym"
print(body)
print drukuje mi to samo.
Tutaj dłuższa próbka:

i sprawdÄšĹ co ciekawego dla Ciebie dzieje siĂÂ w najbliÄšĹşszym czasie.

RARvolt

10.06.2015, 14:35:59

@niezielony: to pewnie jest zakodowane jako windows-1250 albo jakiś ISO. Spróbuj to zdekodować do unicode używając kodowań sprzed standaryzacji UTF-8

niezielony

10.06.2015, 14:48:15

@RARvolt:
Próbowałem tak:

body = "najbliÄšĹşszym"
print(body)
print(body.encode('windows-1250').decode('utf-8'))

Wynik to:

najbliÄšĹşszym

najbliĚźszym

Czyli nadal źle

Natomiast jeśli zamiast windows-1250 użyję ISO 8859-2

to drukuje

najbliÄšĹşszym

najbliĹźszym

Czyli nadal nie to, ktoś ma jeszcze jakieś pomysły?

RARvolt

10.06.2015, 14:54:52

@niezielony: nie mam pythona pod ręką to spróbuj jeszcze CP852 i Windows-1257

i bez decode()

niezielony

10.06.2015, 15:00:16

@RARvolt: po wrzuceniu encode CP852 (bez decode do utf8) dostaje:

najbliÄšĹşszym

b'najbli\x8e\xe7\x91\xadszym'

Natomiast windows-1257 rzuca

UnicodeEncodeError: 'charmap' codec can't encode characters in position 8-9: character maps to

RARvolt

10.06.2015, 15:02:44

@niezielony: a co się stanie jak dasz encode('utf-8') ?

niezielony

10.06.2015, 15:03:24

najbliÄšĹşszym

b'najbli\xc3\x84\xc5\xa1\xc4\xb9\xc5\x9fszym'

dzien_dobry

10.06.2015, 15:58:40

@niezielony: Nie potrafie dojść jaką drogę przebył ten tekst. W każdym razie zawsze możesz zrobić mapę
https://gist.github.com/anonymous/7749ab028c4165afeaae