Wpis z mikrobloga

@Pipcieo: Mam po prostu taki string, sprawa wygląda tak, że to część xmla, którego kiedyś skopiowałem z pewnej strony, ta strona już padła, a ja mam właściwie tylko plaintext tego xmla z takimi właśnie krzaczkami. I parsowanie się sypie, gdy trafi na coś takiego, mimo że encoding ustawione jest na UTF-8
@raffish: String z u na przodzie zwraca to samo.
@niezielony:
Ale ten string raczej nie ma wartości "najbliższym"

In [8]: [ i for i in "najbliĚźszym"]
Out[8]:
['n',
'a',
'j',
'b',
'l',
'i',
'\xc3',
'\x84',
'\xc5',
'\xa1',
'\xc4',
'\xb9',
'\xc5',
'\x9f',
's',
'z',
'y',
'm']

Dla przykładu
Znak Ä w unikodzie to '\xc3\x84' natomiast ż to '\xc5\xbc'

Pokaż w jaki sposób wczytałeś tego stringa.
Na razie wczytuje normalnie i kombinuję jak zamienić na "najbliższym"

body = "najbliĚźszym"
print(body)
print drukuje mi to samo.
Tutaj dłuższa próbka:

i sprawdź co ciekawego dla Ciebie dzieje się w najbliższym czasie.
@RARvolt:
Próbowałem tak:

body = "najbliĚźszym"
print(body)
print(body.encode('windows-1250').decode('utf-8'))

Wynik to:

najbliĚźszym

najbliĚźszym

Czyli nadal źle

Natomiast jeśli zamiast windows-1250 użyję ISO 8859-2

to drukuje

najbliĚźszym

najbliĹźszym


Czyli nadal nie to, ktoś ma jeszcze jakieś pomysły?
@RARvolt: po wrzuceniu encode CP852 (bez decode do utf8) dostaje:

najbliĚźszym

b'najbli\x8e\xe7\x91\xadszym'


Natomiast windows-1257 rzuca

UnicodeEncodeError: 'charmap' codec can't encode characters in position 8-9: character maps to