кодировки

 
LT Bredonosec #29.07.2007 11:54
+
-
edit
 
рыскал по складам на винте - обнаружил, что один из файлов погажен на тему кодировки. Не знаю, толь я какую горячую клавишу жмакнул, толь что, но текст выглядит как
'+мз«бм +«аги¤вУг'">+мз«бм +«аги¤вУг</a>, „„ии¤к„н й¤ в¤ййиг б«бУмй„Дзл «¤УагвДм. +з гбз „иза¤н, аз а«гнк к«загвгймк а +звз«м <a href="http://regnum.ru/dossier/952.html">зк㫤¶мм ++- +«бУмм</a>, +ам¶м¤йм м вабн гбз извкн в¤из„н блам мУ „ги¤ +г¤иа¤ й¤ Дзйа«зим«бгнбз ¤пг¤У„Дзл „аз«зйзл аг««маз«мз, бвг зй кза«гпза¤и а„а«гУм „ У¤нби¤аи азгййзбз агвзн„аа¤ йгк«мУй¤ййзл «г„кбпимДм <a href="/look/c3e0f0f0e820caf3efe0ebe1e0/" class="kwdlook" target="_blank" title="=заз„ам кз агнг '+¤««м +бк¤ип¤'">+¤««м +бк¤ип¤</a>, кз„иг Дзаз«зл мг м вз„а¤амим а +бгбнм. "+У㫤©йгг мйаг«анз +ам¶м¤йм «з„„мл„Дмн +++ пииз У¤к설йз б¶г а +бгбнм, - „Д¤У¤и +«аги¤вУг. - +гбзвйк
Собственно, вопрос, что это за кодировка?
Автоопределение мне кидает мусорку, самое первое, что думал - ошибочный перевод дос-вин (ctrl+W) - тож не то.. методом научного тыка поигрался - всё равно сплошная мусорка... крякозябры.
Voeneuch, учи физику, манажор ))  
+
-
edit
 

Balancer

администратор
★★★★★
Могу только сказать, что на двойные перекодировки среди koi8-r cp866 cp1251 ISO-8859-5 utf-8 это не тянет. Только что специально помучил. Ещё смущает большое число знаков "+" - это, скорее всего, однозначная потеря данных.

Да, у тебя там HTML-код, поэтому переправил сообщение на использование {code}..{/code} вместо {quote}..{/quote}
 
LT Bredonosec #29.07.2007 13:20
+
-
edit
 
>скорее всего, однозначная потеря данных.
мдя, обидно.. 310кило текста архива по ссылкам с сайтов, навигация на которых сменилася.... :(
Voeneuch, учи физику, манажор ))  
+
-
edit
 

Balancer

администратор
★★★★★
Попробуй всякие раскодировщики, типа Штирлица - м.б. поможет.
 
+
-
edit
 

BrAB

аксакал
★★
Bredonosec> Собственно, вопрос, что это за кодировка?

похоже на убитый чем-то юникод. было такое - моих познаний не хватило чтобы выташить текст :(
Было у еврея всё плохо. Пришел за советом к равину. Тот - напиши над дверью - "Так будет не всегда". Стало всё ок. Пошел он благодарить. А тот ему - надпись не стирай. Злой чечен ползет на берег. ©Лермонтов  

Balancer

администратор
★★★★★
BrAB> похоже на убитый чем-то юникод.

Не очень похоже. Нет повторяющихся вторых байт. Это, ИМХО, именно однобайтовая кодировка, полученная из однобайтовой же.
 

BrAB

аксакал
★★
BrAB>> похоже на убитый чем-то юникод.
Balancer> Не очень похоже. Нет повторяющихся вторых байт. Это, ИМХО, именно однобайтовая кодировка, полученная из однобайтовой же.

а может и так... один черт я так и не смог восстановить. а надо было сильно.
Было у еврея всё плохо. Пришел за советом к равину. Тот - напиши над дверью - "Так будет не всегда". Стало всё ок. Пошел он благодарить. А тот ему - надпись не стирай. Злой чечен ползет на берег. ©Лермонтов  
LT Bredonosec #29.07.2007 17:26
+
-
edit
 
изначально был обычный ASCII текст, в Win кодировке. Иногда по ошибке жмакаю контрол+W вместо контрол+S, но обычно успеваю открутить назад (в крайнем случае закрыть не сохранив и снова открыв/выполнив операции), а тут, веоятно, в полусне чего-то жмакнул, не заметив.. последнее изменение файла осенью..

за подсказку штирлица пасибо, но не помогло: посчитал он до 18 лимонов чего-то и всё равно открыл в неверной кодировке (не исходной, а другой)
Voeneuch, учи физику, манажор ))  

GOGI

координатор
★★★★
По моему, это все-таки поврежденный файл. По крайней мере, в нем в некоторых местах одинаковые символы соответствуют разным символам исходного. Удалось только прочитать, что что-то там про грузию и непризнанную республику :-)
1  
LT Bredonosec #29.07.2007 19:44
+
-
edit
 
>Удалось только прочитать, что что-то там про грузию и непризнанную республику :-)
в какой кодировке?
Voeneuch, учи физику, манажор ))  

GOGI

координатор
★★★★
Понятия не имею, ручным раскодированием :-)
1  
LT Bredonosec #29.07.2007 22:45
+
-
edit
 
А ручным - по какой методе? //иного способа восстановить как-бы не вижу, бо зачастую даж линки неполные - без домена - не поймешь, откуда взято и что..
Voeneuch, учи физику, манажор ))  

GOGI

координатор
★★★★
Ну замена одного символа другим по таблице соответствия :-) Я просто, когда у меня штирлиц работал, заметил, что одно слово стало походить на человеческое :-) , ну дальше дело техники.
Выложи фрагмент хотя-бы килобайта два, я попробую.

P.S.-за вторую половину кодовой страницы 1251 буду очень благодарен.
1  
LT Bredonosec #30.07.2007 05:41
+
-
edit
 
что-то со сна чтоль недопонял.. какая вторая половина кодовой? 8-/
кусок кила в 2? да можно конечно, и больше можно..&nbsp[показать]
Voeneuch, учи физику, манажор ))  
+
-
edit
 

GOGI

координатор
★★★★
Bredonosec> что-то со сна чтоль недопонял.. какая вторая половина кодовой? 8-/
Ну каждая буква это какой-то байт. Первые 127 английские и у всех совпадают, а вторые национальные. Вот и нужно знать, какому байту какая буква русская соответствует, чтобы в штирлице кодовую страницу свою сделать. Но я в общем нашел уже :-)
1  
+
-
edit
 

Mishka

модератор
★★★

Start/Programs/Accessories/System Tools/Character Map — на ней выставляешь Advanced View и видишь символы по 20 в строку. Всего 12 строк. Поэтому кодировка на лицо. На каждый символ можно ткнуть мышкой, тогда он вылезет побольше и покажет код. Шрифт выбираешь сам в выпадающем боксе. Из другого полезного — внизу показываются unicde code points, если выбрать Unicode. Ну и как ввести этот символ в форточках при помощи Alt комбинации.
Прикреплённые файлы:
cm.JPG (скачать) [65 кБ]
 
 
 
Это сообщение редактировалось 30.07.2007 в 17:44
LT Bredonosec #30.07.2007 20:30
+
-
edit
 
>Start/Programs/Accessories/System Tools/Character Map — на ней выставляешь Advanced View
карту символов знаю, только нету у мя адванседа - 98 вынь как-никак.
И для чего это предлагалось, Миш? Смысл-то сих телодвижений?


>Вот и нужно знать, какому байту какая буква русская соответствует, чтобы в штирлице кодовую страницу свою сделать. Но я в общем нашел уже :-)
А метод подбора? Не поделишься? )))
Voeneuch, учи физику, манажор ))  

GOGI

координатор
★★★★
Да какой там метод :-)
Вверху каждого текста есть ссылка на статью.
По исходному тексту можно установить соответствие между нормальным текстом и покореженным. Ну а потом заменить по данному соответствию все символы в тексте.
Проблема в том, что во первых, все в ручную, а у нас 33 буквы, плюс почти столько же заглавных, и с некоторыми буквами возникает несоответствие, то есть в одном месте текста один символ соответствует какому-то в нескольких местах, а в другом месте в нескольких же местах соотвествует совсем другому. Отчего и почему я пока понять не могу.
Пока 16 символов подобрал, завтра думаю закончу остальные. А потом может чего придумаю с выбивающимися из правил.
1  

Balancer

администратор
★★★★★
GOGI> Проблема в том, что во первых, все в ручную, а у нас 33 буквы, плюс почти столько же заглавных

Осваивай Perl :)

perl -ne 'tr/льолтОЛТотлоТОЛТ/АБВГДЕ.../; print;' &lt; infile.txt &gt; outfile.txt, где тебе придётся подобрать только таблицу трансляции :) Работать будет и под виндой и под Linux'ом.
 

GOGI

координатор
★★★★
А ты думаешь, я все символы вручную переставляю? :-)
Макрос в ворде, хотя не скрою, на перле выглядит проще. Но учитывая, что писать маломальскую программу мне приходится не чаще, чем раз в полгода, перл я если и изучу, то буду забывать быстрее, чем он мне понадобится :-)
1  
LT Bredonosec #30.07.2007 23:35
+
-
edit
 
хитрО.... :)
Voeneuch, учи физику, манажор ))  
US Mishka #31.07.2007 00:01  @Bredonosec#30.07.2007 20:30
+
-
edit
 

Mishka

модератор
★★★

Bredonosec> И для чего это предлагалось, Миш? Смысл-то сих телодвижений?
GOGI хотел знать кодировки разные. Эта программка даёт возможность узнать для всех кодировок/шрифтов, которые есть в системе.
 

в начало страницы | новое
 
Поиск
Поддержка
Поддержи форум!
ЯндексЯндекс. ДеньгиХочу такую же кнопку
Настройки
Твиттер сайта
Статистика
Рейтинг@Mail.ru