Как считать UNICODE файл? -> Форум на Исходниках.Ру

	Наши проекты: Журнал · Discuz!ML · Wiki · DRKB · Помощь проекту

Здравствуйте, Гость ! [3.143.168.172]

FAQ раздела VC++

[!] Как относитесь к модерированию на этом форуме? Выскажите свое мнение здесь

Модераторы: Qraizer

Новое голосование

Как считать UNICODE файл?

Alexei Iakovlev	Сообщ. #1 , 16.10.00, 09:32
Unregistered	Подскажите пожалуйста! Как вывести в окно Unicode файл в Visual C++ 6? Заранее благодарен Алексей

Rush	Сообщ. #2 , 11.12.00, 01:36
Unregistered	WideCharToMultibyte() и MultibyteToWideChar()

Valery	Сообщ. #3 , 17.10.00, 11:12
Unregistered	Присоединюсь к вопросу. До конверсии дело не доходит еще. Уже при чтении Unicod-овского файла у меня лажа получается. Как бы мне помочь?

migel	Сообщ. #4 , 17.10.00, 11:33
Unregistered	А в чем трабла то? чем файл читаем в какой буффер на чем зависаем?

Valery

Сообщ. #5 , 18.10.00, 05:51

Member

Профиль · PM

Рейтинг (т): 1

Да вот так:
#include <stdio.h>
int main ()
{
FILE *in;
in = _wfopen(L"backup2000.log", L"rb");
wchar_t buf[1000];
while (!feof(in))
{
fgetws(buf, sizeof buf, in);
wprintf(L"\%s\n", buf);
}
fclose(in);
}
Вся русская часть уникодовского файла при этом пропадает. Догадываюсь что что-то с setlocale не так, но насколько я понял, что в борланде, что в визуале она(setlocale) поддерживает только некую "C" locale.

migel	Сообщ. #6 , 18.10.00, 06:45
Unregistered	Пропадает куда? нет в буффере или при выводе буффера ничего не кажет? Вообще в двоичной моде никаких преобразований функции чтения не делают.

Valery

Сообщ. #7 , 18.10.00, 07:14

Member

Профиль · PM

Рейтинг (т): 1

Где-то в комментариях к этим функциям (казись MSN лопатил) есть коментарий к этим функциям, так там указано, что при указании текст-моды чтение производится как multybyte,
а при указании бинарной -- как wchar.
У меня же на экран нифига русского не попадает.

Valery

Сообщ. #8 , 18.10.00, 07:18

Member

Профиль · PM

Рейтинг (т): 1

А вообще вопрос был очень простой -- как же все-таки прочитать файл в Unicode стандартными средсвами (и преобразовать его скажем в 1251). Просто привести кусочек кода. Больше ничего не надо. Я и так догадываюсь, что у меня что-то неправильно написано.

migel	Сообщ. #9 , 18.10.00, 08:03
Unregistered	А после чтения ты буффер смотрел? с файлом сравнивал? Скорее всего трабла в выводе на экран Копай там - выводиш какими методами?

Valery	Сообщ. #10 , 18.10.00, 09:13
Member Профиль · PM Рейтинг (т): 1	migel, ну чего ты спрашиваешь как я делаю? напиши как надо делать и боле ничего. как я выводил, я привел пример, смотри выше. кстати, посмотрел, вообще ничего читать не хочет - NULL возвращает fgetws

Valery	Сообщ. #11 , 18.10.00, 09:19
Member Профиль · PM Рейтинг (т): 1	вдогонку - про fgetws я лажу написал. читает она, но в буфер гонит пургу.

migel	Сообщ. #12 , 18.10.00, 09:23
Unregistered	Чудак человек, какой код я тебе приведу, если такой же у меня работает правильно Ж-( И не надо нарываться на грубости что в буфер не совпадает с файлом?

migel	Сообщ. #13 , 18.10.00, 10:03
Unregistered	Чтение из файла не при чем -все читается нормально. А для операционки тебе просто нужно установить локаль вывода консольного окна. setlocale(LC_ALL, "rus_rus.OCP"); Если не поможет то поиграйся кодовыми страничками.

Valery

Сообщ. #14 , 18.10.00, 10:05

Member

Профиль · PM

Рейтинг (т): 1

Вроде старался не грубить.

Если что не так -- сорри.
К делу, два варианта поведения:
1. in = _wfopen(L"aaa.txt", L"rb");
Выцепилось следующее - fgetws читает строку из файла, пока не встретит любой русский символ, отсекает начиная с него весь остаток строки.
2. in = _wfopen(L"aaa.txt", L"rt");
fgetws читает строку из файла как набор char, преобразует их в wchar_t, в результате - полная галиматья.
Интересно было бы разобраться именно с первым случаем, он, мне кажется ближе к истине.
Кстати преобразовать в char* чем надо? wcstombs? или это другая музыка?
И последнее - в самом начале файла 0xFEFF -- это признак того, что файл в Unicode? или это какая-то левятина затесалась?

migel	Сообщ. #15 , 18.10.00, 11:28
Unregistered	Значит дело такое: юникодный файл в кодировке 1251 читается на ура - именно в бинарной моде. Второе именно так, но надо ставить нужную локаль. wcstombs(strTmp, (const wchar_t *) tstr, sizeof(strTmp)); Третье скорее всего да - но я не уверен

0 пользователей читают эту тему (0 гостей и 0 скрытых пользователей)

0 пользователей:

Страницы: (2) [1] 2 все

[ Script execution time: 0,0340 ] [ 17 queries used ] [ Generated: 16.04.24, 22:23 GMT ]