Как сжать двоичный файл. -> Форум на Исходниках.Ру

	Наши проекты: Журнал · Discuz!ML · Wiki · DRKB · Помощь проекту

Здравствуйте, Гость ! [216.73.216.81]

Модераторы: Serafim, fatalist

Как сжать двоичный файл. , Алгоритм Хаффмана

[FENIX]

Сообщ. #1 , 15.01.16, 13:55

Newbie

Профиль · PM

Рейтинг (т): нет

Всем привет народ. Вот такой вопрос.
По Алгоритму Хаффмана я закодировал входную строку (текст). Получил 0 и 1. Построил таблицу частот символов, и само дерево Хаффмана. Потом записываю эти 0 и 1 в txt-файл, НО размер txt-файла, содержащего 0 и 1 превышает размер файла с исходным текстом.

В общем я реализовал только кодирование по алгоритму Хаффмана, получил нули и единицы. Мне в конечном итоге нужно получить из исходного текстового файла - его упакованную версию (само собой с меньшим размером).

Потом уже буду из упакованной версии файла восстанавливать исходную строку символов.
Помогите, в какую сторону копать?

Например txt-файл, содержащий строку "test_string" занимает размер 11 байт, а файл, где каждый символ заменён на нули и единицы занимает 32 байта ((((
Реализовывал всё на PHP.

MBo	Сообщ. #2 , 15.01.16, 14:27
Master Профиль · PM Поощрения: 3 Dgm Рейтинг (т): 321	Нули и единицы должны содержаться в отдельных битах. В PHP это возможно? Работа с битами есть? Сообщение отредактировано: MBo - 15.01.16, 14:27

Славян

Сообщ. #3 , 15.01.16, 14:33

Master

Профиль · PM

Рейтинг (т): 135

Цитата [FENIX] @ 15.01.16, 13:55

Помогите, в какую сторону копать?

Упаковать нули и 1 в непрерывную последовательность и записывать получающиеся байты.
:whistle:

Но при кодировании двоичного файла читать вики:

Цитата вики

Классический алгоритм Хаффмана имеет ряд существенных недостатков. Во-первых, для восстановления содержимого сжатого сообщения декодер должен знать таблицу частот, которой пользовался кодер. Следовательно, длина сжатого сообщения увеличивается на длину таблицы частот, которая должна посылаться впереди данных, что может свести на нет все усилия по сжатию сообщения. Кроме того, необходимость наличия полной частотной статистики перед началом собственно кодирования требует двух проходов по сообщению: одного для построения модели сообщения (таблицы частот и Н-дерева), другого для собственно кодирования. Во-вторых, избыточность кодирования обращается в ноль лишь в тех случаях, когда вероятности кодируемых символов являются обратными степенями числа 2. В-третьих, для источника с энтропией, не превышающей 1 (например, для двоичного источника), непосредственное применение кода Хаффмана бессмысленно.

[FENIX]	Сообщ. #4 , 15.01.16, 15:24
Newbie Профиль · PM Рейтинг (т): нет	MBo а вот я и не знаю есть ли в PHP такая возможность (( Славян можешь подсказать, как в PHP можно реализовать упаковку нулей и единиц в непрерывную последовательность? Или хотя бы ссылку дать

Славян

Сообщ. #5 , 15.01.16, 15:50

Master

Профиль · PM

Рейтинг (т): 135

Цитата [FENIX] @ 15.01.16, 15:24

Славян можешь подсказать, как в PHP можно реализовать упаковку нулей и единиц в непрерывную последовательность?

Да просто числа умножать нацело на степени двойки и проводить побитовую операцию ИЛИ. Т.к. я ничего про PHP не знаю, то тут я вам явно не тонкий помощник; только какие-то общие соображения могу подсказать. :oops:

MBo	Сообщ. #6 , 15.01.16, 16:12
Master Профиль · PM Поощрения: 3 Dgm Рейтинг (т): 321	http://php.net/manual/ru/language.operators.bitwise.php

JoeUser	Сообщ. #7 , 15.01.16, 16:56
Unregistered	Цитата [FENIX] @ 15.01.16, 13:55 Реализовывал всё на PHP. Это курсач или просто для интереса? В PHP есть свои библиотеки сжатия, есличо.

[FENIX]	Сообщ. #8 , 16.01.16, 10:44
Newbie Профиль · PM Рейтинг (т): нет	Это не курсач, но сделать надо, сжатие надо обязательно сделать по алгоритму Хаффмана, а что используют готовые бибиотеки я ж не знаю

0 пользователей читают эту тему (0 гостей и 0 скрытых пользователей)

0 пользователей:

[ Script execution time: 0,0329 ] [ 15 queries used ] [ Generated: 7.04.26, 04:35 GMT ]