Аналогия   ::   Медников Борис Михайлович

Страница: 44 из 96

 Шеннон дал формулу, которая в настоящее время во всей человеческой деятельности играет столь же важную роль, как и эйнштейновская Е = mc²:

Н = – k ∑p ilog(p i )

Здесь pi – вероятность состояния системы, о котором сообщается в сигнале, log(pi) – логарифм этой вероятности и k – коэффициент пропорциональности, т. е. постоянная, определяющая единицу измерения. Н – принято называть энтропией источника сообщений, иногда просто информацией.

Эта формула очень похожа на формулу энтропии в статистической физике. Однако k там – константа Больцмана (1,37x10 -16 эрг/градус). В теории информации принято двоичное исчисление и логарифмы при основании 2. Тогда k = 1 и единица измерения Н – биты (сокращенное binary digits, двоичные единицы – не путать с байтами!). Один бит – столько информации содержится в ответе на вопрос: «Кто родился: мальчик или девочка?»

В передаваемой по каналу связи информации выделяются тексты, которые можно разбить на символы, и каждому символу придать значение (энтропия на символ).

Так, если бы в тексте на русском языке все буквы, включая знаки препинания и пробел между словами (32 символа), встречались с равной частотой, информационная емкость русского алфавита равнялась бы:

-∑1/32 log 2 1/32 = log32 = 5 бит/символ

Обычно она гораздо меньше. 5 бит/символ – это предельная величина. Но во всех реальных текстах символы встречаются с разной частотой, и энтропия обычно меньше, примерно в 2,5 раза, и приближается к двум битам на символ. Отсюда можно подсчитать и объем информации в тексте. Например, в авторском листе (единице объема рукописей) 40 000 символов и, значит, 80 000 бит информации.

|< Пред. 42 43 44 45 46 След. >|

Java книги

Контакты: [email protected]