Страница:
75 из 96
Добрушин учел корреляции между соседними буквами. Получилась следующая фраза:
умароно кач всванный рося ных ковкров недаре (3)
Энтропия на символ снижается до 3,52 бит, но фразу уже можно прочесть, не запинаясь. Но ведь корреляции касаются не только соседних букв, но и третьих и четвертых за выбранными. Если учтем частоту трехбуквенных сочетаний, будет фраза вроде:
покак пот дурноскака наконепио зне стволовил се твой обниль (4)
В ней уже встречаются вполне русские слова и части слов (энтропия 3,01 бит/символ). С учетом четырехбуквенных сочетаний получается фраза, которую, если ее быстро произнести, можно счесть за русскую:
весел враться не сухом и непо и корко (5)
Ясно, что учет более дальних корреляций приведет к появлению чисто русских слов, в дальнейшем уже и не в бессмысленных комбинациях, а энтропия на символ будет снижаться. Расшифровка поврежденного или закодированного текста «по Паганелю» как раз и связана с учетом корреляций между символами.
А как обстоит дело с символами в нуклеотидной последовательности ДНК или в аминокислотной – белка? Этот вопрос занимал меня давно, еще тогда, когда не был прочтен ни один ген, а за расшифровку первого белка – инсулина Сэнгер получил свою первую Нобелевскую премию. Поэтому я старался каждую появившуюся в литературе последовательность оценить с этой точки зрения. И уже первые результаты смущали и заставляли задуматься.
|< Пред. 73 74 75 76 77 След. >|