Як виміряти повідомлення числами: бітова міра, ентропія та алгоритмічна складність
Кількісна оцінка інформації потрібна не лише в підручниках: без неї неможливо коректно говорити про стиснення даних, надійність кодування та межі передачі повідомлень. Досвідчений експерт зазвичай починає з простих інтуїцій: скільки варіантів вибору існує і наскільки передбачуваний результат.
Бітова міра вибору: скільки «так/ні» потрібно, щоб вгадати результат
Коли всі можливі результати рівноймовірні, кількість інформації пов’язують із числом варіантів вибору. Фахівець описує це як мінімальну кількість двійкових запитань із відповідями «так/ні», що дозволяють однозначно визначити обраний об’єкт. Така міра природно приводить до бітів і логарифма за основою 2: що більше можливостей, то більше бітів потрібно.
Практичний розбір зручно уявити на прикладі вибору однієї карти з колоди. Якщо колода має 32 рівноймовірні карти, то для точного визначення вибору потрібно 5 бітів, адже 25=32. Це можна інтерпретувати як п’ять послідовних запитань «так/ні», які в сумі звужують пошук до однієї карти; відповіді формують бінарний код на кшталт 00101.
Типова помилка — вимагати ціле число запитань у кожному випадку, навіть коли кількість варіантів не є степенем двійки. Для колоди з 36 карт інколи вистачить 5 запитань, а інколи знадобиться 6; середнє значення і дає нецілу величину за формулою. Порада експерта: у таких задачах важливо відрізняти гарантовану верхню межу (найгірший випадок) від очікуваної кількості бітів. Підсумок: бітова міра пояснює «скільки рішень» потрібно, а не завжди «скільки кроків» у кожній ситуації.
Ентропія та ймовірності: чому рідкісні символи «важать» більше
У реальних повідомленнях результати майже ніколи не рівноймовірні: одні символи, слова або події трапляються частіше, інші — рідше. Саме тут з’являється ймовірнісна кількісна оцінка інформації, де враховуються ймовірності вибору символів Pi. Досвідчений експерт пояснює це так: несподіваний, малоймовірний символ несе більше інформації, бо сильніше змінює уявлення про те, що відбулося.
Практичний приклад: у тексті пробіл і найпоширеніші літери мають великі Pi, тому «повідомляють» мало нового — вони очікувані. Натомість рідкісні літери або нестандартні знаки мають менші Pi, отже додають більше інформації. Саме тому кодування, яке відводить коротші коди частим символам, а довші — рідкісним, дає виграш у стисненні: середня довжина коду наближається до ентропії джерела.
Поширені помилки — оцінювати інформацію лише «довжиною тексту» або плутати інформацію зі змістовністю. Два однакові за обсягом повідомлення можуть мати різну ентропію: повторюваний шаблон менш інформативний, ніж різноманітний потік символів. Порада експерта: перед розрахунками слід чітко визначити алфавіт (набір можливих символів) і модель ймовірностей, інакше цифри будуть випадковими. Підсумок: ентропія дає середню міру невизначеності та прямо підказує межі ефективного кодування.
Алгоритмічна складність: інформація як «розмір програми», що відтворює повідомлення
Є ще один погляд: оцінювати інформацію не через ймовірності, а через те, наскільки складно згенерувати повідомлення алгоритмом. В алгоритмічній теорії інформації кількість інформації пов’язують із мінімальним описом, який дозволяє відтворити рядок. Фахівець формулює інтуїцію просто: якщо повідомлення має закономірність, її можна описати коротко; якщо закономірності немає, опис майже такий самий довгий, як і саме повідомлення.
Практичний розбір добре видно на двійкових рядках. Послідовність виду 0000…0 породжується дуже короткою програмою: «надрукувати нуль N разів». Рядок 0101…01 також має компактний опис: «чергувати 0 і 1». А от послідовність, схожа на результат підкидань монети (0 — «герб», 1 — «решка»), зазвичай не стискається: щоб її відтворити, потрібна програма, яка фактично містить майже весь рядок.
Типова помилка — сприймати алгоритмічну складність як практичний інструмент для точного обчислення «в лоб». Насправді вона залежить від обраної моделі обчислень (наприклад, машини Тьюринга) і задає концептуальну нижню межу стисливості, а не завжди зручний числовий рецепт. Порада експерта: для прикладних задач доцільно поєднувати підходи — використовувати ентропію для статистичних джерел і оцінювати стисливість через виявлення шаблонів. Підсумок: алгоритмічна міра показує, чи є в повідомленні структура, яку можна коротко описати.
Кількісна оцінка інформації має кілька взаємодоповнювальних мов: біти як кількість двійкових рішень, ентропія як середня невизначеність за ймовірностями та алгоритмічна складність як довжина найкоротшого опису. Практична порада: перед вибором методу слід визначити, що саме вимірюється — кількість варіантів, статистика символів чи наявність закономірностей у повідомленні.