शैनन ने सूचना को क्या कहा
शैनन ने आश्चर्य को मापकर सूचना को परिभाषित किया। संभावना p वाला एक संदेश निम्न सूचना ले जाता है:
I = −log₂(p) बिट्स
एक निश्चित घटना (p = 1) 0 बिट्स ले जाती है — कोई आश्चर्य नहीं, कोई सूचना नहीं। एक दुर्लभ घटना (p = 1/1024) 10 बिट्स ले जाती है।
हैमिंग तुरंत समस्या को चिह्नित करता है: यह अवधारणा की परिभाषा नहीं है, बल्कि एक परिमाण को मापने का सूत्र है। यह मशीन जैसे आश्चर्य को मापता है, मानवीय अर्थ को नहीं। एक छात्र जो पहले से ही किसी प्रश्न का उत्तर जानता है, वह उत्तर से 0 बिट्स प्राप्त करता है — भले ही दूसरों के लिए उत्तर कितना महत्वपूर्ण हो।
यह सूत्र टेलीफोन सिस्टम, रेडियो, कंप्यूटर के लिए अच्छी तरह काम करता है। यह मानवीय संचार, जीव विज्ञान, या अर्थ के लिए खराब तरीके से लागू होता है। हैमिंग का पसंदीदा नाम: 'संचार सिद्धांत', 'सूचना सिद्धांत' नहीं।
एन्ट्रॉपी
q प्रतीकों की एक वर्णमाला के लिए संभावनाएं p₁, p₂, ..., p_q के साथ, प्रति प्रतीक औसत सूचना एन्ट्रॉपी है:
H = −Σᵢ pᵢ log₂(pᵢ)
जब सभी संभावनाएं समान हों तो H अपने अधिकतम पर पहुंचता है: H_max = log₂(q) बिट्स। किसी भी गैर-समान वितरण में कम एन्ट्रॉपी होती है।
एन्ट्रॉपी की गणना
बाइनरी एन्ट्रॉपी: दो प्रतीकों वाला एक स्रोत, P(0) = p, P(1) = 1−p।
H(p) = −p log₂(p) − (1−p) log₂(1−p)
H(p) = 0 जब p = 0 या p = 1 (पूरी तरह अनुमानित)। H(p) = 1 बिट जब p = 0.5 (पूरी तरह अप्रत्याशित)।
गिब्स असमानता व शोरहीन कोडिंग
गिब्स असमानता: किसी भी दो संभाव्यता वितरण p = {pᵢ} व q = {qᵢ} के लिए:
−Σ pᵢ log₂(pᵢ) ≤ −Σ pᵢ log₂(qᵢ)
समानता केवल तभी होती है जब p = q। यह प्राथमिक तथ्य पर टिकी है कि सभी x > 0 के लिए ln(x) ≤ x − 1, समानता x = 1 पर।
परिणाम: एन्ट्रॉपी H(p) अधिकतम होती है जब सभी प्रतीक समान रूप से संभावित हों। q प्रतीकों के लिए: H_max = log₂(q)।
शोरहीन कोडिंग प्रमेय: विशिष्ट रूप से डिकोडेबल कोड को देखते हुए, क्राफ्ट असमानता के लिए Σ 2^(−lᵢ) ≤ 1 आवश्यक है जहां lᵢ प्रतीक i के कोड की लंबाई है। गिब्स असमानता द्वारा, औसत कोड लंबाई L = Σ pᵢ lᵢ निम्नलिखित को संतुष्ट करती है:
L ≥ H(p) = −Σ pᵢ log₂(pᵢ)
आप एन्ट्रॉपी से औसत पर बेहतर नहीं कर सकते। हफ़मैन कोडिंग L < H + 1 प्राप्त करता है।
चैनल क्षमता
एक बाइनरी सिमेट्रिक चैनल (BSC) प्रत्येक बिट को स्वतंत्र रूप से त्रुटि संभावना Q = 1 − P के साथ फ्लिप करता है। BSC की क्षमता — अधिकतम विश्वसनीय सूचना दर — है:
C = 1 + P log₂(P) + Q log₂(Q) = 1 − H(Q)
जहां H(Q) = −Q log₂(Q) − (1−Q) log₂(1−Q) त्रुटि दर की बाइनरी एन्ट्रॉपी है।
Q = 0 पर (कोई त्रुटि नहीं): C = 1 बिट/संचरण (परिपूर्ण चैनल)। Q = 0.5 पर (यादृच्छिक फ्लिपिंग): C = 0 (चैनल कोई सूचना नहीं ले जाता)। Q = 1 पर (सभी बिट्स फ्लिप): C = 1 (आप बिल्कुल जानते हैं कि प्रेषक ने क्या भेजा, बस सब कुछ वापस फ्लिप करें)।
C अधिकतम दर R को मापता है जिस पर आप मनमाने ढंग से छोटी त्रुटि संभावना के साथ संचरण कर सकते हैं। यदि R < C, ऐसे कोड मौजूद हैं। यदि R > C, वे नहीं हैं — कोई भी कोड क्षमता को हरा नहीं सकता।
चैनल क्षमता की गणना
P = 0.9 के साथ (10% त्रुटि दर, Q = 0.1):
C = 1 + 0.9 log₂(0.9) + 0.1 log₂(0.1)
log₂(0.9) ≈ −0.152, log₂(0.1) ≈ −3.322
C ≈ 1 + 0.9×(−0.152) + 0.1×(−3.322) = 1 − 0.137 − 0.332 ≈ 0.531 बिट्स/संचरण
प्रमेय क्या साबित करता है
शैनन का मौलिक प्रमेय: किसी भी दर R < C के लिए, लंबे ब्लॉक n (n → ∞ के साथ) के कोड मौजूद हैं जो त्रुटि संभावना P_E → 0 प्राप्त करते हैं।
प्रमाण एक आश्चर्यजनक तर्क का उपयोग करता है: यादृच्छिक कोड। एक विशिष्ट कोड बनाने के बजाय, शैनन सभी संभावित यादृच्छिक कोडबुक (सिक्का-फ्लिप एन्कोडिंग) पर औसत निकालता है। उन्होंने दिखाया कि सभी कोडबुक पर औसत त्रुटि छोटी है। यदि औसत छोटा है, तो कम से कम एक कोड छोटी त्रुटि प्राप्त करता है।
क्षेत्र-आधारित विश्लेषण: प्रेषक संदेश aᵢ → n-आयामी बाइनरी स्पेस में aᵢ के चारों ओर त्रिज्या n(Q + ε₂) का क्षेत्र। बड़े n के लिए, प्राप्त शब्द bⱼ उच्च संभावना के साथ इस क्षेत्र में स्थित है। प्राप्तकर्ता bⱼ युक्त क्षेत्र वाले कोडवर्ड को डिकोड करता है।
चार मामले त्रुटि संभावना P_E निर्धारित करते हैं:
``
aᵢ in sphere other aⱼ in sphere outcome
yes no correct (no error)
yes yes ambiguous → error
no yes wrong decode → error
no no outside all spheres → error
``
P_E पर बाध्यता इस तरह काम करती है: P_E ≤ d + M × 2^(n × (H(Q+ε₂) − C)) उपयुक्त d व ε₂ के लिए। H(Q+ε₂) < C इस तरह ε₂ चुनना घातांक को नकारात्मक बनाता है। बड़े n के लिए, दूसरा पद → 0।
प्रमेय की अस्तित्ववादी प्रकृति
हैमिंग प्रमेय क्या करता है व क्या नहीं करता है, इसके बारे में सटीक था।
यह क्या साबित करता है: दर R < C पर विश्वसनीय संचार, सिद्धांत में, पर्याप्त बड़े n के लिए संभव है।
यह क्या प्रदान नहीं करता है: स्पष्ट कोड निर्माण। क्षमता के करीब आने के लिए पर्याप्त बड़ा यादृच्छिक कोड लंबाई n की एक कोडबुक का आकार M × n बिट्स है, जहां M व n दोनों विशाल हैं। आप इसे संग्रहीत या गणना नहीं कर सकते।
त्रुटि-सुधार कोड बनाम शैनन: त्रुटि-सुधार कोड (हैमिंग, रीड-सोलोमन, टर्बो, LDPC) स्पष्ट, संगणनीय निर्माण प्रदान करते हैं। वे व्यावहारिक एन्कोडर व डिकोडर के लिए क्षमता से कुछ दूरी का त्याग करते हैं। जैसे n बढ़ता है व प्रति ब्लॉक अधिक त्रुटियों को ठीक किया जाता है, व्यावहारिक कोड क्षमता के करीब पहुंच सकते हैं।
अंतरिक्ष उपग्रह उदाहरण: वॉयेजर व पायनियर ने अरबों मील तक संचार करने के लिए शक्तिशाली त्रुटि-सुधार कोड का उपयोग किया 5–20 वाट शक्ति पर। लंबे ब्लॉक लंबाई ने प्रति ब्लॉक अधिक त्रुटियों को ठीक करने की अनुमति दी, दूरी से विशाल शोर के बावजूद क्षमता के करीब धकेला।
आलोचनात्मक मूल्यांकन
हैमिंग ने विज्ञान में परिभाषाओं पर एक व्यापक आलोचना के साथ अध्याय 13 को बंद किया। शैनन की सूचना सूत्र मशीन-आश्चर्य को मापता है, मानवीय अर्थ को नहीं। 'सूचना सिद्धांत' नाम अधिक वादा करता है। मछली पकड़ने का जाल सादृश्य: एक मछुआरा जो केवल जाल के जाल से बड़ी मछली पकड़ता है, यह निष्कर्ष निकालता है कि कोई छोटी मछली नहीं है। उपकरण की सीमाएं दुनिया की स्पष्ट बाधा बन जाती हैं।
परिभाषाओं के साथ समस्या
हैमिंग ने सूचना सिद्धांत का उपयोग एक बड़े पद्धतिशास्त्रीय बिंदु बनाने के लिए किया: आरंभिक परिभाषाएं निर्धारित करती हैं कि आप क्या खोजते हैं, अधिकांश लोग मानते हैं की तुलना में अधिक।
शैनन ने 'सूचना' को आश्चर्य के रूप में परिभाषित करना चुना। वह परिभाषा संचार इंजीनियरिंग के लिए उत्पादक थी। लेकिन यह एक विशिष्ट दायरे — मशीन जैसी प्रणालियां — को एक शब्द ('सूचना') में आयात करता है जो सार्वभौमिक प्रयोज्यता का सुझाव देता है।
मछली पकड़ने का जाल सादृश्य: 6-इंच जाली वाला जाल केवल बड़ी मछली पकड़ता है। मछुआरा निष्कर्ष निकालता है: न्यूनतम मछली का आकार 6 इंच है। निष्कर्ष दुनिया को नहीं, उपकरण को प्रतिबिंबित करता है।
IQ एक समानांतर है: एक परीक्षण 'बुद्धिमत्ता' को मापने के लिए डिज़ाइन किया गया था, सामान्य वितरण का उत्पादन करने के लिए कैलिब्रेट किया गया, फिर बुद्धिमत्ता को परिभाषित करने के लिए उपयोग किया गया। उपकरण अवधारणा को आकार देता है।
हैमिंग की सिफारिश: जब भी आप एक परिभाषा का सामना करते हैं, पूछें (1) यह आपके पूर्व अंतर्ज्ञान से कितना सहमत है? (2) यह कितना विकृत करता है? (3) किन परिस्थितियों में तैयार किया गया? (4) क्या इसे अब भिन्न परिस्थितियों में लागू किया जा रहा है?