यूसीएस-2 और यूटीएफ-16 कैरेक्टर एन्कोडिंग के दो प्रकार हैं, एक नया और दूसरा पुराना। ये वे विधियाँ हैं जो प्रत्येक अक्षर को एन्कोड करने के लिए दो बाइट्स (आठ बिट्स) का उपयोग करती हैं, इस प्रकार एक्सटेंशन 2 और 16।
ये अलग-अलग एन्कोडिंग मानक हैं जिनमें अक्षरों को एक उपचारित बिट स्ट्रिंग, जैसे 16 बिट्स (2 बाइट्स) द्वारा प्रस्तुत किया जाता है। अधिकांश संचार प्रणालियाँ संदेश निर्माण से संबंधित मुख्य गतिविधि के दौरान इसे बैकअप के रूप में उपयोग करती हैं।
और यह आलेख उनके उपयोग के साथ-साथ विभिन्न एन्कोडिंग कोड के बीच अंतर निर्दिष्ट करने में आपकी सहायता कर सकता है।
चाबी छीन लेना
- यूसीएस-2 एक निश्चित-लंबाई, दो-बाइट वर्ण एन्कोडिंग मानक है जो यूनिकोड वर्णों के सीमित सेट का प्रतिनिधित्व करता है।
- UTF-16 एक वैरिएबल-लंबाई वर्ण एन्कोडिंग है जो सभी यूनिकोड वर्णों का प्रतिनिधित्व करने के लिए दो या चार बाइट्स का उपयोग करता है।
- अपने व्यापक चरित्र प्रतिनिधित्व के कारण, यूटीएफ-16 ने पूर्ण यूनिकोड समर्थन की आवश्यकता वाले अनुप्रयोगों के लिए बड़े पैमाने पर यूसीएस-2 को प्रतिस्थापित कर दिया है।
यूसीएस 2 बनाम यूटीएफ 16
यूसीएस 2 और यूटीएफ 16 के बीच अंतर यह है कि यूसीएस-2 एक पुरानी प्रणाली है जिसे काफी आधुनिक और अधिक परिष्कृत यूटीएफ-16 के पक्ष में पहले ही खारिज कर दिया गया है। यूसीएस-2 एक स्थिर-चौड़ाई वाला संपीड़न है जो प्रत्येक वर्ण के लिए दो बाइट्स का उपयोग करता है, जिससे यह 216 अक्षरों तक या विभिन्न प्रकार के 65 हजार से अधिक वर्णों को एन्कोड करने की अनुमति देता है। दूसरी ओर, यूटीएफ-16 एक लचीली चौड़ाई वाली एम्बेडिंग प्रणाली है जिसमें प्रत्येक अक्षर के लिए न्यूनतम दो बाइट्स और अधिकतम चार बाइट्स की आवश्यकता होती है।
यूसीएस-2, 'यूनिवर्सल कैरेक्टर कोडेड सेट', एक अक्षर कोडिंग प्रणाली है जो प्रत्येक अक्षर को एक हल की गई 16-बिट स्ट्रिंग (2 बाइट्स) द्वारा एन्कोड करती है।
अधिकांश GSM नेटवर्क इसका उपयोग बैकअप के रूप में करते हैं जब संचार को GSM-7 का उपयोग करके कोडित नहीं किया जा सकता है या यदि किसी बोली को दिखाने के लिए 128 बिट्स से अधिक की आवश्यकता होती है।
यूटीएफ-16 का मतलब '16-बिट' है यूनिकोड परिवर्तन प्रारूप' और एक टेक्स्ट एनकोडर है जो यूसीएस 1,112,064 की तरह ही सभी 2 वैध एएससीआईआई एन्कोडिंग इकाइयों को एनकोड कर सकता है।
कोडिंग अवधि में लचीली है क्योंकि कोड इकाइयों को एक या दो 16-बिट कोड सबयूनिट का उपयोग करके एन्क्रिप्ट किया जाता है।
तुलना तालिका
तुलना के पैरामीटर | यूसीएस 2 | यूटीएफ 16 |
---|---|---|
पूर्ण प्रपत्र | यूसीएस-2, 2 ऑक्टेट में कोडित यूनिकोड कैरेक्टर सेट का संक्षिप्त रूप है। | यूनिकोड ट्रांसफ़ॉर्मेशन फ़ॉर्मेट-16 को संक्षेप में यूटीएफ 16 कहा जाता है। |
परिभाषा | यूसीएस-2 दो बाइट्स की निरंतर चौड़ाई वाला एक यूनिकोड वर्ण एन्कोडिंग है। | UTF-16 एक चर-चौड़ाई वाला वर्ण सेट है जिसमें प्रत्येक अक्षर के लिए दो या चार बाइट्स की आवश्यकता होती है। |
» | केवल 65,536 कोड बिंदुओं को एन्कोड किया जा सकता है। | यूटीएफ 1,112,064 में 12 कोड प्वाइंट एनकोड किए जा सकते हैं। |
आवेदन | Windows NT 3.1 से Windows 95 तक के पूर्व Windows संस्करण। | Windows 2000 से लेकर वर्तमान संस्करण और JAVA आधारित एप्लिकेशन भी। |
अनुकूलता | पश्चगामी रूप से संगत नहीं है और अप्रचलित है | पश्चगामी संगतता उपलब्ध है और अप्रचलित नहीं है। |
यूसीएस 2 क्या है?
यूसीएस-2, 2 ऑक्टेट में कोडित यूनिकोड कैरेक्टर सेट का संक्षिप्त रूप है। अंतर्राष्ट्रीय मानकीकरण संगठन (आईएसओ) आईएसओ 2 में यूसीएस-10646 के साथ-साथ अन्य यूसीएस विनिर्देशों को परिभाषित करता है।
यूसीएस-2 कुल 65,536 अक्षरों या 0000एच से एफएफएफएफएच (2 बाइट्स) के बीच के हेक्स मान की अनुमति देता है। यूसीएस-2 ग्लिफ़ यूनिकोड के बेसिक बेस प्लेन के साथ समन्वयित हैं।
संभावित वर्णों की एक बड़ी श्रृंखला की आवश्यकता होती है क्योंकि कई भाषाओं में 128 से अधिक प्रतीक नियमित रूप से नियोजित होते हैं। यूसीएस-2 को कई जीएसएम डेटा नेटवर्क में तैनात किया गया है और इसे व्यापक रूप से एक वास्तविक बैकअप माना जाता है।
यूनिकोड मानक के अनुसार, यूसीएस-2 पुराना हो चुका है क्योंकि इसका उद्देश्य यूनिकोड में अतिरिक्त या 'एस्ट्रल' विमानों जैसे वर्णों का समर्थन करना नहीं था।
प्लेन 0, मौलिक बहुभाषी प्लेन, उन ग्लिफ़ के लिए कैरेक्टर कम्प्रेशन एल्गोरिदम प्रदान करता है जिन्हें भाषाओं में सबसे अधिक नियमित रूप से उपयोग किया जाता है। UCS-2 की कोडिंग बिंदु सीमा FFFFh है, जिसमें कुल 65,536 संभावित वर्ण हैं।
UTF-16, UCS-2 का उत्तराधिकारी है, और यह कुल 16FFFFh वर्णों या 10 कोडिंग बिंदुओं के लिए बेस प्लस 1,114,112 पूरक विमानों को संभाल सकता है। अब चूंकि "चरित्र" शब्द का अत्यधिक उपयोग हो गया है, इसलिए कोड बिंदुओं की ओर संकेत करना कहीं अधिक सटीक है।
कोडिंग बिंदु कोडिंग में जानकारी संग्रहीत करने की मूलभूत इकाई हैं, जो अक्षर शब्दों से अलग होने में सक्षम बनाती हैं।
यूटीएफ 16 क्या है?
यूटीएफ-16 (16-बिट यूनिकोड ट्रांसफॉर्म फॉर्मेट) एक ग्लिफ़ एन्कोडिंग (यूसीएस 2 के समान) है जो सभी 1,112,064 अर्ध-असीसी कोड बिंदुओं को एनकोड कर सकता है। क्योंकि कोड बिंदुओं को एक या दो 16-बिट कोडिंग सबयूनिट का उपयोग करके एन्कोड किया जाता है, कोडिंग लंबाई में लचीली होती है।
जब तक यह स्पष्ट नहीं हो गया कि 216 (65,536) से अधिक कोडिंग इकाइयों की आवश्यकता थी, यूटीएफ-16 16-बिट कोडिंग के पुराने सेट से विकसित हुआ जिसे यूसीएस-2 (2-बाइट यूनिवर्सल कैरेक्टर सेट के लिए) के रूप में जाना जाता है।
मौलिक रूप से, माइक्रोसॉफ्ट द्वारा विंडोज़ जैसे सिस्टम कोर जावा भाषा और टाइपस्क्रिप्ट UTF-16 का उपयोग करते हैं। माइक्रोसॉफ्ट विंडोज़ पर, इसका उपयोग आमतौर पर स्पष्ट टेक्स्ट या वर्ड-प्रोसेसिंग फ़ाइल सिस्टम के लिए भी किया जाता है।
यूनिक्स जैसे प्लेटफ़ॉर्म पर, निर्देशिकाओं के लिए इसका उपयोग शायद ही कभी किया जाता है। मई 2019 तक, ऐसा प्रतीत होता है कि Microsoft ने अपनी स्थिति में संशोधन किया है और अब UTF-8 के उपयोग का समर्थन और सलाह देता है।
ऐसा प्रतीत होता है कि UTF-16 ASCII के साथ असंगत एकमात्र वेब-एन्कोडिंग है और इसने कभी भी इंटरनेट पर अधिक लोकप्रियता हासिल नहीं की है, जहां इसका उपयोग 0.002% से भी कम (एक प्रतिशत के एक हजारवें हिस्से से थोड़ा अधिक) ऑनलाइन साइटों द्वारा किया जाता है।
इसके विपरीत, सभी ऑनलाइन पेजों में से 8 प्रतिशत द्वारा यूटीएफ-98 का उपयोग किया जाता है।
वेब हाइपरलिंक एप्लिकेशन टेक्नोलॉजी वर्किंग ग्रुप UTF-8 को "सभी [पाठ] के लिए आवश्यक प्रारूप" मानता है और मानता है कि वेब ऐप्स को सुरक्षा चिंताओं के लिए UTF-16 का उपयोग नहीं करना चाहिए।
यूसीएस 2 और यूटीएफ 16 के बीच मुख्य अंतर
- यूसीएस 2 वाक्यांश का संक्षिप्त रूप है, 'यूनिकोड कैरेक्टर सेट कोडेड इन 2 ऑक्टेट्स', जबकि यूटीएफ 16 का अर्थ 'यूनिकोड ट्रांसफॉर्मेशन फॉर्मेट -16' है।
- यूसीएस-2 एन्कोडिंग विधि स्थिर चौड़ाई है, जबकि यूटीएफ-16 एन्कोडिंग योजना लचीली चौड़ाई है।
- यूसीएस 2 को अब अप्रचलित माना जाता है, जबकि यूटीएफ 16 अधिकांश वेब पेजों और नेटवर्क के साथ संगत नवीनतम एन्कोडिंग योजना है।
- यूसीएस 2 सामान्यीकरण की अनुमति नहीं देता है, जबकि यूटीएफ 16 सामान्यीकरण की अनुमति देता है।
- यूसीएस 2 पश्चगामी संगत नहीं है, जबकि यूटीएफ 16 पश्चगामी संगत है।
- https://www.twilio.com/docs/glossary/what-is-ucs-2-character-encoding
- https://www.oreilly.com/library/view/xml-in-a/0596007647/ch05s05s01.html
अंतिम अद्यतन: 11 जून, 2023
संदीप भंडारी ने थापर विश्वविद्यालय (2006) से कंप्यूटर में इंजीनियरिंग में स्नातक की उपाधि प्राप्त की है। उनके पास प्रौद्योगिकी क्षेत्र में 20 वर्षों का अनुभव है। उन्हें डेटाबेस सिस्टम, कंप्यूटर नेटवर्क और प्रोग्रामिंग सहित विभिन्न तकनीकी क्षेत्रों में गहरी रुचि है। आप उनके बारे में और अधिक पढ़ सकते हैं जैव पृष्ठ.
लेख में यूसीएस-2 और यूटीएफ-16 के महत्वपूर्ण पहलू गायब हैं जो विषय को पूरी तरह से समझने में उपयोगी हो सकते हैं।
मैं पहले से ही अंतर जानता था, लेकिन इस लेख ने इस विषय पर मेरी समझ का विस्तार किया है।
मुझे यह जानकारी बहुत उपयोगी लगी. बहुत-बहुत धन्यवाद!
अत्यंत संपूर्ण और विस्तृत विवरण के लिए धन्यवाद. अब आख़िरकार मतभेदों को समझकर मुझे सचमुच ख़ुशी हो रही है।
यह लेख UCS-2 और UTF-16 से संबंधित बहुत सारी मूल्यवान जानकारी लाता है।