दिलचस्प पोस्ट
वेबपैक "ओटीएस पार्सिंग त्रुटि" लोडिंग फोंट "इस ऐप की दर / समीक्षा" के लिए ऐप स्टोर लिंक एंड्रॉइड स्टूडियो और ग्रेडल के साथ दृश्यपेज इंडिकेटर लाइब्रेरी का उपयोग करना सभी जांच चेकबॉक्स कैसे प्राप्त करें एक विविधतापूर्ण टेम्पलेट फ़ंक्शन के विषम तर्क पैक पर जेनेरिक कंप्यूटेशन कैसे करें? CALayer: केवल एक तरफ एक सीमा जोड़ें ब्राउज़र में प्रदर्शित नहीं होने वाली PHP त्रुटियाँ एकाधिक Servlets को बुलाए हुए एक ही रूप में एकाधिक सबमिट करें बटन पायथन कैसे पाइप काम करता है? <Input type = "hidden"> का मूल उद्देश्य? कैसे चेक करें कि कोई ऑब्जेक्ट एक सूची या टपल (लेकिन स्ट्रिंग नहीं) है? एसक्यूएल तिथि बनाम जावा.sql.Date में समयक्षेत्र पुश सूचना प्रौद्योगिकी एंड्रॉइड पर कैसे काम करता है? अपाचे को HTTP से https और www को www www पर पुनर्निर्देशित करें SciPy 2D बहुभुज मास्क बनाएँ

पायथन और यूनिकोड के साथ नियमित अभिव्यक्ति

मुझे स्ट्रिंग 'بسم الله الرحمن الرحيم' से कुछ यूनिकोड प्रतीकों को हटाना होगा

मुझे पता है कि वे यहां मौजूद हैं। मैंने कोशिश की:

re.sub('([\u064B-\u0652\u06D4\u0670\u0674\u06D5-\u06ED]+)', '', 'بِسْمِ اللَّهِ الرَّحْمَٰنِ الرَّحِيمِ') 

लेकिन यह काम नहीं करता है स्ट्रिंग एक ही रहता है। मैं क्या गलत कर रहा हूं?

Solutions Collecting From Web of "पायथन और यूनिकोड के साथ नियमित अभिव्यक्ति"

क्या आप अजगर 2.x या 3.0 का प्रयोग कर रहे हैं?

यदि आप 2.x का प्रयोग कर रहे हैं, तो 'यू' के साथ रीगएक्स स्ट्रिंग को यूनिकोड-एस्केप स्ट्रिंग बनाने का प्रयास करें। चूंकि यह आपके regex स्ट्रिंग को एक कच्ची स्ट्रिंग बनाने के लिए अच्छा अभ्यास है, चूंकि 'r' इसके अलावा, कोष्ठकों में अपना पूरा पैटर्न डालना अनावश्यक है

 re.sub(ur'[\u064B-\u0652\u06D4\u0670\u0674\u06D5-\u06ED]+', '', ...) 

http://docs.python.org/tutorial/introduction.html#unicode-strings

संपादित करें:

यूनिकोड रीगेक्सेस के लिए पुनः यूनिकोड / पुन। यू / (? यू) फ्लैग का उपयोग करने के लिए भी अच्छा अभ्यास है, लेकिन यह केवल क्लास एलियास को प्रभावित करता है जैसे \ w या \ b, जिसमें से यह पैटर्न किसी का उपयोग नहीं करता है और ऐसा नहीं करेगा प्रभावित होना।

यूनिकोड स्ट्रिंग्स का उपयोग करें पुनः न्युनिकोड झंडा का प्रयोग करें।

 >>> myre = re.compile(ur'[\u064B-\u0652\u06D4\u0670\u0674\u06D5-\u06ED]+', re.UNICODE) >>> myre <_sre.SRE_Pattern object at 0xb20b378> >>> mystr = u'بِسْمِ اللَّهِ الرَّحْمَٰنِ الرَّحِيمِ' >>> result = myre.sub('', mystr) >>> len(mystr), len(result) (38, 22) >>> print result بسم الله الرحمن الرحيم 

योएल स्पोलस्की द्वारा लेख को पूरी तरह से हर सॉफ्टवेयर डेवलपर को निरपेक्ष न्यूनतम, सकारात्मक रूप से यूनिकोड और कैरेक्टर समूह के बारे में जानना चाहिए (कोई बहाना नहीं!) पढ़ें।