दिलचस्प पोस्ट
PHP: एक स्ट्रिंग से एक यूआरएल पाने के लिए नियमित अभिव्यक्ति लगातार मेमोरी से इनपुट स्ट्रीम बनाना Trusted_Connection = सत्य और SQL सर्वर प्रमाणीकरण का उपयोग करते समय, यह प्रभाव प्रदर्शन होगा? इकाई फ़्रेमवर्क में कई कॉलम के लिए अद्वितीय कुंजी बाधाएं PHP द्वारा वेबपेज के ओपन ग्राफ़ प्रोटोकॉल कैसे प्राप्त करें? java.lang.UnsatisfiedLinkError no *****। dll in java.library.path CSS में '@' प्रतीक का उद्देश्य क्या है? php में संबंधित नेस्टेड टर्नेरी ऑपरेटर? लिंक्ड सर्वर नल के लिए OLE DB प्रदाता Microsoft.Jet.OLEDB.4.0 का उदाहरण नहीं बना सकता बनाओ सीएसएस हॉवर राज्य "रहो" के बाद रहना एंड्रॉइड में डाक डेटा भेज रहा है grep -P अब काम नहीं करता है कि मैं अपनी खोजों को फिर से कैसे लिख सकता हूं स्ट्रिंग को इसके समतुल्य LINQ अभिव्यक्ति ट्री में कनवर्ट कैसे करें? एकाधिक जावास्क्रिप्ट ऑब्जेक्ट्स से गुणों को सम्मिलित करना एसक्यूएल सर्वर sp_msforeachtable उपयोग केवल उन तालिकाओं का चयन करने के लिए जो कुछ स्थिति से मेल खाते हैं

क्या किसी को Wiktionary का विश्लेषण है?

Wiktionary एक विकी शब्दकोश है जो कई भाषाओं को शामिल करता है इसके भी अनुवाद है। मुझे इसे पार्स करने और डेटा के साथ खेलने में दिलचस्पी होगी, क्या इससे पहले कोई भी ऐसा कुछ करता है? क्या कोई लाइब्रेरी है जिसका उपयोग मैं कर सकता हूं? (अधिमानतः पायथन।)

Solutions Collecting From Web of "क्या किसी को Wiktionary का विश्लेषण है?"

विकिपीडिया मीडियाविकी पर चलता है, जिसमें एक एपीआई है ।

एपीआई दस्तावेज़ीकरण के लिए उपपेजों में से एक क्लाइंट कोड है, जो कुछ पायथन लाइब्रेरीज़ को सूचीबद्ध करता है ।

मैंने एक बार एक विकी डंप डाउनलोड किया था, स्लाव भाषा के लिए शब्दों और परिभाषाओं को इकट्ठा करने की कोशिश कर रहा था। मैंने इसे एएमएलटीएम के माध्यम से जाने के लिए एलीमेंटिट्री का इस्तेमाल किया है जो डंप है I मैं साइट को स्क्रैप या क्रॉल करने की कोशिश करने से बचने के लिए, और सिर्फ एक्सएमएल डंप डाउनलोड करता है, जिसे विकीडिया ने विकीरीकरण के लिए प्रदान किया है। विकिमीडिया डाउनलोड पर जाएं, अंग्रेज़ी विकी डंप ( एन्क्रिप्शन ) के लिए देखें और सबसे हालिया डंप पर जाएं। आप शायद पन्नों- article.xml.bz2 फ़ाइल चाहते हैं, जो सिर्फ लेख की सामग्री है, कोई इतिहास या टिप्पणी नहीं है जो भी XML प्रसंस्करण पुस्तकालयों को आप अजगर में पसंद करते हैं उसके साथ पार्स करें। मैं व्यक्तिगत रूप से प्राथमिकता पसंद करता हूं सौभाग्य।

वर्डनिक ने एक अच्छी नौकरी पार्सिंग-आउट परिभाषाएं, आदि की है और उनके पास एक महान एपीआई है

जैसा कि अन्य लोगों ने उल्लेख किया है, विक्शनरी एक स्वरूपण-आपदा है, और कम्प्यूटर से पठनीय होने के लिए बनाया नहीं गया था

जर्मन विक्साइशी को पार्स करने में मुझे एक दरार था मैं इसे बहुत मुश्किल के रूप में लिखना समाप्त कर दिया, लेकिन मैंने अपना ( https://adg.in/benreynwar/wiktionary-parser/ ) पर छोड़ने से पहले अपने ऊपर (कोड में बिल्कुल भी नहीं) कोड डाल दिया यद्यपि संपादकों द्वारा उपयोग किए जाने वाले सम्मेलनों में उन्हें सहकर्मी की निगरानी के अलावा कुछ भी लागू नहीं किया जाता है पृष्ठों में सभी टाइपो के साथ प्रयुक्त टेम्पलेट्स की विविधता पार्सिंग को काफी चुनौतीपूर्ण बनाती है।

मुझे लगता है कि समस्या यह है कि उन्होंने विक्शनरी के लिए उसी प्रणाली का उपयोग किया है जो संपादकों द्वारा उपयोग में आसानी के लिए बहुत अच्छा है, लेकिन विक्शनरी की अधिक संरचित सामग्री के लिए उपयुक्त नहीं है यह शर्म की बात है क्योंकि अगर विक्शनरी को आसानी से पार्स किया जा सकता है तो यह बेहद उपयोगी संसाधन होगा।

हां, बहुत से लोगों ने विक्शनरी पार्स किया है आप आम तौर पर विगतान-एल मेलिंग सूची अभिलेखागार में पिछले अनुभव पा सकते हैं।

अन्य उत्तरों द्वारा उल्लेखित कोई प्रोजेक्ट डीबीपीडिया के विकीशन आरडीएफ निष्कर्षण नहीं है ।

अन्य अनुसंधान परियोजनाओं को विसिक्षण का विवरण दिया गया है: आप हाल ही में विकीसिक विशेष और विकिमीडिया अनुसंधान न्यूजलेटर के अन्य मुद्दों में कुछ उदाहरण पा सकते हैं।

हाल ही में किसी ने भी एक अंग्रेजी विकीशियन REST API बना दिया है जिसमें विकिमीशन डेटा के अनिर्दिष्ट सबसेट शामिल है; इस बात की भविष्य की योजना अभी तक ज्ञात नहीं है

MySQL पार्स किए गए विकिपीडिया डेटाबेस के साथ खेलने के लिए आपका स्वागत है जावा में लिखे गए पार्सर्स द्वारा बनाई गई दो डेटाबेस (अंग्रेजी विकीषन और रूसी विकिपीडिया) हैं: http://wikokit.googlecode.com

यदि आप PHP पसंद करते हैं, तो आप इस मशीन-पठनीय विकीशन 2 के लिए पविलेट -पीपीआईपी एपीआई के साथ खेलने के लिए स्वागत है

मैंने जर्मन डंप से एक शब्द सूची बनाई है, जैसे:

bzcat pages-articles.xml.bz2 | grep '<title>[^[:space:][:punct:]]*</title>' | sed 's:.*<title>\(.*\)</title>.*:\1:' > words 

आप डीबीएनरी प्रोजेक्ट में रुचि रखते हैं, अजगर नहीं बल्कि दिलचस्प 21 भाषाओं के लिए दावे का समर्थन पार्सिंग और यह शक्तियों के लिए वाकिफ है

यह इस बात पर निर्भर करता है कि आपको इसे कितनी अच्छी तरह समझना चाहिए। यदि आपको सिर्फ एक शब्द (परिभाषा, व्युत्पत्ति, उच्चारण, संयुग्मन, आदि) में किसी शब्द की सभी सामग्री प्राप्त करने की आवश्यकता है तो यह बहुत आसान है। मैंने पहले यह किया था, हालांकि जावा में jsoup का उपयोग करते हुए

हालांकि, अगर आपको इसे सामग्री के विभिन्न घटकों (उदाहरण के लिए सिर्फ एक शब्द की परिभाषाएं) में पार्स करने की आवश्यकता है, तो यह अधिक चुनौतीपूर्ण होगा किसी भाषा में किसी शब्द के लिए विकीनीकरण प्रविष्टि में कोई पूर्व-परिभाषित टेम्पलेट नहीं होता है, इसलिए शीर्षलेख <h3> से <h6> कुछ भी हो सकता है, वर्गों का क्रम गड़बड़ हो सकता है, वे पुनरावृत्त हो सकते हैं, आदि।

जेडब्ल्यूकेटीएल भी है जो विकीर्ण से संरचित डेटा को पार्स करने और निकालने में अच्छा काम करता है। यह जावा में लिखा है और अंग्रेजी, जर्मन और रूसी संस्करणों के लिए समर्थन है।