Articles of आरडीडी

मैं स्पार्क स्ट्रीमिंग में एक प्रसारण चर को कैसे अपडेट कर सकता हूं?

मेरे पास, मुझे विश्वास है, स्पार्क स्ट्रीमिंग के लिए एक अपेक्षाकृत आम उपयोग का मामला है: मेरे पास ऐसे ऑब्जेक्ट की एक धारा है जो मैं कुछ संदर्भ डेटा के आधार पर फ़िल्टर करना चाहूंगा प्रारंभ में, मैंने सोचा कि यह एक प्रसारण चर का उपयोग कर प्राप्त करने के लिए एक बहुत सरल बात […]

स्पार्क में डिफ़ॉल्ट विभाजन योजना

जब मैं कमांड के नीचे निष्पादित करता हूं: scala> val rdd = sc.parallelize(List((1,2),(3,4),(3,6)),4).partitionBy(new HashPartitioner(10)).persist() rdd: org.apache.spark.rdd.RDD[(Int, Int)] = ShuffledRDD[10] at partitionBy at <console>:22 scala> rdd.partitions.size res9: Int = 10 scala> rdd.partitioner.isDefined res10: Boolean = true scala> rdd.partitioner.get res11: org.apache.spark.Partitioner = org.apache.spark.HashPartitioner@a यह कहते हैं कि वहाँ 10 विभाजन हैं और विभाजन HashPartitioner का उपयोग किया […]

'पाइपलाइंड आरडीडी' ऑब्जेक्ट के पास पायसपार्क में कोई विशेषता नहीं है 'toDF'

मैं एक एसवीएम फाइल को लोड करने और इसे एक DataFrame बदलने की कोशिश कर रहा हूं ताकि मैं स्पार्क से एमएल मॉड्यूल ( Pipeline एमएल) का उपयोग कर DataFrame । मैंने अभी एक उबंटू 14.04 पर कोई ताज़ा स्पार्क 1.5.0 स्थापित किया है (कोई spark-env.sh कॉन्फ़िगर नहीं है)। मेरा my_script.py है: from pyspark.mllib.util import […]

कौन सी ऑपरेशन आरडीडी आदेश को सुरक्षित रखता है?

आरडीडी के पास एक सार्थक (भंडारण मॉडल द्वारा लगाए गए कुछ यादृच्छिक आदेशों के विपरीत) आदेश है अगर इसे sortBy() संसाधित किया गया है, जैसा कि इस उत्तर में बताया गया है। अब, कौन से आपरेशन उस आदेश को सुरक्षित रखता है? उदाहरण के लिए, यह गारंटी है कि ( a.sortBy() बाद) a.map(f).zip(a) === a.map(x […]

स्पार्क्स का उपयोग कर hbase से कैसे पढ़ा जाए

नीचे दिए गए कोड को hbase से पढ़ा जाएगा, फिर इसे json संरचना में परिवर्तित करें और स्कीमाआरडीडी में कनवर्ट करें, लेकिन समस्या यह है कि मैं जेएसएएन स्ट्रिंग को स्टोर करने के लिए using List का using List रहा हूं और लगभग 100 जीबी के डेटा के लिए मास्टर जी स्मृति में डेटा के […]

स्पार्क में आरडीडी कैसे स्थानांतरित किया जाए

मेरे पास एक RDD है: 1 2 3 4 5 6 7 8 9 यह एक मैट्रिक्स है अब मैं इस तरह आरडीडी को स्थानांतरित करना चाहता हूं: 1 4 7 2 5 8 3 6 9 मैं यह कैसे कर सकता हूँ?

स्पार्क – रीपार्टिशन () बनाम कॉलेसेस ()

सीखना स्पार्क के अनुसार ध्यान रखें कि आपके डेटा को पुन: विभाजन करना एक काफी महंगा ऑपरेशन है। स्पार्क में पुन: विभाजन का एक अनुकूलित संस्करण है (जिसे कॉलस () कहा जाता है) जो डेटा आंदोलन से बचने की अनुमति देता है, लेकिन केवल अगर आप RDD विभाजन की संख्या कम कर रहे हैं मुझे […]

अपाचे स्पार्क: नक्शा बनाम नक्शाविभाजनों?

RDD के map और map mapPartitions पद्धतियों के बीच क्या अंतर है? और क्या flatMap map या map तरह व्यवहार करता है? धन्यवाद। (संपादित करें) यानी बीच अंतर (या तो अर्थात् या निष्पादन के मामले में) क्या है def map[A, B](rdd: RDD[A], fn: (A => B)) (implicit a: Manifest[A], b: Manifest[B]): RDD[B] = { rdd.mapPartitions({ […]

स्कला बनाम पायथन के लिए स्पार्क प्रदर्शन

मैं स्काला पर पायथन पसंद करता हूं लेकिन, स्पार्क नैतिक रूप से स्काला में लिखा गया है, मुझे स्पष्ट रूप से स्पष्ट कारणों के लिए पायथन संस्करण की तुलना में स्कला में अपने कोड को चलाने की उम्मीद थी। इस धारणा के साथ, मैंने कुछ 1 जीबी डेटा के लिए कुछ बहुत ही आम प्रीप्रोसेसिंग […]

अपाचे स्पार्क वेब यूआई में "स्टेज स्किप" का क्या मतलब है?

मेरे स्पार्क यूआई से छोड़ने का क्या अर्थ है?

दिलचस्प पोस्ट
केवल सीएसएस के साथ छवि हॉवर पर काले पारदर्शी ओवरले? रूबी में दो-आयामी arrays और एक्सेस उप-एरेज़ बनाएँ PHP स्क्रिप्ट के कमांडलाइन बनाम http निष्पादन को निर्धारित करने के लिए वैधानिक तरीका क्या है? स्थिति बार और नेविगेशन बार आईओएस 7 में मेरे विचार की सीमा पर दिखाई देते हैं एक पृष्ठभूमि छवि के लिए सीएसएस 3 ब्लर फिल्टर कैसे लागू करें $ क्या है? (डॉलर प्रश्न चिह्न) शैल स्क्रिप्टिंग में चर? जेनकींस पर टेस्टजीग टेस्ट कैसे चलाएं टी-एसक्यूएल कास्ट बनाम कन्वर्ट विंडो में UIBarButtonItem फ्रेम को आकृति दें? रिक्त योग के साथ लिंक क्वेरी फ़ाइल फ़ील्ड को कैसे निर्यात करें? एक अनुरोध के लिए HTTP हैडर सेट करें एक गीतम भंडार के पहले दो कमानों को जोड़ता है? एडीटी रिक्त गतिविधि टुकड़ा गतिविधि के साथ बनाया .. लिंक पर ब्राउज़र टूलटिप्स अक्षम करना और <abbr> s