दिलचस्प पोस्ट
कैसे (बिटमैप छवि) को स्टोर करने और Android में SQLite डेटाबेस से छवि को पुनर्प्राप्त करें? jQuery: लोड txt फ़ाइल और div में डालें क्या मैं एक्सएएमएल (पूर्व .नेट 4 फ्रेमवर्क) में एक सामान्य प्रकार निर्दिष्ट कर सकता हूं? इवेंट जब यूट्यूब वीडियो समाप्त हो गया मैं ट्री व्हीव्यू में ट्री इटैम द्वारा एक माउस क्लिक ईवेंट कैसे स्वीकार किया? ओवरलैपिंग से बचने के लिए जेफ्री चार्ट में कुछ श्रेणी लेबल छुपाएं एक अभिव्यक्ति में एकाधिक मानों के साथ एक स्ट्रिंग की तुलना करें आईओएस 6 में प्रोग्राममैटिक मैप्स ऐप ओपनसीवी लोड हो रहा है पर रंगीन छवियों को गलत रंग दे रही है ऊपर के मूल्य के साथ किसी भी खाली कोशिकाओं को भरना यह नाम सीएनएल के अनुपालन के साथ क्यों नहीं है? Std :: नक्शा के साथ रेंज-आधारित () लूप का उपयोग कैसे करें? समवर्ती हैशप बनाम सिंक्रनाइज़ हैशमैप मैं armv6, armv7 और i386 के लिए एक स्थैतिक पुस्तकालय (वसा) कैसे संकलित कर सकता हूं यूनिकोडएनकोडएअर: 'एएससीआई' कोडेक वर्ण को एन्कोड नहीं कर सकता है

स्क्रीन स्क्रैपिंग से संरक्षण

स्क्रीन स्क्रैपिंग की कानूनीताओं पर मेरे प्रश्न के बाद, भले ही यह अवैध लोग अभी भी कोशिश करेंगे, इसलिए:

स्क्रीन स्क्रेपिंग को रोकने या कम से कम करने के लिए तकनीकी तंत्र क्या कार्यरत हैं?

ओह और सिर्फ ग्रिन्स के लिए और जीवन को मुश्किल बनाने के लिए, खोज इंजन के लिए पहुंच बनाए रखना अच्छा होगा। मैं अच्छी तरह से शैतान के वकील यहाँ खेल सकता है, लेकिन एक गंभीर अंतर्निहित बिंदु है।

Solutions Collecting From Web of "स्क्रीन स्क्रैपिंग से संरक्षण"

इसलिए, एक दृष्टिकोण कोड (रोट 13, या कुछ) को अस्पष्ट करना होगा, और उसके बाद उस पृष्ठ में कुछ जावास्क्रिप्ट होगा जो दस्तावेज की तरह कुछ किया जाता है। लिखना (अबाधित (obfuscated_page)) लेकिन यह पूरी तरह से खोज इंजन (शायद!) को दूर करता है

बेशक यह वास्तव में किसी को भी नहीं रोकता जो आपके डेटा को चोरी करना चाहता है, लेकिन यह इसे कठिन बना देता है

क्लाइंट के पास डाटा होने के बाद यह बहुत अधिक गेम है, इसलिए आपको सर्वर साइड पर कुछ देखना होगा।

यह देखते हुए कि खोज इंजन मूल रूप से स्क्रीन स्क्रेपर्स हैं, चीज़ें कठिन हैं आपको यह देखना होगा कि अच्छे स्क्रीन स्क्रैपर और खराब स्क्रीन स्क्रैपर में क्या अंतर है। और ज़ाहिर है, आपके पास सिर्फ सामान्य मानव उपयोगकर्ता हैं तो यह एक समस्या की बात आती है कि आप सर्वर पर कैसे प्रभावी ढंग से एक मानव , एक अच्छा स्क्रीन खुरचनी, या एक खराब स्क्रीन खुरचनी से आने के अनुरोध के रूप में वर्गीकृत कर सकते हैं।

तो, शुरू करने के लिए जगह आपकी लॉग-फाइलों को देख रही होगी और अगर कोई पैटर्न है जो आपको प्रभावी रूप से अनुरोधों को वर्गीकृत करने की अनुमति देता है, और फिर पैटर्न का निर्धारण करने पर यह देखते हुए कि क्या कोई बुरा स्क्रीन खुरचनी है, यह जानने के बाद वर्गीकरण, एक मानव या अच्छी स्क्रीन खुरचनी की तरह दिखाई देने के लिए खुद को झुका सकता है

कुछ विचार:

  • आप आईपी पते (एसएएस) द्वारा अच्छे स्क्रीन स्क्रेपर को निर्धारित करने में सक्षम हो सकते हैं ..
  • आप संभावित रूप से समसामयिक कनेक्शन की संख्या के द्वारा स्क्रेपर बनाम इंसान को निर्धारित कर सकते हैं, कुल समय-समय पर कनेक्शन की संख्या, एक्सेस पैटर्न, आदि

जाहिर है ये आदर्श नहीं हैं या मूर्ख-सबूत नहीं हैं एक और युक्ति यह निर्धारित करना है कि आप किन तरीकों से इंसानों के लिए विरोधाभासी हो सकते हैं, लेकिन स्क्रेपर्स के लिए परेशान ( हो सकता है )। एक उदाहरण अनुरोधों की संख्या धीमा हो सकता है (अनुरोध की समय की समयावधि पर निर्भर करता है। अगर वे वास्तविक समय में स्क्रैप कर रहे हैं, तो यह उनके अंतिम उपयोगकर्ताओं को प्रभावित करेगा)।

अन्य पहलू यह है कि इन उपयोगकर्ताओं को बेहतर सेवा प्रदान करना जाहिर है वे स्क्रैप कर रहे हैं क्योंकि वे डेटा चाहते हैं। यदि आप उन्हें एक आसान तरीके से सीधे एक उपयोगी प्रारूप में डेटा प्राप्त करने के लिए प्रदान करते हैं, तो स्क्रीन स्क्रैपिंग के बजाय उनके लिए करना आसान होगा। अगर एक आसान तरीका है तो डेटा तक पहुंच विनियमित किया जा सकता है। उदाहरण: अनुरोधकर्ताओं को एक अनन्य कुंजी दें, और फिर सर्वर पर अधिभार से बचने के लिए हर प्रति अनुरोधों की संख्या को सीमित करें, या प्रति 1000 अनुरोधों के प्रभार आदि।

बेशक अब भी ऐसे लोग हैं जो आप को चीरना चाहते हैं, और फिर संभवत: असंतुलित होने के अन्य तरीके हैं, बू शायद वे गैर-तकनीकी होने लगते हैं, और उन्हें कानूनी रास्ते की आवश्यकता होती है।

आप इसे रोक नहीं सकते।

मैंने इसके बारे में यहां एक ब्लॉग पोस्ट लिखी है: http://blog.screen-scraper.com/2009/08/17/अधिक- यद्यपि- on-hindering-screen-scraping/

विवरण बताने के लिए:

यदि आप इंटरनेट पर कोई भी सूचना पोस्ट कर सकते हैं, तो यह केवल एक बात है कि वे कितने संसाधनों का निवेश करना चाहते हैं। कुछ आवश्यक संसाधनों को उच्च बनाने का मतलब है:

ट्यूरिंग परीक्षण

टर्निंग टेस्ट का सबसे आम कार्यान्वयन पुरानी कैप्चा है जो एक इंसान को एक छवि में पाठ पढ़ता है यह सुनिश्चित करने का प्रयास करता है, और उसे किसी प्रपत्र में फ़ीड करता है।

हमें बड़ी संख्या में साइटें मिली हैं जो एक बहुत ही कमजोर कैप्चा को कार्यान्वित करती हैं जो चारों ओर घूमने में केवल कुछ मिनट लगते हैं। दूसरी ओर, टूरिंग टेस्टों के कुछ बहुत अच्छा कार्यान्वयन हैं कि हम विकल्प देने से निपटने का विकल्प नहीं लेंगे, लेकिन एक परिष्कृत ओसीआर कभी-कभी उन पर काबू पा सकता है, या कई बुलेटिन बोर्ड स्पैमर्स के पास इन पिछड़ने के लिए कुछ चालाक चाल है।

छवियों के रूप में डेटा

कभी-कभी आप जानते हैं कि आपके डेटा के कौन से हिस्से मूल्यवान हैं। उस स्थिति में यह एक छवि के साथ इस तरह के पाठ को बदलने के लिए उचित हो जाता है ट्यूरिंग टेस्ट के साथ, ओसीआर सॉफ्टवेयर है जो इसे पढ़ सकता है, और इसमें कोई कारण नहीं है कि हम छवि को नहीं बचा सकते हैं और इसे बाद में पढ़ा है।

बहरहाल, किसी पाठ के बिना एक छवि के रूप में डेटा को सूचीबद्ध करने से अक्सर अमेरिकियों के साथ विकलांग अधिनियम (एडीए) का उल्लंघन होता है और कंपनी के कानूनी विभाग को कुछ फोन कॉलों से दूर किया जा सकता है।

कोड ओफ़्फस्कैक्शन

पृष्ठ पर डेटा दिखाने के लिए जावास्क्रिप्ट समारोह की तरह कुछ का उपयोग करना, हालांकि यह HTML स्रोत में कहीं भी नहीं है एक अच्छी चाल है अन्य उदाहरणों में पृष्ठ के माध्यम से विपुल, अप्रत्यक्ष टिप्पणियां डालना या एक इंटरैक्टिव पृष्ठ होने पर, जो बिना किसी अप्रत्याशित तरीके से ऑर्डर करता है (और उदाहरण मैं सीएसएस का उपयोग करने के लिए लगता है कि कोई भी प्रदर्शन कोड को व्यवस्थित नहीं करता।)

सीएसएस स्प्राइट्स

हाल ही में हमने कुछ ऐसे उदाहरणों का सामना किया है, जहां एक पृष्ठ में एक छवियां होती हैं जिसमें संख्याएं और अक्षरों होते हैं, और सीएसएस का इस्तेमाल केवल वांछित वर्णों को प्रदर्शित करने के लिए करते थे यह प्रभाव पिछले 2 तरीकों का एक संयोजन है। सबसे पहले हमें उस मास्टर-इमेज को प्राप्त करना होगा और पढ़ना होगा कि कौन-से वर्ण हैं, फिर हमें साइट में सीएसएस को पढ़ने की जरूरत है और यह निर्धारित करने की आवश्यकता है कि प्रत्येक टैग किस चरित्र का उल्लेख कर रहा था।

हालांकि यह बहुत चालाक है, मुझे संदेह है कि यह भी एडीए से पहले चलेंगे, हालांकि मैंने अभी तक इसका परीक्षण नहीं किया है।

खोज परिणामों को सीमित करें

हम जो डेटा प्राप्त करना चाहते हैं, उनमें से अधिकांश कुछ प्रकार के पीछे हैं। कुछ आसान होते हैं, और रिक्त फॉर्म जमा करने से सभी परिणाम निकलेगा। कुछ को एक तारांकन या फॉर्म में डाल प्रतिशत की जरूरत है सबसे तेज़ लोग हैं जो आपको प्रति क्वेरी के केवल बहुत सारे परिणाम देंगे। कभी-कभी हम सिर्फ एक लूप बनाते हैं जो फ़ॉर्म में वर्णमाला के अक्षर प्रस्तुत करेंगे, लेकिन अगर यह बहुत सामान्य है, तो हमें 2 या 3 अक्षरों के सभी संयोजनों को जमा करने के लिए एक लूप बनाना होगा- जो कि 17,576 पृष्ठ अनुरोध हैं

आईपी ​​फ़िल्टरिंग

इस अवसर पर, एक मेहनती वेबमास्टर एक विशेष आईपी पते से आने वाले बड़े अनुरोधों के पृष्ठ पर ध्यान देगा, और उस डोमेन से ब्लॉक अनुरोध वैकल्पिक डोमेन के माध्यम से अनुरोधों को पास करने के लिए कई तरीके हैं, इसलिए, यह विधि आमतौर पर बहुत प्रभावी नहीं है।

साइट टिंकरिंग

एचटीएमएल में कुछ चीजों से हमेशा चाबियाँ खिसकती हैं कुछ साइटों में संसाधनों के लिए लगातार अपने एचटीएमएल को झुकाव किया जाता है ताकि किसी भी प्रकार के भंगुर लगातार समाप्त हो जाएं। इसलिए निरंतर परिवर्तनशील परिस्थितियों के लिए लगातार परिमार्जन करने के लिए लागत को अप्रभावी हो जाता है।

स्क्रीन स्क्रैपिंग को रोकने के लिए बहुत मुश्किल है लेकिन यदि आप वास्तव में चाहते हैं कि वास्तव में आप अक्सर अपने HTML को बदल सकते हैं या अक्सर HTML टैग नाम बदल सकते हैं अधिकांश स्क्रीन स्क्रैप टैग नामों के साथ स्ट्रिंग तुलना या विशेष स्ट्रिंग्स आदि के लिए खोज करने वाले नियमित अभिव्यक्तियों का उपयोग करते हुए काम करते हैं। यदि आप अंतर्निहित HTML बदल रहे हैं तो उन्हें अपने सॉफ़्टवेयर को बदलने की आवश्यकता होगी।

इसे रोकने के लिए बहुत मुश्किल होगा। समस्या यह है कि वेब पेज एक प्रोग्राम (आपके ब्राउज़र) द्वारा पार्स होने के लिए हैं, इसलिए वे परिमार्जन करने के लिए असाधारण रूप से आसान हैं। सबसे अच्छा आप कर सकते हैं सतर्क रहें, और अगर आपको लगता है कि आपकी साइट को स्क्रैप किया जा रहा है, तो आपत्तिजनक कार्यक्रम के आईपी को अवरुद्ध करें।

खोज इंजन परिभाषा के द्वारा स्क्रीन स्क्रैपर हैं इसलिए ज़्यादातर चीजें जो आप स्क्रैप को स्कैन करने के लिए कठिन बनाते हैं, आपकी सामग्री को भी सूचकांक में जोड़ना कठिन बनाती हैं

अच्छी तरह से व्यवहार रोबोट आपकी robots.txt फ़ाइल का सम्मान करेंगे। आप ज्ञात अपराधियों के आईपी को भी अवरुद्ध कर सकते हैं या अपनी सामग्री में अस्पष्ट HTML टैग जोड़ सकते हैं, जब यह ज्ञात अच्छी रोबोट पर नहीं भेजा जाता है। यह हालांकि हारने वाली लड़ाई है। मैं ज्ञात अपराधियों के लिए मुकदमेबाजी मार्ग की सिफारिश करता हूं

आप अपराधियों को ट्रैक करने में आसान बनाने के लिए सामग्री में डेटा को पहचानने से छिपाना भी कर सकते हैं कॉपीराइट उल्लंघनकर्ताओं का पता लगाने और मुकदमा चलाने में मदद करने के लिए एन्साइक्लोपीडियास को फर्जी प्रविष्टियों को जोड़ने के लिए जाना जाता है।

निवेश पर सबसे अच्छी रिटर्न शायद यादृच्छिक नई लाइनें और कई स्थानों को जोड़ना है, क्योंकि अधिकांश स्क्रीन स्कैपर HTML से टेक्स्ट के रूप में काम करते हैं बल्कि एक्सएमएल (क्योंकि अधिकांश पेज वैध XML के रूप में पार्स नहीं करते हैं) के बजाय काम करते हैं।

ब्राउज़र श्वेत स्थान को अनदेखा करता है, इसलिए आपके उपयोगकर्ता का यह ध्यान नहीं है

Price : 1 Price : 2 Price\n:\n3 

अलग है। (यह मेरे अनुभव से एडब्ल्यूके के साथ सरकारी साइटों को स्क्रैप करने से आता है)।

अगले कदम DOM को गड़बड़ करने के लिए यादृच्छिक तत्वों के आसपास टैग जोड़ रहा है।

इसे रोकना, इसे ढूंढना और प्रयास करने वालों को बदला देना नहीं है

उदाहरण के लिए, अपनी साइट को डाउनलोड करने के लिए छोड़ दें, लेकिन कुछ लिंक्स प्रसारित करें, जो कोई समझदार उपयोगकर्ता नहीं होगा। यदि कोई व्यक्ति उस लिंक का अनुसरण करता है, तो वह किसी मानव या अन्य संदिग्ध व्यवहार के लिए बहुत तेजी से क्लिक कर रहा है, उपयोगकर्ता को कोशिश करने से रोकने के तुरंत जवाब देता है। यदि कोई लॉगिन सिस्टम है, तो उपयोगकर्ता को ब्लॉक करें और अस्वीकार्य व्यवहार के बारे में उससे संपर्क करें। यह सुनिश्चित करना चाहिए कि वे फिर से कोशिश नहीं करें यदि कोई लॉगिन सिस्टम नहीं है, तो वास्तविक पृष्ठों के बजाय, एक ही चेतावनी के लिए नकली लिंक के साथ एक बड़ी चेतावनी लौटाएं।

यह वास्तव में सफ़ारी बुक्सहेल्फ़ जैसी चीज़ों के लिए लागू होता है जहां एक उपयोगकर्ता को कॉपी करने का एक टुकड़ा चिपकाता है या एक सहयोगी को मेल करने के लिए एक अध्याय ठीक है, जबकि पुस्तक का एक पूर्ण डाउनलोड स्वीकार्य नहीं है। मुझे पूरा यकीन है कि जब वे अपनी पुस्तकों को डाउनलोड करने की कोशिश करते हैं, खाते को ब्लॉक करते हैं और अपराधी को दिखाते हैं कि उन्हें असली परेशानी में मिल सकता है तो उन्हें फिर से प्रयास करना चाहिए।

गैर-आईटी सादृश्य को बनाने के लिए, यदि हवाई अड्डे पर सुरक्षा ने विमानों के बोर्ड पर हथियार लाने के लिए मुश्किल बना दिया, तो आतंकवादी एक पिछली सुरक्षा को छिपाने के कई तरीकों से कोशिश करेंगे। लेकिन यह तथ्य है कि बस आपको परेशान करने की कोशिश करनी चाहिए ताकि कोई भी व्यक्ति किसी एक को घुसने की कोशिश न करे और उसे ढूंढ सके। पकड़े और दंडित होने का जोखिम बहुत अधिक है बस यही करें अगर संभव हो तो।

रोकें? – असंभव, लेकिन आप इसे कठिन बना सकते हैं

Disincentivise? – संभव है, लेकिन आपको जवाब पसंद नहीं होगा: इच्छुक पार्टियों के लिए थोक डेटा निर्यात प्रदान करें

यदि आप इसे प्रकाशित करते हैं, तो लंबे समय में, आपके सभी प्रतिद्वन्द्वियों का एक ही डेटा होगा, इसलिए आपको अपनी वेबसाइट विविधीकरण के अन्य तरीकों की ज़रूरत है (जैसे इसे अधिक बार अद्यतन करें, इसे तेज़ी से या उपयोग में आसान बनाएं)। आजकल यहां तक ​​कि Google स्क्रैप की जानकारी का उपयोग कर रहा है जैसे कि उपयोगकर्ता की समीक्षाएं, आपको लगता है कि आप इसके बारे में क्या कर सकते हैं? उन पर मुकदमा करें और उनके सूचकांक से बूट करें?

एक तरह से एक ऐसा समारोह बनाने के लिए होता है जो टेक्स्ट और स्थिति लेता है और फिर सर्वर पर टेक्स्ट के हर अक्षर के लिए एक्स, वाई पॉज़ उत्पन्न होता है, जिसमें वर्ण शामिल हैं, यादृच्छिक क्रम में divs उत्पन्न करते हैं। एक जावास्क्रिप्ट जेनरेट करें, जिससे स्क्रीन पर सही जगह पर प्रत्येक div को खिसकाएं। स्क्रीन पर अच्छा लगता है लेकिन पीछे कोड में पाठ को लाने के लिए कोई वास्तविक आदेश नहीं है यदि आप अपने जावास्क्रिप्ट के माध्यम से परिमार्जन करने के लिए परेशान नहीं करते हैं (जो गतिशील रूप से हर अनुरोध को बदला जा सकता है)

बहुत ज्यादा काम है और संभवत: कई क्वॉर्क्स हैं, यह इस बात पर निर्भर करता है कि साइट और अन्य चीजों पर आपके पास कितना पाठ और कितना जटिल है।

बहुत कम मुझे लगता है कि किसी भी साइट का इरादा दिया गया है प्रकाशित करने के लिए (सार्वजनिक करने के लिए) जानकारी

  • आप पाठ्यक्रम के प्रवेश के पीछे अपना डेटा छुपा सकते हैं, लेकिन यह एक बहुत ही स्थिति समाधान है।

  • मैंने उन ऐप्स को देखा है जो केवल उन सामग्री को दिखाएंगे जहां अनुरोध हैडर ने एक वेब ब्राउजर (बल्कि अनाम या "जकार्ता" कहने के बजाय) को इंगित किया था, लेकिन यह धोखा करना आसान है और आप कुछ वास्तविक इंसान खो देंगे

  • तो संभावना है कि आप कुछ स्क्रैप को स्वीकार करते हैं लेकिन उन सामग्री को न देने से उनके लिए ज़िंदगी मुश्किल बनाते हैं यदि अनुरोध एक ही आईपी से बहुत अधिक दर पर आ रहे हैं। यह पूर्ण कवरेज नहीं होने से ग्रस्त है, लेकिन इससे भी महत्वपूर्ण बात यह है कि "एओएल समस्या" आईपी कई अनूठे मानव उपयोगकर्ताओं को शामिल कर सकती है।

पिछली दो तकनीकों की दोनों ही तकनीक को अवरुद्ध करने वाली तकनीक पर भारी निर्भर करती है जो एक अपरिहार्य प्रदर्शन और / या वित्तीय परिव्यय है।

यह देखते हुए कि अधिकांश साइटें एक अच्छी खोज इंजन रैंकिंग चाहते हैं, और खोज इंजन खुरचनी बॉट्स हैं, ऐसा नहीं है कि आप ऐसा कर सकते हैं जो आपके एसईओ को नुकसान नहीं पहुंचाएगा।

आप पूरी तरह से एजेक्स लोडेड साइट या फ्लैश आधारित साइट बना सकते हैं, जो बॉट्स के लिए इसे कठिन बना देगी, या प्रवेश के पीछे सब कुछ छिपाएगा, जो इसे अभी भी कठिन बना देगा, लेकिन इन तरीकों में से कोई भी आपकी खोज रैंकिंग को नुकसान पहुंचा सकता है और संभवत: परेशान है आपके उपयोगकर्ताओं, और अगर कोई वास्तव में चाहता है, तो उन्हें एक रास्ता मिल जाएगा।

ऐसी सामग्री रखने का एकमात्र गारंटी तरीका जिसे स्क्रैप नहीं किया जा सकता है उसे वेब पर प्रकाशित नहीं करना है वेब की प्रकृति ऐसी है कि जब आप इसे बाहर डालते हैं, तो वहां से बाहर आ जाता है

यदि इसकी बहुत अधिक जानकारी आप को बचाने के लिए नहीं चाहते हैं, तो आप इसे मक्खी पर चित्र में परिवर्तित कर सकते हैं। फिर उन्हें ओसीआर का उपयोग करना चाहिए जिससे आपकी साइट के बजाय किसी अन्य साइट को स्क्रैप करना आसान हो जाए ..

आप अपनी साइट पर आने वाले ग्राहकों के उपयोगकर्ता एजेंट की जांच कर सकते हैं। कुछ तीसरे पक्ष की स्क्रीन स्क्रैपिंग प्रोग्रामों का अपना उपयोगकर्ता एजेंट है ताकि आप उसे ब्लॉक कर सकें। अच्छी स्क्रीन स्क्रैपर हालांकि अपने उपयोगकर्ता एजेंट को धोखा देते हैं, इसलिए आप इसका पता लगाने में सक्षम नहीं होंगे। सावधान रहें यदि आप किसी को ब्लॉक करने का प्रयास करते हैं क्योंकि आप किसी वैध उपयोगकर्ता को ब्लॉक नहीं करना चाहते हैं 🙂

सबसे अच्छा आप के लिए आशा कर सकते हैं स्क्रीन स्क्रैपर का उपयोग करने वाले लोगों को ब्लॉक करना है जो अपने उपयोगकर्ता एजेंट को बदलने के लिए पर्याप्त स्मार्ट नहीं हैं।

मैंने एक बार कुछ पीडीएफ फाइलें "स्क्रैप" करने की कोशिश की, केवल यह पता लगाने के लिए कि वे वास्तव में अर्ध-यादृच्छिक क्रम में पीडीएफ़ में अक्षर डालते थे मुझे लगता है कि पीडीएफ प्रारूप आपको पाठ के प्रत्येक ब्लॉक के लिए एक स्थान निर्दिष्ट करने की अनुमति देता है, और वे बहुत छोटे ब्लॉक (एक शब्द से छोटे) का इस्तेमाल करते हैं। मुझे संदेह है कि प्रश्न में पीडीएफ़ स्क्रीन को स्क्रैपिंग को रोकने की कोशिश नहीं कर रहे थे क्योंकि वे अपने रेंडर इंजन के साथ कुछ अजीब कर रहे थे।

मुझे आश्चर्य है कि अगर आप ऐसा कुछ कर सकते हैं।

आप फ़्लैश में सब कुछ डाल सकते थे, लेकिन ज्यादातर मामलों में जो कई वैध उपयोगकर्ताओं को परेशान कर लेते थे, अपने आप में शामिल थे। यह स्टॉक की कीमत या ग्राफ़ जैसी कुछ जानकारी के लिए काम कर सकता है

मुझे संदेह है कि ऐसा करने का कोई अच्छा तरीका नहीं है।

मुझे लगता है कि आप कैप्चा-शैली के फ़ॉन्ट और लेआउट का उपयोग करते हुए पाठ में चित्रों को कनवर्ट करने के लिए एक तंत्र के माध्यम से अपनी सारी सामग्री को चला सकते हैं, लेकिन यह एसईओ को तोड़ देगा और आपके उपयोगकर्ताओं को परेशान करेगा।

ठीक है, इससे पहले कि आप कंटेंट को सर्वर से क्लाइंट पर धकेल दें, सभी \ r \ n, \ n, \ t को हटा दें और सब कुछ को बिना किसी जगह के स्थान पर जगह दें। अब आपके पास एचटीएमएल पेज में 1 लंबी लाइन है। Google यह करता है इससे आपके एचटीएमएल या जावास्क्रिप्ट को पढ़ना मुश्किल होगा।
फिर आप खाली टैग बना सकते हैं और उन्हें बेतरतीब ढंग से यहां और यहां डालें। इसका कोई प्रभाव नहीं होगा
तब आप सभी आईपी लॉग इन कर सकते हैं और कितनी बार वे आपकी साइट पर पहुंचे। यदि आप हर समय समय पर एक देखते हैं, तो आप उसे रोबोट के रूप में चिह्नित करते हैं और इसे ब्लॉक करते हैं।
सुनिश्चित करें कि आप अकेले ही खोज इंजन छोड़ देते हैं यदि आप चाहते हैं कि वे अंदर आएं।
उम्मीद है की यह मदद करेगा

आपकी डेटाबेस की जानकारी से पीडीएफ बनाने के लिए आईटेक्स्ट लाइब्रेरी का उपयोग करने के बारे में क्या? फ्लैश के साथ, यह स्क्रेपिंग असंभव नहीं बना पाएगा, लेकिन इसे थोड़ा अधिक कठिन बना सकता है

Nels

पुराने प्रश्न, लेकिन- अन्तरक्रियाशीलता को जोड़ने से स्क्रीन स्क्रैपिंग को बहुत अधिक मुश्किल लगता है। यदि डेटा मूल प्रतिक्रिया में नहीं है- कहते हैं, तो आप पृष्ठ लोड के बाद एक डिवेल को पॉप्युलेट करने के लिए एक AJAX अनुरोध किया है- अधिकांश स्कैपर इसे नहीं देखेंगे

उदाहरण के लिए- मैं अपनी स्क्रैपिंग करने के लिए मैकेनाइज्ड लाइब्रेरी का उपयोग करता हूं। मैकेनाइजेट जावास्क्रिप्ट निष्पादित नहीं करता- यह एक आधुनिक ब्राउज़र नहीं है- यह सिर्फ एचटीएमएल पढ़ता है, मुझे लिंक का अनुसरण करें और टेक्स्ट को निकालें, आदि। जब भी मैं एक पेज चलाता हूं जो जावास्क्रिप्ट का भारी उपयोग करता है, तो मैं गड़बड़ी- पूरी तरह से पटकथा के बिना ब्राउज़र (जो जावास्क्रिप्ट के पूर्ण स्वरुप का समर्थन करता है) मैं फंस रहा हूँ

यह वही मुद्दा है जो अत्यधिक इंटरैक्टिव वेब अनुप्रयोगों का स्वचालित परीक्षण इतना कठिन बना देता है।

मैंने कभी नहीं सोचा था कि प्रिंट स्क्रीन को रोकने के लिए संभव होगा … अच्छी तरह से आप क्या जानते हैं, नई तकनीक का चेकआउट – sivizion.com अपने वीडियो बफर प्रौद्योगिकी के साथ प्रिंट स्क्रीन बनाने का कोई रास्ता नहीं है, अच्छा, वाकई अच्छा है, हालांकि इसका उपयोग करना कठिन है … मुझे लगता है कि तकनीक का लाइसेंस भी है, इसे देखें (अगर मैं गलत हूं तो कृपया यहां पोस्ट करें कि इसे कैसे हैक किया जा सकता है।) इसे यहां मिला: मैं प्रिंट स्क्रीन को कैसे रोकूं?