Skip to content

Latest commit

 

History

History
124 lines (107 loc) · 6.8 KB

README.hindi.md

File metadata and controls

124 lines (107 loc) · 6.8 KB

Profile views GitHub top language GitHub language count GitHub code size in bytes GitHub repo size GitHub GitHub last commit GitHub User's stars

visitors

Read this in other languages: Russian, English, 中國人

Bot logo

तेज और सरल क्रॉलर

यह काम किस प्रकार करता है?

यह बहुत आसान है: आपका बॉट बड़े पैमाने पर आपके खाते की सदस्यता लेता है, लोग आपकी सदस्यता लेते हैं।

बॉट के साथ तैयारी और काम करने का क्रम

. रिपॉजिटरी को क्लोन करें या जिथब से आर्काइव डाउनलोड करें या कमांड लाइन पर निम्न कमांड का उपयोग करें

$ cmd
$ git clone https://github.com/BEPb/github_bot
$ cd github_bot
  1. एक पायथन वर्चुअल वातावरण बनाएं।

  2. निम्नलिखित कमांड का उपयोग करके हमारे कोड के काम करने के लिए सभी आवश्यक पैकेज स्थापित करें:

    pip install -r requirements.txt
    
  3. nameproject . नामक एक प्रोजेक्ट बनाएं

scrapy startproject nameproject
  1. जिसके बाद आपके पास इस प्रोजेक्ट के नाम के साथ एक फोल्डर होगा और उसमें न्यूनतम आवश्यक फाइलें और निर्भरताएँ होंगी

    scrapy.cfg            #  deploy configuration file
    nameproject/             # project's Python module, you'll import your code from here
        __init__.py
        items.py          # project items definition file
        middlewares.py    # project middlewares file
        pipelines.py      # project pipelines file
        settings.py       # project settings file
        spiders/          # a directory where you'll later put your spiders
            __init__.py
  1. हमारे प्रोजेक्ट फोल्डर में जाएं
cd nameproject
  1. स्पाइडर/फोल्डर में एक Quotes_spider.py फाइल बनाएं और उसमें लिखें कि हम किसे और कैसे धोखा देते हैं
  2. हमारा क्रॉलर लॉन्च करें
scrapy crawl quotes
  1. निष्पादन के परिणामस्वरूप, दो नई फाइलें बनाई गईं: उद्धरण-1.एचटीएमएल और उद्धरण-2.एचटीएमएल के लिए सामग्री के साथ संबंधित URL, जैसा कि हमारी पार्स विधि निर्दिष्ट करती है।
  2. शेल चयनकर्ताओं का उपयोग करें
scrapy shell 'https://quotes.toscrape.com/page/1/'
  1. सीएसएस का उपयोग करके सभी 'शीर्षक' ऑब्जेक्ट देखें। प्रतिक्रिया निष्पादित करने का परिणाम। सीएसएस ('शीर्षक') समान है चयनकर्ता सूची नामक सूची वस्तु जो चयनकर्ता वस्तुओं की एक सूची है जो लपेटती है एक्सएमएल/एचटीएमएल तत्व और आपको चयन को परिष्कृत करने या डेटा पुनर्प्राप्त करने के लिए अतिरिक्त क्वेरी करने की अनुमति देता है।
response.css('title')
  1. और सूची देखने के लिए, getall () विधि निर्दिष्ट करें
response.css('title::text').getall()
  1. वही xpath . के साथ किया जा सकता है
response.xpath('//title/text()').get()
  1. और अब क्लास कोट के साथ डिव टैग लें
response.css("div.quote")
  1. सूची में केवल पहला तत्व लें
response.css("div.quote")[0]
  1. टैग में वर्ग प्राप्त करने के लिए, निम्न आदेश का उपयोग करें:
quote.css("span.text::text").get()
quote.css("small.author::text").get()
  1. और इस प्रकार हम div टैग के वर्ग की पूरी सूची प्रदर्शित करेंगे
response.css("div.quote").css("div.tags a.tag::text").getall()
  1. इस प्रकार हम परिणाम को जोंस प्रारूप में सहेजते हैं, जहां -O कमांड लाइन स्विच किसी भी मौजूदा . को अधिलेखित कर देता है फ़ाइल;
scrapy crawl quotes -O quotes.json
  1. और इस तरह हम परिणाम को csv प्रारूप में सहेजते हैं
scrapy crawl quotes -O quotes.csv
  1. निम्न कमांड .jl फॉर्मेट का प्रयोग करते हुए लाइन दर लाइन लिखता है
scrapy crawl quotes -o quotes.jl

Bot logo