Read this in other languages: Russian, English, 中國人

तेज और सरल क्रॉलर

यह काम किस प्रकार करता है?

यह बहुत आसान है: आपका बॉट बड़े पैमाने पर आपके खाते की सदस्यता लेता है, लोग आपकी सदस्यता लेते हैं।

बॉट के साथ तैयारी और काम करने का क्रम

. रिपॉजिटरी को क्लोन करें या जिथब से आर्काइव डाउनलोड करें या कमांड लाइन पर निम्न कमांड का उपयोग करें

$ cmd
$ git clone https://github.com/BEPb/github_bot
$ cd github_bot

एक पायथन वर्चुअल वातावरण बनाएं।
निम्नलिखित कमांड का उपयोग करके हमारे कोड के काम करने के लिए सभी आवश्यक पैकेज स्थापित करें:
```
pip install -r requirements.txt
```
nameproject . नामक एक प्रोजेक्ट बनाएं

scrapy startproject nameproject

जिसके बाद आपके पास इस प्रोजेक्ट के नाम के साथ एक फोल्डर होगा और उसमें न्यूनतम आवश्यक फाइलें और निर्भरताएँ होंगी


    scrapy.cfg            #  deploy configuration file
    nameproject/             # project's Python module, you'll import your code from here
        __init__.py
        items.py          # project items definition file
        middlewares.py    # project middlewares file
        pipelines.py      # project pipelines file
        settings.py       # project settings file
        spiders/          # a directory where you'll later put your spiders
            __init__.py

हमारे प्रोजेक्ट फोल्डर में जाएं

cd nameproject

स्पाइडर/फोल्डर में एक Quotes_spider.py फाइल बनाएं और उसमें लिखें कि हम किसे और कैसे धोखा देते हैं
हमारा क्रॉलर लॉन्च करें

scrapy crawl quotes

निष्पादन के परिणामस्वरूप, दो नई फाइलें बनाई गईं: उद्धरण-1.एचटीएमएल और उद्धरण-2.एचटीएमएल के लिए सामग्री के साथ संबंधित URL, जैसा कि हमारी पार्स विधि निर्दिष्ट करती है।
शेल चयनकर्ताओं का उपयोग करें

scrapy shell 'https://quotes.toscrape.com/page/1/'

सीएसएस का उपयोग करके सभी 'शीर्षक' ऑब्जेक्ट देखें। प्रतिक्रिया निष्पादित करने का परिणाम। सीएसएस ('शीर्षक') समान है चयनकर्ता सूची नामक सूची वस्तु जो चयनकर्ता वस्तुओं की एक सूची है जो लपेटती है एक्सएमएल/एचटीएमएल तत्व और आपको चयन को परिष्कृत करने या डेटा पुनर्प्राप्त करने के लिए अतिरिक्त क्वेरी करने की अनुमति देता है।

response.css('title')

और सूची देखने के लिए, getall () विधि निर्दिष्ट करें

response.css('title::text').getall()

वही xpath . के साथ किया जा सकता है

response.xpath('//title/text()').get()

और अब क्लास कोट के साथ डिव टैग लें

response.css("div.quote")

सूची में केवल पहला तत्व लें

response.css("div.quote")[0]

टैग में वर्ग प्राप्त करने के लिए, निम्न आदेश का उपयोग करें:

quote.css("span.text::text").get()
quote.css("small.author::text").get()

और इस प्रकार हम div टैग के वर्ग की पूरी सूची प्रदर्शित करेंगे

response.css("div.quote").css("div.tags a.tag::text").getall()

इस प्रकार हम परिणाम को जोंस प्रारूप में सहेजते हैं, जहां -O कमांड लाइन स्विच किसी भी मौजूदा . को अधिलेखित कर देता है फ़ाइल;

scrapy crawl quotes -O quotes.json

और इस तरह हम परिणाम को csv प्रारूप में सहेजते हैं

scrapy crawl quotes -O quotes.csv

निम्न कमांड .jl फॉर्मेट का प्रयोग करते हुए लाइन दर लाइन लिखता है

scrapy crawl quotes -o quotes.jl

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.hindi.md

README.hindi.md

तेज और सरल क्रॉलर

यह काम किस प्रकार करता है?

बॉट के साथ तैयारी और काम करने का क्रम

Files

README.hindi.md

Latest commit

History

README.hindi.md

File metadata and controls

तेज और सरल क्रॉलर

यह काम किस प्रकार करता है?

बॉट के साथ तैयारी और काम करने का क्रम