Semalt - Web sahypalaryny nädip döwmeli?

Owadan çorba, XML we HTML resminamalaryndan parse agajy döretmek arkaly web sahypalaryny gyrmak üçin giňden ulanylýan Python kitaphanasydyr. Web sahypalary, web sahypalaryndan we sahypalardan maglumatlary çykarmagyň usuly, maglumatlar derňewi we dolandyryş ugurlarynda giňden ulanylýar. Köplenç Python programmirleme dili maglumat ylymlarynda hökmany şert bolup durýar.

Python 3-de maglumatlary dolandyrmak taslamasyna ulanyp boljak döwmek gurallary we modullary bar. Häzirki wagtda “Gözel çorba 4” hökmünde işleýän bu modul Python 3 we Python 2.7 bilen hem gabat gelýär. Owadan Çorba 4 moduly, ýapylmadyk bellik çorbasy üçin bir agaç ýasamaga hem ukyply. Bu gollanmada sahypany nädip döwmelidigini we gyrylan maglumatlary CSV faýlyna ýazmagy öwrenersiňiz.

Başlamak

Başlamak üçin kompýuteriňizde serwer ýa-da ýerli esasly Python kodlaýyş gurşawyny guruň. Şeýle hem, owadan çorba we haýyşlar modulyny enjamyňyza gurnamaly. Iki modul bilen işlemek baradaky bilim hem zerur şertdir. HTML belligi we gurluşy bilen tanyşlyk hem goşmaça artykmaçlykdyr.

Maglumatlaryňyza düşünmek

Bu nukdaýnazardan, Milli Sungat galereýasyndaky hakyky maglumatlar, owadan çorbany nädip ulanmalydygyňyza düşünmek üçin ulanylar. Milli sungat galereýasy takmynan 13,000 suratkeş tarapyndan ýerine ýetirilen 120,000 eserden ybarat. Sungat ABŞ-nyň Waşington şäherinde ýerleşýär.

Owadan çorba bilen web maglumatlary çykarmak beýle bir çylşyrymly däl. Mysal üçin, Z harpyna üns berseňiz, sanawdaky birinji ady belläň we belläň. Bu ýagdaýda ilkinji ady Zabaglia, Nikola. Yzygiderlilik üçin sahypalaryň sanyny we şol sahypadaky iň soňky suratkeşiň adyny görkeziň.

Islegleri we owadan çorba kitaphanasyny nädip import etmeli

Kitaphanalary import etmek üçin Python 3 programma gurşawyňyzy işjeňleşdiriň. Programma gurşawyňyz bilen bir katalogdadygyňyzy barlaň. Başlamak üçin aşakdaky buýrugy işlediň. my_env / bin / işjeňleşdir.

Täze faýl dörediň we owadan çorba we haýyş kitaphanalaryny import edip başlaň. Islegler kitaphanasy, Python programmalaryňyzyň içinde HTTP-ni okalýan formatda ulanmaga mümkinçilik berer. Beýleki tarapdan owadan çorba, sahypalary çalt gyrmak üçin işleýär. Owadan çorbany import etmek üçin bs4 ulanyň.

Web sahypasyny nädip ýygnamaly we derňemeli

Islegleri ulanmak bilen ilkinji sahypaňyzyň URL-ni ýygnaň. Birinji sahypanyň URL-si üýtgeýän sahypa berler. Isleglerden “BeautifulSoup” obýektini guruň we “Python” -yň derňewçisinden obýekti derňäň.

Bu gollanmada maksat baglanyşyklary we suratkeşleriň atlaryny ýygnamakdyr. Mysal üçin, suratkeşleriň senelerini we milletlerini ýygnap bilersiňiz. Windows ulanyjylary üçin aýdymçynyň adyna sag basyň. Bu ýagdaýda Zabaglia, Nikolany ulanyň. Mac OS ulanyjylary üçin "CTRL" -e basyň we adyna basyň. Web döredijileriň gurallaryna girmek üçin ekranyňyzda açylýan "Elementi barlaň" menýusyna basyň. Owadan Çorbanyň agajy çalt derňemegi üçin hudo .nigiň atlaryny çap ediň.

Aşakdaky baglanyşyklary aýyrmak

Web sahypaňyzdaky aşaky baglanyşyklary aýyrmak üçin elemente sag basyp DOM-ny barlaň. Salgylaryň HTML tablisasynyň aşagyndadygyny kesgitlärsiňiz. Owadan çorbany ulanyp, seljeriş agajyndaky bellikleri aýyrmak üçin "bölmek usuly" ulanyň.

Mazmuny bellikden nädip çekmeli

Linkhli baglanyşyk belligini çap etmeli däl, bellikden material aýyrmak üçin owadan çorbany ulanyň. Şeýle hem, owadan çorba 4 ulanyp, hudo .nikler bilen baglanyşykly URL-leri alyp bilersiňiz.

Gyrylan maglumatlary CSV faýlyna almak

CSV faýly gurluşly maglumatlary esasan maglumat tablisalary üçin ulanylýan formatda ýönekeý tekstde saklamaga mümkinçilik berer. Python-da ýönekeý tekst faýllaryny işlemek boýunça bilimler maslahat berilýär.

Web maglumatlary çykarmak sahypalary gyrmak we maglumat almak üçin ulanylýar. Maglumatlary alýan web sahypalaryňyza üns beriň. Käbir dinamiki web sahypalary web sahypalarynda maglumatlary çykarmagy çäklendirýär. Owadan çorba we Python 3 bilen sahypany gyrmak gaty ýönekeý.