Semalt - Qanday qilib veb-sahifalarni skriptlash mumkin?

Chiroyli sho'rva - bu XML va HTML hujjatlaridan analiz daraxti yaratish orqali veb-sahifalarni qirqish uchun keng foydalaniladigan Python kutubxonasi. Veb-qirqish, veb-saytlar va sahifalardan ma'lumotlarni yig'ish usuli ma'lumotni boshqarish va boshqarish sohasida keng qo'llaniladi. Ko'pgina hollarda, Python dasturlash tili ma'lumotlar ilmining muhim shartidir.

Python 3-da siz ma'lumotlarni boshqarish loyihangizga murojaat qilishingiz mumkin bo'lgan qirqish vositalari va modullari mavjud. Beautiful Soup 4 sifatida ishlayotganda, ushbu modul Python 3 va Python 2.7 bilan mos keladi. Beautiful Soup 4 moduli shuningdek yopiq bo'lmagan yorliqli sho'rva uchun sintaktik daraxt yaratishga qodir. Ushbu o'quv qo'llanmada siz sahifani qanday qilib qirqish va kesilgan ma'lumotlarni CSV fayliga yozishni o'rganasiz.

Ishni boshlash

Ishni boshlash uchun kompyuteringizda serverni yoki mahalliy Python kodlash muhitini o'rnating. Chiroyli sho'rva va so'rovlar modulini kompyuteringizga o'rnatishingiz kerak. Ikkala modul bilan ishlashni bilish ham zaruriy shartdir. HTML yorlig'i va tuzilishi bilan tanishish qo'shimcha afzallik hisoblanadi.

Ma'lumotlaringizni tushunish

Shu nuqtai nazardan, Go'zal sho'rvani qanday ishlatishni tushunishga yordam berish uchun Milliy san'at galereyasidagi haqiqiy ma'lumotlar ishlatiladi. Milliy san'at galereyasi taxminan 13000 rassom tomonidan ishlangan 120,000 ta buyumdan iborat. San'at AQShning Vashington shahrida joylashgan.

Beautiful Soup yordamida veb-ma'lumotlarni yig'ish juda qiyin emas. Masalan, agar siz Z harfiga e'tibor qaratadigan bo'lsangiz, ro'yxatdagi birinchi ismni belgilang va yozib oling. Bunday holda, birinchi ism Zabaglia, Nikola. Moslik uchun, sahifalar sonini va ushbu sahifadagi so'nggi rassomning ismini ko'rsating.

Qanday qilib so'rovlar va chiroyli sho'rva kutubxonasini import qilish kerak

Kutubxonalarni import qilish uchun Python 3 dasturlash muhitini faollashtiring. Dasturlash muhitingiz bilan bitta katalogda ekanligingizga ishonch hosil qiling. Ishni boshlash uchun quyidagi buyruqni bajaring. my_env / bin / activ.

Yangi fayl yarating va chiroyli sho'rva va so'rov kutubxonalarini import qilishni boshlang. So'rovlar kutubxonasi sizga Python dasturlaringizda o'qiladigan formatlarda HTTP-dan foydalanishga imkon beradi. O'z navbatida, chiroyli sho'rva sahifalarni tezda qirqish uchun ishlaydi. Chiroyli sho'rva import qilish uchun bs4-dan foydalaning.

Qanday qilib veb-sahifani to'plash va tahlil qilish

So'rovlardan foydalanish sizning birinchi sahifangizning URL manzilini to'playdi. Birinchi sahifaning URL manzili o'zgaruvchan sahifaga tayinlanadi. Requests-dan BeautifulSoup ob'ektini yarating va Python-ning analizatoridan ob'ektni tahlil qiling.

Ushbu o'quv qo'llanmada maqsadi havolalar va rassomlarning ismlarini to'plashdir. Masalan, siz rassomlarning sanalari va millatiga oid ma'lumotlarni to'plashingiz mumkin. Windows foydalanuvchilari uchun rassomning ismini o'ng tugmasini bosing. Bunday holda, Zabaglia, Nikkoladan foydalaning. Mac OS foydalanuvchilari uchun "CTRL" -ga teging va nomini bosing. Veb-ishlab chiqaruvchilarning vositalariga kirish uchun ekrandagi qalqib chiqadigan "Elementni tekshirish" menyusini bosing. Go'zal sho'rva daraxtini tezda tahlil qilish uchun rassomning ismlarini chop eting.

Pastki havolalarni olib tashlash

Veb-sahifangizdagi pastki havolalarni olib tashlash uchun elementni o'ng tugmasini bosib DOM-ni tekshiring. Havolalar HTML jadvali ostida ekanligini aniqlaysiz. Chiroyli sho'rva yordamida, parchalash daraxtidan teglarni olib tashlash uchun "dekompozitsiya usuli" dan foydalaning.

Tarkibni tegdan qanday tortib olish mumkin

Bog'lanish yorlig'ini to'liq bosib chiqarish shart emas, materialdan yorliqni olib tashlash uchun Beautiful Soup-dan foydalaning. Beautiful Soup 4-dan foydalanib, san'atkorlar bilan bog'liq URL-larni yozib olishingiz mumkin.

O'chirilgan ma'lumotlarni CSV fayliga yozib olish

CSV fayli sizga tuzilgan ma'lumotlarni oddiy ma'lumotlar formatida saqlash uchun imkon beradi. Python-da oddiy matnli fayllar bilan ishlash bo'yicha bilimlar tavsiya etiladi.

Veb ma'lumotlarini chiqarish sahifalarni qirib tashlash va ma'lumot olish uchun ishlatiladi. O'zingizning ma'lumotingiz bo'lgan veb-saytlarga e'tibor bering. Ba'zi dinamik veb-saytlar o'z saytlarida veb-ma'lumotlarni yig'ishni cheklaydi. Chiroyli sho'rva va Python 3 bilan sahifani tozalash juda oddiy.