Back to Question Center
0

Semalt: HTMLni tozalash qo'llanmasi - eng yaxshi maslahatlar

1 answers:

Veb tarkibi asosan tuzilgan yoki HTML formatida. Har bir sahifa o'z mazmuniga qarab o'ziga xos tarzda tashkil etiladi. Agar kimdir veb-axborotlarni olishni istasa, bu har bir insonning ma'lumotni tuzilgan va yaxshi tashkil etilgan tarzda olish istagi. Bu hujjatni ko'rib chiqmasdan oldin tahlil qilish va tahlil qilish uchun zarur bo'lgan vaqtni tejashga yordam beradi. Ammo, tuzilgan formatni olish oson emas, chunki ko'pchilik veb-saytlar odamlarga katta hajmdagi ma'lumotlarni olishni taqiqlash uchun bu variantni taklif qilmaydi - pc temperature reading. Ba'zi saytlar esa, axborotni uzatish imkoniyatini tez va qulay jarayonda taqdim etadigan APIlarni taqdim etadi.

Bunday hodisalarda, sizda kazishma deb ataladigan dasturiy ta'minotni ishlatishdan boshqa tanlov yo'q. Bu kompyuter dasturini foydalanuvchilarga ma'lumotni foydali formatda to'plashga va ma'lumotlar strukturasini saqlab qolishga yordam beradigan usuldir.

Lxml and Request

Bu XML va HTMLni tez tahlil qilish va baholashda yordam beradi va vaqtni tejashga yordam beradi. Shuningdek, tahlil jarayonida buzilgan teglar bilan ishlashda ham yordam beradi. Ushbu amaliyotda siz tezroq, mustahkam va qulay bo'lganligi uchun ichki urllib2 dan tashqari Lxml talablarini qo'llaysiz..Tarmoqni Lxml va pip o'rnatish talablarini ishlatish bilan o'rnatish oson.

HTML skrining uchun quyidagi bosqichlarni bajaring

Import bilan boshlang - bu erda siz Lxmldan HTML import qilsangiz, keyin so'rovni import qiling. So'rovdan foydalaning va so'ngra siz istagan ma'lumotni o'z ichiga olgan veb-sahifani izlang, HTML moduli bilan tahlil qiling va keyin ajralib chiqqan ma'lumotlarni daraxtga yozib oling.

HTML'dan kirishni kutish uchun HTML-dan foydalanish kerak, chunki siz matndan ko'ra sahifa tarkibidan foydalanishingiz kerak bo'ladi. Siz tahlil qilingan ma'lumotni saqlagan daraxt daraxt tarkibidagi HTML hujjatni o'z ichiga oladi. Siz turli xil yondoshuvlarda, XPath va CSS-ni tanlashingiz mumkin.

XPath sizga ma'lumotlarni olish yoki uni HTML yoki XML kabi tuzilgan formatda olish imkonini beradi. XPath elementlarini olishning turli usullari mavjud. Bunga Firefox yoki Chrome inspektorlari uchun Firebug kiradi. Chrome'dan foydalanganda ma'lumotni tekshirish oson, chunki tekshirishni talab qiluvchi elementni "o'ngga" o'ngga bosish kerak, "Elementni tekshirish" ni tanlab oling va kodni o'ng tugmasini bosing va XPath nusxasini tanlang. Ushbu operatsiyani bajarish, sizning sahifangizda qaysi elementlarning mavjudligini bilishingizga yordam beradi va u yerdan to'g'ri XPath so'rovini yaratish va Lxml XPathni to'g'ri bajarish oson.

Ushbu qadamlar orqali siz Lxml va Requests-dan foydalangan holda ma'lum bir veb-saytdan barcha ma'lumotlarni olib tashlamoqchi bo'lishingiz mumkin. Siz ikkita ro'yxatli xotirada saqlangan ma'lumotlarga ega bo'lasiz, hozir esa tartiblash uchun tayyor. Uni Python kabi dasturlash tilidan foydalanib tahlil qilishingiz yoki uni saqlashingiz va almashishingiz mumkin. Bundan tashqari, siz uni almashtirishdan avval ma'lumotlarning ba'zi qismlarini qayta yozishingiz yoki tahrirlashingiz mumkin.

December 8, 2017