Python - HTML parsētājs

Satura rādītājs
Veicot darbu ar parsētājs iekšā Python tas ir ieteicams, ja mēs strādājam ar dokumentiem HTML izmantot standartu XHTML, tā kā pēdējais ir stingrāks attiecībā uz elementu sākuma un aizvēršanas tagu apstrādi, ar to mēs varam vieglāk izveidot programmas, kas to var interpretēt.
In Python mums ir pieejami HTML parsētājs, to nevajadzētu jaukt ar tā paša moduļa nosaukuma klasi htmllib, tā kā pirmā ir daļa no standarta bibliotēkas, kad iegūstam dokumentu no Sakopta mēs varam izmantot HMTLParser lai varētu pārlūkot tā saturu.
Izmantojot HTMLParser
Izmantojiet HTML parsētājs, tas patiešām nozīmē to apakšklasificēt, lai mēs varētu pārrakstīt metodes, kad mums tas ir ērti, un tādējādi spētu izpildīt mūsu prasības, turpmāk apskatīsim galveno metožu sarakstu, ko iegūstam, izmantojot HTML parsētājs.
  • handle_starttag (tags, attrs): Kad tiek atrasts sākuma tags, attrs ir pāru secība (nosaukums, vērtība).
  • handle_startendtag (tags, attrs): Izmanto tukšām etiķetēm. Pēc noklusējuma tā startēšanu un izslēgšanu apstrādā atsevišķi.
  • handle_endtag (tags): Izmanto, ja tiek atrasts noslēguma tags.
  • handle_data (dati): To izmanto, kad atrodam teksta datus.
  • handle_charref (atsauce): To izmanto, strādājot ar & # ref; veidlapu rakstzīmju atsaucēm.
  • handle_entityref (nosaukums): Mēs to izmantojam, ja mums ir atsauces uz & name; formas entītijām.
  • handle_comment (dati): Tas tiek izsaukts tikai tad, ja ir komentēts saturs.
  • handle_decl (decl): To izmanto veidlapas deklarācijām.
  • handle_pi (dati): To izmanto instrukciju apstrādei.
Kad mēs esam redzējuši galvenās metodes ,. HTML parsētājsTālāk mēs redzēsim attēlu ar koda piemēru, un tad mēs paskaidrosim, no kā tas sastāv:

PALIELINĀT

Pirmā lieta, ko mēs pamanām, ir šī Ekrāna nokasīšana mēs negrasāmies izmantot SakoptaTas ir tāpēc, ka HTML, kuru mēs pārbaudīsim, nav slikti izveidots, tad mēs redzam, ka pirmā lieta, ko mēs paziņojam, ir daži Būla mainīgie, ar kuriem mēs kontrolēsim, vai mēs atrodamies elementā H4 vai saites elementā vai saitē.
Mums ir kaut kas īpaši ar metodi handle_dataTā kā mēs atrodamies reālās dzīves vidē, mums ir jāgatavojas vissarežģītākajiem scenārijiem, un ar to mēs domājam, ka, tā kā ir gandrīz droši, ka mēs neiegūsim nepieciešamo informāciju pirmajā zvanā, mēs sagatavojam šo metodi, lai to varētu iegūt daļēji, tiklīdz mēs iegūstam visu, ko mēs darām, ir pievienoties datiem.
Mūsu programmas darbība sākas, kad mēs izsaucam šo metodi plūsma () kuram mēs nododam tekstu, kas ir tīmekļa lapas saturs, ko iegūstam ar šo metodi urlopen () un, kad tas viss ir apstrādāts, mēs turpinām izsaukt aizvēršanas () metodi.
Visbeidzot ar to mēs sasniedzām programmu Ekrāna nokasīšana lasāmāka nekā regulāru izteiksmju izmantošana un nedaudz stingrāka tādā aspektā, ka mēs neaprobežojamies tikai ar fiksētām struktūrām, tādējādi mēs varam pareizi iegūt savu informāciju.
Ar to mēs pabeidzam mūsu HTMLParser apmācību, jo mēs redzam, ka ir daudz veidu, kā iegūt šos risinājumus, lai iegūtu informāciju no tīmekļa lapas.Vai jums patika šī apmācība un palīdzējāt tai?Jūs varat apbalvot autoru, nospiežot šo pogu, lai sniegtu viņam pozitīvu punktu
wave wave wave wave wave