luni, 10 noiembrie 2008

Analiza unei comunitati web

Acesta a fost subiectul primei teme la IOM.. Mi-am dat seama imediat ca nu este ceva asa complicat precum suna: trebuiau extrase doar niste link-uri din pagini web sau XML-uri, pe post de prieteni sau fani.
Primul pas.. sa caut o aplicatie, cat se poate de rapid, fiindca nu e timp de pierdut. M-am oprit la Yahoo 360. Pagina parea destul de simpla: comentarii, prieteni, id-uri utile sa poata fi parsata repede. Dar surpriza.. SAX parser insira o groaza de erori deoarece paginile nu erau validate. Google peste Google, dar degeaba.. nu am gasit nicio metoda sa determin parserul sa ignore problemele de sintaxa HTML.
Mi-au venit in cap doua solutii: sa validez intreaga pagina folosind o librarie jar ce trebuia atasata proiectului sau, mai interesant, sa gasesc eu o solutie direct pe codul HTML. Am ales sa parsez cu SAX doar anumite portiuni din pagina web care ma interesau. Citind linie cu linie fluxul de text am corectat pe aceste portiuni cele cateva probleme de validare: tag-uri img invalide, atribute neinchise in ghilimele etc. Si, spre bucuria mea, a mers..
Care ar fi concluzia? Ce fel de anagajati are Yahoo care scriu un cod HTML atat de oribil? Tocmai ei care gestioneaza un motor de cautare... Surprinzator totusi...

Niciun comentariu: