peviitor.ro - scraper[3]

#peviitor #job #scraper #locuridemunca

Pasii care vor trebui implementati pentru a realiza un scraper pentru o companie, sunt:

sterge datele din index
extrage locurile de munca din website-ul companiei
pregateste datele pentru a putea fi trimise prin API
trimite datele= locurile de munca spre index

Acesta este algoritmul care va trebui scris pentru fiecare companie in parte. In ce limbaj scri scraperul nu este important, insa ce e important?

scraperul trebuie sa fie cat mai rapid
scraperul nu are voie sa preia de foarte multe ori pe zi date de pe website (acceptabil o data pe zi sau de doua ori pe zi)
datele care se trimit spre index trebuie sa aibe sens, si aici ne referim la faptul ca oamenii de HR s-ar putea sa introduca date gresite sau care nu au corespondent la noi in index.

Validarea datelor

Ne propunem ca inainte de a pune scraperul la lucru zilnic sa ne validam aceste locuri de munca pe un environment de test.

Nu are sens ca datele din productie sa fie partial valide sau in proces de a fi corectate, astfel pana cand nu suntem siguri ca scraperul extrage corect datele, toate datele vor fi trimise catre un server de test.
Odata ce scraperul este validat, putem sa il programam printr-un proces sa se ruleze zilnic sau de doua ori pe zi.

Propunere de implementare scraper

Propunem spre implementare scraper cu tehnologiile: JMeter, RegEx, JSON extractor si pentru automatizarea de a se instantia o data pe zi: GitHUB Actions

In articolul urmator venim cu o solutie in care am implementat un scraper pentru o anumita firma.

DEV Community

peviitor.ro - scraper[3]

Validarea datelor

Propunere de implementare scraper

Top comments (0)

Read next

How to Become a Successful Software Developer in 2024

Enhancing Hybrid Search in MongoDB: Combining RRF, Thresholds, and Weights

Una Guía para Principiantes sobre la Autenticación usando API Gateway y Lambda Authorizer

AI Cabin Crew: Taking Teamwork to New Heights