Pasii care vor trebui implementati pentru a realiza un scraper pentru o companie, sunt:
sterge datele din index
extrage locurile de munca din website-ul companiei
pregateste datele pentru a putea fi trimise prin API
-
trimite datele
= locurile de munca spre index
Acesta este algoritmul care va trebui scris pentru fiecare companie in parte. In ce limbaj scri scraperul nu este important, insa ce e important?
- scraperul trebuie sa fie cat mai rapid
- scraperul nu are voie sa preia de foarte multe ori pe zi date de pe website (acceptabil o data pe zi sau de doua ori pe zi)
- datele care se trimit spre index trebuie sa aibe sens, si aici ne referim la faptul ca oamenii de HR s-ar putea sa introduca date gresite sau care nu au corespondent la noi in index.
Validarea datelor
Ne propunem ca inainte de a pune scraperul la lucru zilnic sa ne validam aceste locuri de munca pe un environment de test.
Nu are sens ca datele din productie sa fie partial valide sau in proces de a fi corectate, astfel pana cand nu suntem siguri ca scraperul extrage corect datele, toate datele vor fi trimise catre un server de test.
Odata ce scraperul este validat, putem sa il programam printr-un proces sa se ruleze zilnic sau de doua ori pe zi.
Propunere de implementare scraper
Propunem spre implementare scraper cu tehnologiile: JMeter
, RegEx
, JSON extractor
si pentru automatizarea de a se instantia o data pe zi: GitHUB Actions
In articolul urmator venim cu o solutie in care am implementat un scraper pentru o anumita firma.
Top comments (0)