Przejdź do treści

case study / Scraper Ogłoszeń z Normalizacją Treści przez LLM

Scraper Ogłoszeń z Normalizacją Treści przez LLM

Firma potrzebowała regularnie pobierać dane z portalu ogłoszeniowego i ujednolicać je pod dalsze workflow sprzedażowe oraz analityczne.

PythonPlaywrightQueuesPostgreSQLOpenAI / local LLM

Przegląd projektu

Firma potrzebowała regularnie pobierać dane z portalu ogłoszeniowego i ujednolicać je pod dalsze workflow sprzedażowe oraz analityczne.

Problem

Treści były niespójne, zaszumione i wymagały zbyt dużej ilości ręcznego czyszczenia przed zapisaniem ich w docelowym systemie.

Architektura

Crawler oparty o przeglądarkę automatyczną, warstwa kolejkowania, moduł deduplikacji rekordów oraz etap normalizacji treści wykonywany przez OpenAI albo lokalny model.

Rozwiązanie

  • Rozdzielono pobieranie, parsowanie i normalizację na osobne etapy pipeline'u
  • Dodano reguły deduplikacji oraz fallback między zewnętrznym i lokalnym modelem
  • Wystawiono wyniki do dalszego użycia w systemach wewnętrznych i raportach

Rezultaty

  • Lepsza jakość danych wejściowych do kolejnych procesów
  • Mniej pracy ręcznej przy czyszczeniu treści i opisów
  • Stały dopływ znormalizowanych rekordów gotowych do dalszego użycia

kolejny krok

Potrzebujesz zaprojektować lub ustabilizować podobny system?