Nastavení Scraping Camelu

V této sekci vás provedeme, jak Scraping Camel používat.

1. Klikněte na aplikaci viz. obr. níže

2. Zobrazení výpisu stránek

Upozornění: Pokud se Scraping Camelem začínáte, tak zde budete mít prázdné pole. Pro vytvoření nové stránky, která se pak ve výpisu objeví, kliněte na "Nová stránka".

3. Tvorba nové stránky

  • Název webové stránky
    • Zde zadáte, jak chcete mít pojmenovanou vaši stránku.
  • URL webové stránky
    • Zde zadáte URL vašeho webu.
  • Počet stažení v daném intervalu (Toto nastavení, lze potom upravit)
    • Zde uvádíte kolik stránek se má naráz zpracovávat za určitý časový úsek. Příklad 5.
  • Interval stažení stránek (Toto nastavení, lze potom upravit)
    • Zde určujete časový úsek stažení stránek. Příklad každých 500 ms se stáhne 5 stránek.

4. Verifikace domény a sitemap

Abyste mohli používat Scraping Camel je potřeba nejdříve ověřit, zda jste opravdu vlastníkem webu. Scraping Camel nabízí 3 možnosti ověření. Záleží na vás, které zvolíte.
Po ověření domény, je potřeba ještě ověřit, zda se na webu vyskytuje soubor sitemap, bez něho by aplikace nemohla fungovat.
Upozornění: Může se stát, že aplikace automaticky soubor sitemap nenalezne. V případě, že by se tato situace vyskytla, je nutné adresu souboru sitemap vložit ručně do požadovaného pole.

5. Nastavení elementů

V této sekci se nastavujeme, které elementy chceme ze stránek extrahovat (vyjmout). Máme zde několik předdefinovanách prvků:
  • URL
    • Vyjme se stránek všechny URL adresy
  • Název
    • Vyjme ze stránek název stránek (Title)
  • Poslední stažení
    • Kdy naposledy byla stránka Scraping Camelem stažena
  • HTTP STATUS
    • Jaky stavový kód stránka obsahuje (200 , 404 apod.)
Jestliže předdefinované prvky nestačí, tak si můžete navolit své vlastní. K tomu slouží pole "Vlastní element"
  • Název
    • Zde zadáte, jak chcete, aby se element jmenoval.
  • Hodnota předtím
    • Zde zadáte začátek znaku, tedy odkud se mají začít extrahovat (vyjímat) data. Příklad vzorového elementu: <div class="basic-description">
  • Hondota po
    • Zde zadáte konec znaku, tedy kde má extrakce končit. Příklad vzorového elementu: </div>
  • Regulární výraz
    • Zde můžete zadat regulární výraz. Příklad vzorového regulárního výrazu: <h2>(.*)</h2>

6. Dokončení nastavení

Posledním krokem, je pojmenovat váš exportní soubor.