Nastavení Scraping Camelu

V této sekci vás provedeme, jak Scraping Camel používat.

1. Klikněte na aplikaci viz. obr. níže

2. Zobrazení výpisu stránek

Upozornění: Pokud se Scraping Camelem začínáte, tak zde budete mít prázdné pole. Pro vytvoření nové stránky, která se pak ve výpisu objeví, kliněte na "Nová stránka".

3. Tvorba nové stránky

  • Název webové stránky

    • Zde zadáte, jak chcete mít pojmenovanou vaši stránku.

  • URL webové stránky

    • Zde zadáte URL vašeho webu.

  • Počet stažení v daném intervalu (Toto nastavení, lze potom upravit)

    • Zde uvádíte kolik stránek se má naráz zpracovávat za určitý časový úsek. Příklad 5.

  • Interval stažení stránek (Toto nastavení, lze potom upravit)

    • Zde určujete časový úsek stažení stránek. Příklad každých 500 ms se stáhne 5 stránek.

4. Verifikace domény a sitemap

Abyste mohli používat Scraping Camel je potřeba nejdříve ověřit, zda jste opravdu vlastníkem webu. Scraping Camel nabízí 3 možnosti ověření. Záleží na vás, které zvolíte.

Po ověření domény, je potřeba ještě ověřit, zda se na webu vyskytuje soubor sitemap, bez něho by aplikace nemohla fungovat.

Upozornění: Může se stát, že aplikace automaticky soubor sitemap nenalezne. V případě, že by se tato situace vyskytla, je nutné adresu souboru sitemap vložit ručně do požadovaného pole.

5. Nastavení elementů

V této sekci se nastavujeme, které elementy chceme ze stránek extrahovat (vyjmout). Máme zde několik předdefinovanách prvků:

  • URL

    • Vyjme se stránek všechny URL adresy

  • Název

    • Vyjme ze stránek název stránek (Title)

  • Poslední stažení

    • Kdy naposledy byla stránka Scraping Camelem stažena

  • HTTP STATUS

    • Jaky stavový kód stránka obsahuje (200 , 404 apod.)

Jestliže předdefinované prvky nestačí, tak si můžete navolit své vlastní. K tomu slouží pole "Vlastní element"

  • Název

    • Zde zadáte, jak chcete, aby se element jmenoval.

  • Hodnota předtím

    • Zde zadáte začátek znaku, tedy odkud se mají začít extrahovat (vyjímat) data. Příklad vzorového elementu: <div class="basic-description">

  • Hondota po

    • Zde zadáte konec znaku, tedy kde má extrakce končit. Příklad vzorového elementu: </div>

  • Regulární výraz

    • Zde můžete zadat regulární výraz. Příklad vzorového regulárního výrazu: <h2>(.*)</h2>

6. Dokončení nastavení

Posledním krokem, je pojmenovat váš exportní soubor.

Last updated