Nastavení Scraping Camelu
V této sekci vás provedeme, jak Scraping Camel používat.
1. Klikněte na aplikaci viz. obr. níže
2. Zobrazení výpisu stránek
Upozornění: Pokud se Scraping Camelem začínáte, tak zde budete mít prázdné pole. Pro vytvoření nové stránky, která se pak ve výpisu objeví, kliněte na "Nová stránka".
3. Tvorba nové stránky
Název webové stránky
Zde zadáte, jak chcete mít pojmenovanou vaši stránku.
URL webové stránky
Zde zadáte URL vašeho webu.
Počet stažení v daném intervalu (Toto nastavení, lze potom upravit)
Zde uvádíte kolik stránek se má naráz zpracovávat za určitý časový úsek. Příklad 5.
Interval stažení stránek (Toto nastavení, lze potom upravit)
Zde určujete časový úsek stažení stránek. Příklad každých 500 ms se stáhne 5 stránek.
4. Verifikace domény a sitemap
Abyste mohli používat Scraping Camel je potřeba nejdříve ověřit, zda jste opravdu vlastníkem webu. Scraping Camel nabízí 3 možnosti ověření. Záleží na vás, které zvolíte.
Po ověření domény, je potřeba ještě ověřit, zda se na webu vyskytuje soubor sitemap, bez něho by aplikace nemohla fungovat.
Upozornění: Může se stát, že aplikace automaticky soubor sitemap nenalezne. V případě, že by se tato situace vyskytla, je nutné adresu souboru sitemap vložit ručně do požadovaného pole.
5. Nastavení elementů
V této sekci se nastavujeme, které elementy chceme ze stránek extrahovat (vyjmout). Máme zde několik předdefinovanách prvků:
URL
Vyjme se stránek všechny URL adresy
Název
Vyjme ze stránek název stránek (Title)
Poslední stažení
Kdy naposledy byla stránka Scraping Camelem stažena
HTTP STATUS
Jaky stavový kód stránka obsahuje (200 , 404 apod.)
Jestliže předdefinované prvky nestačí, tak si můžete navolit své vlastní. K tomu slouží pole "Vlastní element"
Název
Zde zadáte, jak chcete, aby se element jmenoval.
Hodnota předtím
Zde zadáte začátek znaku, tedy odkud se mají začít extrahovat (vyjímat) data. Příklad vzorového elementu:
<div class="basic-description">
Hondota po
Zde zadáte konec znaku, tedy kde má extrakce končit. Příklad vzorového elementu:
</div>
Regulární výraz
Zde můžete zadat regulární výraz. Příklad vzorového regulárního výrazu:
<h2>(.*)</h2>
6. Dokončení nastavení
Posledním krokem, je pojmenovat váš exportní soubor.
Last updated