
Data jsou ropou online světa. A Češi je umí skvěle těžit, tedy i vydělávat

Čteme vám Seznam Zprávy
Poslechněte si podcast
Dnes
6 min
O epizodě podcastu
Článek Ondřeje Katze. Bez „web scrapingu“ by nebyl Google ani velké jazykové modely typu ChatGPT. Všichni web scraping používají ke stahování dat, na kterých trénují AI modely. K radosti zakladatelů Apify, české platformy pro automatizaci webu.
V digitálním světě mají data obrovskou cenu. Chce je každý, získat je ale není snadné. A právě proto existuje web scraping – technologie, která umožňuje automatizovaně stahovat a zpracovávat veřejně dostupné informace z internetu. Funguje to tak, že softwarový robot navštíví web, stejně jako běžný uživatel, přečte jeho obsah a vytáhne z něj potřebná data. Na konci leží strukturovaný dataset, který pak firmy používají pro monitoring trhu, analýzy konkurence nebo třeba automatizaci interních procesů.
Celý článek čtěte zde .
- Další články, ale také podcasty, komentáře a videa najdete na zpravodajském serveru Seznam Zprávy .
- Své názory, návrhy, otázky, stížnosti nebo pochvaly nám můžete posílat na adresu audio@sz.cz.
- Sledujte @SeznamZpravy na sociálních sítích: Twitter // Facebook // Instagram .
- Seznam Zprávy jsou zdrojem původních informací, nezávislé investigace, originální publicistiky.
Článek Ondřeje Katze. Bez „web scrapingu“ by nebyl Google ani velké jazykové modely typu ChatGPT. Všichni web scraping používají ke stahování dat, na kterých trénují AI modely. K radosti zakladatelů Apify, české platformy pro automatizaci webu.
V digitálním světě mají data obrovskou cenu. Chce je každý, získat je ale není snadné. A právě proto existuje web scraping – technologie, která umožňuje automatizovaně stahovat a zpracovávat veřejně dostupné informace z internetu. Funguje to tak, že softwarový robot navštíví web, stejně jako běžný uživatel, přečte jeho obsah a vytáhne z něj potřebná data. Na konci leží strukturovaný dataset, který pak firmy používají pro monitoring trhu, analýzy konkurence nebo třeba automatizaci interních procesů.
Celý článek čtěte zde .
- Další články, ale také podcasty, komentáře a videa najdete na zpravodajském serveru Seznam Zprávy .
- Své názory, návrhy, otázky, stížnosti nebo pochvaly nám můžete posílat na adresu audio@sz.cz.
- Sledujte @SeznamZpravy na sociálních sítích: Twitter // Facebook // Instagram .
- Seznam Zprávy jsou zdrojem původních informací, nezávislé investigace, originální publicistiky.
Obsah epizody:
00:00 - Reklama00:21 - Data a web scraping
01:18 - Využití v praxi
01:42 - Příběh Apify
02:47 - Prodej a B2B slabiny
03:18 - Právo a legálnost
03:56 - Soudy a otevřenost dat
05:05 - Etika scrapingu
05:42 - Růst Apify a covid
06:10 - AI vlna a investice