dbo:abstract
|
- Una aranya web o robot web (web crawler en anglès) és un programari que inspecciona pàgines Web de forma metòdica i automatitzada. Les aranyes web s'utilitzen per a crear una còpia de totes les pàgines web visitades per al seu processament posterior per un motor de recerca que indexa les pàgines per a proporcionar un sistema de recerques ràpid. Aquests programes comencen visitant una llista d'URLs identifiquen els hiperenllaços que contenen i els afegeixen a la llista d'URLs a visitar de manera recurrent d'acord amb un determinat conjunt de regles. El seu funcionament usual és a partir d'un grup d'adreces inicials que es proporciona a aquest programa, l'aranya les descarrega, n'analitza les pàgines i cerca enllaços a pàgines noves. Després descarrega aquestes pàgines noves, n'analitza els enllaços, i així successivament ad nauseam. Les tasques més comunes de les aranyes són:
* Crear l'índex d'una màquina de recerca.
* Analitzar els enllaços d'un lloc per a buscar enllaços trencats.
* Recol·lectar informació d'un cert tipus, com preus de productes per a recopilar un catàleg. Els administradors de webs poden controlar relativament l'accés de les aranyes a les seves webs creant l'arxiu "robots.txt", que usa una sintaxi definida per a guiar aquests robots per l'estructura d'aquella web. Podeu veure per exemple l'arxiu; (ca)
- زاحف الشبكة أو زاحف الويب (بالإنجليزية: Web crawler) هو برنامج كمبيوتر يقوم بتصفح الشبكة العالمية بطريقة منهجية وآلية ومنظمة. هناك مصطلحات أخرى لزواحف الشبكة مثل النمل والمفهرس التلقائي، والبوت.، وعناكب الشبكة ، أو آليات الشبكة. وهذه العملية تسمى الزحف على الشبكة أو العنكبة. كثير من المواقع، وبخاصة محركات البحث، تستخدم العنكبة كوسيلة لتوفير بيانات حديثة. وزواحف الشبكة تستخدم أساسا لإنشاء نسخ من جميع الصفحات التي يتم زيارتها لكى يفهرسها محرك البحث في وقت لاحق ويحمل الصفحات أثناء عمليات البحث بسرعة. ويمكن أيضا أن تستخدم الزواحف لاتمام مهام الصيانة على موقع علي الشبكة، مثل التحقق من صحة الروابط أو تعليمات لغة تحرير النص الفائق البرمجية. أيضا، يمكن استخدام الزواحف لجمع أنواع محددة من المعلومات من صفحات الشبكة، مثل حصاد عناوين البريد الإلكتروني (عادة لارسال رسائل غير المرغوب فيها). وزاحف الشبكة هو أحد أنواع البوتات، أو وكلاء البرامج. بشكل عام، يبدأ زاحف الشبكة بقائمة من العناوين المرغوب في زيارتها، وتدعى هذه القائمة بالبذور. عندما يزور الزاحف هذه العناوين، فإنه يحدد كافة الارتباطات التشعبية في الصفحة ويضيفها إلى قائمة العناوين المطلوب زيارتها، وتدعى حدود الزحف. وتتم زيارة عناوين حدود الزحف بشكل متكرر وفقا لمجموعة من السياسات. بسبب الحجم الكبير يمكن للزاحف تحميل جزء صغير فقط من صفحات الشبكة في غضون فترة زمنية معينة، لذلك يحتاج إلى إعطاء الأولوية في التنزيلات. ومعدل التغييرالمرتفع يعني أن بعض الصفحات قد يكون تم تحديثه أو حتى حذفها. و عدد العناوين القابلة للزحف والتي تتولد من جانب البرمجيات الخادمة للمواقع على الشبكة جعلت من الصعب تجنب استرجاع محتويات مكرره أثناء الزحف على شبكة الإنترنت. يوجد تركيبات لانهائية من العناوين القائمة على أساس بروتوكول نقل النص الفائق، ولكن في الحقيقة لا يوجد سوى مجموعة صغيرة منها تعيد محتوى فريد. على سبيل المثال، قد يقدم عارض مبسط الصور على الإنترنت ثلاثة خيارات للمستخدمين، على النحو المحدد من خلال معلمات بروتوكول نقل النص الفائق في العنوان. إذا كان هناك أربع طرق لفرز الصور، وثلاثة خيارات لحجم الصورة المصغرة، وطرقتين لتنسيق الملفات، بالإضافة إلى خيار لتعطيل المحتوى القادم من المستخدم، فنفس المجموعة من محتوى يمكن الوصول إليها من خلال 48 عناوين مختلفة، كل منها على الموقع. هذا التوافق الرياضي يخلق مشكلة للزواحف، لأنها يجب أن تفرز من خلال تركيبات لا تنتهي من تغييرات طفيفة نسبيا في لغة البرمجة من أجل استرداد محتوى فريد من نوعه. ويجب أن يختار الزاحف بعناية في كل خطوة الصفحات التي تلي في الزيارة. (ar)
- Web crawler (někdy také spider) je v informatice specializovaný internetový bot, který prochází World Wide Web za účelem vytvoření obrovské databáze. Navštěvuje automaticky veškeré dostupné webové stránky a tím umožní zaznamenat, která slova kde viděl. Webový vyhledávač pak na dotaz uživatele (jedno nebo více slov) může z web indexu odpovědět, na kterých stránkách jsou hledaná slova k nalezení. (cs)
- Ein Webcrawler (auch Spider, Searchbot oder Robot) ist ein Computerprogramm, das automatisch das World Wide Web durchsucht und Webseiten analysiert. Webcrawler werden vor allem von Suchmaschinen zur Indexierung von Webseiten eingesetzt. Weitere Anwendungen sind das Sammeln von Web-Feeds, E-Mail-Adressen oder von anderen Informationen. Webcrawler sind eine spezielle Art von Bots, also Computerprogrammen, die weitgehend automatisch sich wiederholenden Aufgaben nachgehen. (de)
- Un rastreador web, indexador web, indizador web o araña web es un programa informático que inspecciona las páginas del World Wide Web de forma metódica y automatizada. Uno de los usos más frecuentes que se les da consiste en crear una copia de todas las páginas web visitadas para su procesado posterior por un motor de búsqueda que indexa las páginas proporcionando un sistema de búsquedas rápido. Las arañas web suelen ser bots. Las arañas web comienzan visitando una lista de URL, identifica los hiperenlaces en dichas páginas y los añade a la lista de URL a visitar de manera recurrente de acuerdo a determinado conjunto de reglas. La operación normal es que se le da al programa un grupo de direcciones iniciales, la araña descarga estas direcciones, analiza las páginas y busca enlaces a páginas nuevas. Luego descarga estas páginas nuevas, analiza sus enlaces, y así sucesivamente. Entre las tareas más comunes de las arañas de la web tenemos:
* Crear el índice de una máquina de búsqueda.
* Analizar los enlaces de un sitio para buscar links rotos.
* Recolectar información de un cierto tipo, como precios de productos para recopilar un catálogo. (es)
- Web crawler modu automatikoan webeko orrialdeak arakatzen dituen sistema da. Web crawler bat orrialde guzti hauen kopia bana egin eta datu-base batean indizatu ondoren web bilatzaile batean modu azkarrean emaitzak erakusteko erabiltzen da. Hasteko, eskuz zehaztutako URL helbide zerrenda bat izaten dute abiapuntu, ondoren orrialde guzti horietan hiperloturak aurkituz doan heinean orrialde berriak deskubritu eta eremua handituz doa. Horrela jarraitzen du helbide berri gehiago aurkitzen ez dituen arte edo amaiera puntu bat definitu arte. (eu)
- Un robot d'indexation (en anglais web crawler ou web spider, littéralement araignée du Web) est un logiciel qui explore automatiquement le Web. Il est généralement conçu pour collecter les ressources (pages Web, images, vidéos, documents Word, PDF ou PostScript, etc.), afin de permettre à un moteur de recherche de les indexer. Fonctionnant sur le même principe, certains robots malveillants (spambots) sont utilisés pour archiver les ressources ou collecter des adresses électroniques auxquelles envoyer des courriels. En français, depuis 2013, crawler est remplaçable par le mot collecteur. Il existe aussi des collecteurs analysant finement les contenus afin de ne ramener qu'une partie de leur information. (fr)
- クローラもしくはクローラー (Crawler) とは、ウェブ上の文書や画像などを周期的に取得し、自動的にデータベース化するプログラムである。「ボット」 (bot)、「スパイダー」、「ロボット」などとも呼ばれる。 主に検索エンジンのデータベース、インデックス作成に用いられているほか、統計調査などの目的にも利用されている。近年では、電子メールアドレス収集業者などもクローラを利用してスパムの送信効率を上げている。 一般にクローラは、既知のHTML文書の新しいコピーを要求して文書中に含まれるリンクをたどり、別の文書を収集するという動作を繰り返す。新しい文書を見つけた場合はデータベースに登録するほか、既知のファイルが存在しないことを検出した場合はデータベースから削除する。 (ja)
- ( 검색 엔진에 대해서는 웹크롤러 문서를 참고하십시오.) 웹 크롤러(web crawler)는 조직적, 자동화된 방법으로 월드 와이드 웹을 탐색하는 컴퓨터 프로그램이다. 웹 크롤러가 하는 작업을 '웹 크롤링'(web crawling) 혹은 '스파이더링'(spidering)이라 부른다. 검색 엔진과 같은 여러 사이트에서는 데이터의 최신 상태 유지를 위해 웹 크롤링한다. 웹 크롤러는 대체로 방문한 사이트의 모든 페이지의 복사본을 생성하는 데 사용되며, 검색 엔진은 이렇게 생성된 페이지를 보다 빠른 검색을 위해 인덱싱한다. 또한 크롤러는 링크 체크나 HTML 코드 검증과 같은 웹 사이트의 자동 유지 관리 작업을 위해 사용되기도 하며, 자동 이메일 수집과 같은 웹 페이지의 특정 형태의 정보를 수집하는 데도 사용된다. 웹 크롤러는 봇이나 소프트웨어 에이전트의 한 형태이다. 웹 크롤러는 대개 시드(seeds)라고 불리는 URL 리스트에서부터 시작하는데, 페이지의 모든 하이퍼링크를 인식하여 URL 리스트를 갱신한다. 갱신된 URL 리스트는 재귀적으로 다시 방문한다. (ko)
- A Web crawler, sometimes called a spider or spiderbot and often shortened to crawler, is an Internet bot that systematically browses the World Wide Web and that is typically operated by search engines for the purpose of Web indexing (web spidering). Web search engines and some other websites use Web crawling or spidering software to update their web content or indices of other sites' web content. Web crawlers copy pages for processing by a search engine, which indexes the downloaded pages so that users can search more efficiently. Crawlers consume resources on visited systems and often visit sites unprompted. Issues of schedule, load, and "politeness" come into play when large collections of pages are accessed. Mechanisms exist for public sites not wishing to be crawled to make this known to the crawling agent. For example, including a <a href="/wiki/Robots.txt" class="mw-redirect" title="Robots.txt">robots.txt</a> file can request bots to index only parts of a website, or nothing at all. The number of Internet pages is extremely large; even the largest crawlers fall short of making a complete index. For this reason, search engines struggled to give relevant search results in the early years of the World Wide Web, before 2000. Today, relevant results are given almost instantly. Crawlers can validate hyperlinks and HTML code. They can also be used for web scraping and data-driven programming. (en)
- Un crawler (detto anche web crawler, spider o robot), è un software che analizza i contenuti di una rete (o di un database) in un modo metodico e automatizzato, in genere per conto di un motore di ricerca. Nello specifico, un crawler è un tipo di bot (programma o script che automatizza delle operazioni), che solitamente acquisisce una copia testuale di tutti i documenti presenti in una o più pagine web creando un indice che ne permetta, successivamente, la ricerca e la visualizzazione. Un uso estremamente comune dei crawler viene effettuato sul Web; esso si basa su una lista di URL da visitare fornita dal motore di ricerca (il quale, inizialmente, si basa a sua volta sugli indirizzi suggeriti dagli utenti o su una lista precompilata dai programmatori stessi). Durante l'analisi di una URL, identifica tutti i collegamenti ipertestuali presenti nel documento e li aggiunge alla lista di URL da visitare. Il processo può essere concluso manualmente o dopo che un determinato numero di collegamenti è stato seguito. Inoltre i crawler attivi su Internet hanno la facoltà di essere indirizzati da quanto indicato nel file "robots.txt" posto nella root del sito. All'interno di questo file, è possibile indicare quali pagine non dovrebbero essere analizzate. Il crawler ha la facoltà di seguire i consigli, ma non l'obbligo. (it)
- Een spider (ook wel webcrawler genoemd) is een bot die het wereldwijde web op een methodische en geautomatiseerde manier doorbladert. Spiders maken veelal een lokale kopie van de gevonden pagina's om deze later te kunnen verwerken en indexeren voor bijvoorbeeld zoekmachines. De werkingswijze is eenvoudig: de spider begint met een lijst met URL's en bezoekt deze een voor één, waarbij alle hyperlinks die in de bezochte pagina's voorkomen aan de lijst van te bezoeken URL's worden toegevoegd. Op deze wijze kan een spider vrijwel alle publiekelijk toegankelijke pagina's op het internet langsgaan. Veelal komen spiders met een vaste regelmaat langs om hun index actueel te houden. Spiders dienen zich tijdens hun rondgang correct te gedragen omdat ze pagina's sneller kunnen opvragen en verwerken dan een mens. De meeste spiders nemen de moeite om pagina's van één webserver niet allemaal achter elkaar op te vragen maar deze over een tijdsbestek te spreiden om te voorkomen dat de betreffende webserver overbelast raakt. (nl)
- Um rastreador da rede, em inglês web crawler, é um programa de computador que navega pela rede mundial de uma forma metódica e automatizada. Outros termos para rastreadores da rede são indexadores automáticos, robôs, aranhas da rede, robô da rede ou escutador da rede. (em inglês: bots, web spiders, web robot e web scutter). A Google tentou patentear esta ferramenta em 1998 sem sucesso. O processo que um rastreador da rede executa é chamado de rastreamento da rede ou indexação. Muitos sítios, em particular os motores de busca, usam rastreadores para manter uma base de dados atualizada. Os rastreadores da rede são principalmente utilizados para criar uma cópia de todas as páginas visitadas para um pós-processamento por um motor de pesquisa que irá indexar as páginas baixadas para prover pesquisas mais rápidas. Os rastreadores também podem ser utilizados para as tarefas de manutenção automatizadas em um sítio da rede, como verificar as ligações ou validar o código HTML. Os rastreadores também podem ser usados para obter tipos específicos de informações das páginas da rede, como minerar endereços de correio eletrónico (mais comumente para spam). Um rastreador da rede é um tipo de robô da rede ou agente de programa. Em geral, ele começa com uma lista de endereços para visitar (também chamado em inglês de seeds). À medida que o rastreador visita esses endereços, ele identifica todas as ligações na página e as adiciona na lista de endereços para visitar. Tais endereços são visitados recursivamente de acordo com um conjunto de regras. (pt)
- Robot internetowy, robot indeksujący – program zbierający informacje o strukturze, stronach i treściach znajdujących się w internecie. Efekty pracy robota mogą być różne, w zależności od jego przeznaczenia, na przykład może on skanować wybrane witryny w celu zbudowania bazy adresów e-mail, natomiast roboty zbierające treści dla wyszukiwarek działają szerzej:
* badają zawartość witryny,
* sprawdzają kod strony,
* zbierają dodatkowe informacje o stronie,
* monitorują aktualizacje,
* tworzą mirrory stron. W przypadku robota Google tzn. Googlebota mówi się o robotach wykonujących „Google's fresh crawl” i „Google's deep crawl” lub „Google's main crawl”. „Fresh crawl” jest wykonywany często, nawet kilka razy dziennie - robot najprawdopodobniej sprawdza co się zmieniło na stronie, „deep crawl” głębokie indeksowanie najprawdopodobniej polega na pobieraniu większej ilości danych z witryny i odbywa się kilka razy w miesiącu. (pl)
- En spindel är ett datorprogram som automatiskt hämtar webbsidor från webben och hittar nya sidor att hämta genom att följa hyperlänkarna i sidorna vidare. Spindlar används exempelvis av sökmotorer som Google för att skapa och hålla uppdaterat sitt index över innehållet på webben.Dessa spindlar söker igenom allt på de webbsidor de hittar till, om inte domänen i fråga innehåller en special textfil som ger vissa kommandon åt dessa spindlar. Denna fil brukar kallas robots.txt och kan utesluta delar eller hela hemsidor. Om en spindel inte hittar något kan det bero på att filen robots.txt inte tillåter spindeln att sidan, eller att spindeln inte kan hitta till sidan på grund av brist på hyperlänkar. (sv)
- Поиско́вый ро́бот, или веб-кра́улер (англ. Web crawler; также встречается название «веб-пау́к»), алгоритмы автоматического интернет-сёрфинга (англ. Internet surfing, surfing «катание (скольжение) на (по) волнах(-м)») — программа, являющаяся составной частью поисковой системы и предназначенная для перебора страниц Интернета с целью занесения информации о них в базу данных поисковика. По принципу действия, «паук» напоминает обычный браузер. Он анализирует содержимое страницы, сохраняет его в некотором специальном виде на сервере поисковой машины, и отправляется по ссылкам на следующие страницы. Порядок обхода страниц, частота визитов, защита от зацикливания, а также критерии выделения значимой информации определяются алгоритмами информационного поиска. В большинстве случаев переход от одной страницы к другой осуществляется по ссылкам, содержащимся на первой и последующих страницах. Владельцы поисковых машин нередко ограничивают глубину проникновения паука внутрь сайта и максимальный размер сканируемого текста, поэтому чересчур большие сайты могут оказаться не полностью проиндексированными поисковой машиной. Кроме обычных пауков, существуют так называемые «дятлы» — роботы, которые «простукивают» проиндексированный сайт, чтобы определить, что он доступен. Также многие поисковые системы предоставляют пользователю возможность самостоятельно добавить сайт в очередь для индексирования. Обычно это существенно ускоряет индексирование сайта, а в случаях, когда никакие внешние ссылки не ведут на сайт, вообще оказывается практически единственной возможностью указать на его существование. Ещё одним способом быстрой индексации сайта является добавление на сайт систем веб-аналитики, принадлежащих поисковым сервисам. Например, таких как Google Analytics, Яндекс.Метрика и Рейтинг@Mail.ru. Ограничить индексацию сайта можно с помощью файла robots.txt. Полная защита от индексации может быть обеспечена другими механизмами, например, установкой пароля на странице либо требованием заполнить регистрационную форму перед тем, как получить доступ к содержимому. (ru)
- Пошуковий робот (також англ. web crawler, англ. web spider) — програма, що є складовою частиною пошукової системи та призначена для перегляду сторінок інтернету з метою введення інформації про них (ключових слів) до бази даних. Пошукові роботи здійснюють загальний пошук інформації в Інтернеті. Вони повідомляють про зміст знайденого документа, індексують його і добувають підсумкову інформацію. Вони також переглядають заголовки, деякі посилання і відправляють проіндексовану інформацію до бази даних пошукового механізму. (uk)
- 网络爬虫(英語:web crawler),也叫網路蜘蛛(spider),是一种用来自动浏览万维网的网络机器人。其目的一般为编纂网络索引。 網路搜索引擎等站点通过爬蟲軟體更新自身的或其對其他網站的索引。網路爬蟲可以將自己所訪問的頁面保存下來,以便搜索引擎事後生成供用戶搜索。 爬蟲访问网站的过程会消耗目标系统资源。不少网络系统并不默许爬虫工作。因此在访问大量页面时,爬虫需要考虑到规划、负载,还需要讲“礼貌”。 不愿意被爬虫访问、被爬虫主人知晓的公开站点可以使用robots.txt文件之类的方法避免访问。这个文件可以要求只对网站的一部分进行索引,或完全不作处理。 互联网上的页面极多,即使是最大的爬虫系统也无法做出完整的索引。因此在公元2000年之前的万维网出现初期,搜索引擎经常找不到多少相关结果。现在的搜索引擎在这方面已经进步很多,能够即刻给出高质素结果。 爬虫还可以验证超連結和HTML代码,用于网络抓取(参见数据驱动编程)。 (zh)
|
rdfs:comment
|
- Web crawler (někdy také spider) je v informatice specializovaný internetový bot, který prochází World Wide Web za účelem vytvoření obrovské databáze. Navštěvuje automaticky veškeré dostupné webové stránky a tím umožní zaznamenat, která slova kde viděl. Webový vyhledávač pak na dotaz uživatele (jedno nebo více slov) může z web indexu odpovědět, na kterých stránkách jsou hledaná slova k nalezení. (cs)
- Ein Webcrawler (auch Spider, Searchbot oder Robot) ist ein Computerprogramm, das automatisch das World Wide Web durchsucht und Webseiten analysiert. Webcrawler werden vor allem von Suchmaschinen zur Indexierung von Webseiten eingesetzt. Weitere Anwendungen sind das Sammeln von Web-Feeds, E-Mail-Adressen oder von anderen Informationen. Webcrawler sind eine spezielle Art von Bots, also Computerprogrammen, die weitgehend automatisch sich wiederholenden Aufgaben nachgehen. (de)
- Web crawler modu automatikoan webeko orrialdeak arakatzen dituen sistema da. Web crawler bat orrialde guzti hauen kopia bana egin eta datu-base batean indizatu ondoren web bilatzaile batean modu azkarrean emaitzak erakusteko erabiltzen da. Hasteko, eskuz zehaztutako URL helbide zerrenda bat izaten dute abiapuntu, ondoren orrialde guzti horietan hiperloturak aurkituz doan heinean orrialde berriak deskubritu eta eremua handituz doa. Horrela jarraitzen du helbide berri gehiago aurkitzen ez dituen arte edo amaiera puntu bat definitu arte. (eu)
- クローラもしくはクローラー (Crawler) とは、ウェブ上の文書や画像などを周期的に取得し、自動的にデータベース化するプログラムである。「ボット」 (bot)、「スパイダー」、「ロボット」などとも呼ばれる。 主に検索エンジンのデータベース、インデックス作成に用いられているほか、統計調査などの目的にも利用されている。近年では、電子メールアドレス収集業者などもクローラを利用してスパムの送信効率を上げている。 一般にクローラは、既知のHTML文書の新しいコピーを要求して文書中に含まれるリンクをたどり、別の文書を収集するという動作を繰り返す。新しい文書を見つけた場合はデータベースに登録するほか、既知のファイルが存在しないことを検出した場合はデータベースから削除する。 (ja)
- ( 검색 엔진에 대해서는 웹크롤러 문서를 참고하십시오.) 웹 크롤러(web crawler)는 조직적, 자동화된 방법으로 월드 와이드 웹을 탐색하는 컴퓨터 프로그램이다. 웹 크롤러가 하는 작업을 '웹 크롤링'(web crawling) 혹은 '스파이더링'(spidering)이라 부른다. 검색 엔진과 같은 여러 사이트에서는 데이터의 최신 상태 유지를 위해 웹 크롤링한다. 웹 크롤러는 대체로 방문한 사이트의 모든 페이지의 복사본을 생성하는 데 사용되며, 검색 엔진은 이렇게 생성된 페이지를 보다 빠른 검색을 위해 인덱싱한다. 또한 크롤러는 링크 체크나 HTML 코드 검증과 같은 웹 사이트의 자동 유지 관리 작업을 위해 사용되기도 하며, 자동 이메일 수집과 같은 웹 페이지의 특정 형태의 정보를 수집하는 데도 사용된다. 웹 크롤러는 봇이나 소프트웨어 에이전트의 한 형태이다. 웹 크롤러는 대개 시드(seeds)라고 불리는 URL 리스트에서부터 시작하는데, 페이지의 모든 하이퍼링크를 인식하여 URL 리스트를 갱신한다. 갱신된 URL 리스트는 재귀적으로 다시 방문한다. (ko)
- Пошуковий робот (також англ. web crawler, англ. web spider) — програма, що є складовою частиною пошукової системи та призначена для перегляду сторінок інтернету з метою введення інформації про них (ключових слів) до бази даних. Пошукові роботи здійснюють загальний пошук інформації в Інтернеті. Вони повідомляють про зміст знайденого документа, індексують його і добувають підсумкову інформацію. Вони також переглядають заголовки, деякі посилання і відправляють проіндексовану інформацію до бази даних пошукового механізму. (uk)
- 网络爬虫(英語:web crawler),也叫網路蜘蛛(spider),是一种用来自动浏览万维网的网络机器人。其目的一般为编纂网络索引。 網路搜索引擎等站点通过爬蟲軟體更新自身的或其對其他網站的索引。網路爬蟲可以將自己所訪問的頁面保存下來,以便搜索引擎事後生成供用戶搜索。 爬蟲访问网站的过程会消耗目标系统资源。不少网络系统并不默许爬虫工作。因此在访问大量页面时,爬虫需要考虑到规划、负载,还需要讲“礼貌”。 不愿意被爬虫访问、被爬虫主人知晓的公开站点可以使用robots.txt文件之类的方法避免访问。这个文件可以要求只对网站的一部分进行索引,或完全不作处理。 互联网上的页面极多,即使是最大的爬虫系统也无法做出完整的索引。因此在公元2000年之前的万维网出现初期,搜索引擎经常找不到多少相关结果。现在的搜索引擎在这方面已经进步很多,能够即刻给出高质素结果。 爬虫还可以验证超連結和HTML代码,用于网络抓取(参见数据驱动编程)。 (zh)
- زاحف الشبكة أو زاحف الويب (بالإنجليزية: Web crawler) هو برنامج كمبيوتر يقوم بتصفح الشبكة العالمية بطريقة منهجية وآلية ومنظمة. هناك مصطلحات أخرى لزواحف الشبكة مثل النمل والمفهرس التلقائي، والبوت.، وعناكب الشبكة ، أو آليات الشبكة. وهذه العملية تسمى الزحف على الشبكة أو العنكبة. بسبب الحجم الكبير يمكن للزاحف تحميل جزء صغير فقط من صفحات الشبكة في غضون فترة زمنية معينة، لذلك يحتاج إلى إعطاء الأولوية في التنزيلات. ومعدل التغييرالمرتفع يعني أن بعض الصفحات قد يكون تم تحديثه أو حتى حذفها. (ar)
- Una aranya web o robot web (web crawler en anglès) és un programari que inspecciona pàgines Web de forma metòdica i automatitzada. Les aranyes web s'utilitzen per a crear una còpia de totes les pàgines web visitades per al seu processament posterior per un motor de recerca que indexa les pàgines per a proporcionar un sistema de recerques ràpid. Les tasques més comunes de les aranyes són:
* Crear l'índex d'una màquina de recerca.
* Analitzar els enllaços d'un lloc per a buscar enllaços trencats.
* Recol·lectar informació d'un cert tipus, com preus de productes per a recopilar un catàleg. (ca)
- Un rastreador web, indexador web, indizador web o araña web es un programa informático que inspecciona las páginas del World Wide Web de forma metódica y automatizada. Uno de los usos más frecuentes que se les da consiste en crear una copia de todas las páginas web visitadas para su procesado posterior por un motor de búsqueda que indexa las páginas proporcionando un sistema de búsquedas rápido. Las arañas web suelen ser bots. Entre las tareas más comunes de las arañas de la web tenemos: (es)
- A Web crawler, sometimes called a spider or spiderbot and often shortened to crawler, is an Internet bot that systematically browses the World Wide Web and that is typically operated by search engines for the purpose of Web indexing (web spidering). Web search engines and some other websites use Web crawling or spidering software to update their web content or indices of other sites' web content. Web crawlers copy pages for processing by a search engine, which indexes the downloaded pages so that users can search more efficiently. (en)
- Un robot d'indexation (en anglais web crawler ou web spider, littéralement araignée du Web) est un logiciel qui explore automatiquement le Web. Il est généralement conçu pour collecter les ressources (pages Web, images, vidéos, documents Word, PDF ou PostScript, etc.), afin de permettre à un moteur de recherche de les indexer. Fonctionnant sur le même principe, certains robots malveillants (spambots) sont utilisés pour archiver les ressources ou collecter des adresses électroniques auxquelles envoyer des courriels. En français, depuis 2013, crawler est remplaçable par le mot collecteur. (fr)
- Un crawler (detto anche web crawler, spider o robot), è un software che analizza i contenuti di una rete (o di un database) in un modo metodico e automatizzato, in genere per conto di un motore di ricerca. Nello specifico, un crawler è un tipo di bot (programma o script che automatizza delle operazioni), che solitamente acquisisce una copia testuale di tutti i documenti presenti in una o più pagine web creando un indice che ne permetta, successivamente, la ricerca e la visualizzazione. (it)
- Een spider (ook wel webcrawler genoemd) is een bot die het wereldwijde web op een methodische en geautomatiseerde manier doorbladert. Spiders maken veelal een lokale kopie van de gevonden pagina's om deze later te kunnen verwerken en indexeren voor bijvoorbeeld zoekmachines. (nl)
- Robot internetowy, robot indeksujący – program zbierający informacje o strukturze, stronach i treściach znajdujących się w internecie. Efekty pracy robota mogą być różne, w zależności od jego przeznaczenia, na przykład może on skanować wybrane witryny w celu zbudowania bazy adresów e-mail, natomiast roboty zbierające treści dla wyszukiwarek działają szerzej:
* badają zawartość witryny,
* sprawdzają kod strony,
* zbierają dodatkowe informacje o stronie,
* monitorują aktualizacje,
* tworzą mirrory stron. (pl)
- Um rastreador da rede, em inglês web crawler, é um programa de computador que navega pela rede mundial de uma forma metódica e automatizada. Outros termos para rastreadores da rede são indexadores automáticos, robôs, aranhas da rede, robô da rede ou escutador da rede. (em inglês: bots, web spiders, web robot e web scutter). A Google tentou patentear esta ferramenta em 1998 sem sucesso. (pt)
- Поиско́вый ро́бот, или веб-кра́улер (англ. Web crawler; также встречается название «веб-пау́к»), алгоритмы автоматического интернет-сёрфинга (англ. Internet surfing, surfing «катание (скольжение) на (по) волнах(-м)») — программа, являющаяся составной частью поисковой системы и предназначенная для перебора страниц Интернета с целью занесения информации о них в базу данных поисковика. (ru)
- En spindel är ett datorprogram som automatiskt hämtar webbsidor från webben och hittar nya sidor att hämta genom att följa hyperlänkarna i sidorna vidare. Spindlar används exempelvis av sökmotorer som Google för att skapa och hålla uppdaterat sitt index över innehållet på webben.Dessa spindlar söker igenom allt på de webbsidor de hittar till, om inte domänen i fråga innehåller en special textfil som ger vissa kommandon åt dessa spindlar. Denna fil brukar kallas robots.txt och kan utesluta delar eller hela hemsidor. (sv)
|