Алексей Гультяев.

Поиск в интернете

(страница 1 из 9)

скачать книгу бесплатно

 -------
| bookZ.ru collection
|-------
|  Алексей Гультяев
|
|  Поиск в интернете
 -------

   В последнее время понятия «Интернет» и «Всемирная паутина» – World Wide Web (WWW) – все чаще используются как синонимы. Хотя на самом деле серфинг (навигация, прогулка – как вам больше нравится) по страницам WWW – это лишь один из сервисов, предоставляемых посетителям Сети. Помимо «прогулки по паутине» посетитель Сети может также воспользоваться услугами электронной почты, поучаствовать в телеконференции, пообщаться с друзьями или оппонентами в чате, просмотреть последние новости по интересующей теме, обменяться файлами с FTP-архивом, отправить запрос удаленной базе данных и многое другое.
   По приблизительным оценкам, Всемирная паутина уже сейчас содержит более двух миллиардов страниц, и каждую секунду к ним добавляются 25 новых. Но за ту же секунду около десятка страниц «уходят» из Сети. И нет такого человека или программы, которые располагали бы исчерпывающей информацией о текущем состоянии «паутины». Не случайно для аббревиатуры WWW иногда используется новый вариант расшифровки – World Wide Wandering («Всемирное блуждание»).
   Посетителя далеко не всегда интересует некая страница целиком. Зачастую он ищет размещенную на ней фотографию или конкретную фразу. Как же найти веб-страницу с той цитатой из любимой книги, которую вы мучительно пытаетесь вспомнить уже третий день? А как получить самые свежие спортивные новости или последнюю фотографию своего кумира?
   Приведенные в книге советы и рекомендации рассчитаны на тех читателей, в распоряжении которых имеется компьютер, подключенный к Интернету (через модемное соединение или по выделенной линии). Они уже знакомы с веб-браузером и, возможно, даже совершили несколько путешествий по Всемирной паутине и при этом смогли убедиться, что поиск нужной информации в Интернете – дело не только увлекательное, но и весьма непростое, требующее определенных знаний и навыков.


   Ваши замечания, предложения и вопросы отправляйте по адресу электронной почты comp@piter.com (издательство «Питер», компьютерная редакция).
   Мы будем рады узнать ваше мнение!
   Подробную информацию о наших книгах вы найдете на веб-сайте издательства: http://www.piter.com.



   Прежде чем перейти к рассказу о том, как искать, попробуем выяснить, что же, собственно, следует ожидать от результатов поиска.


   Практически любая публикация в Интернете представляет собой одну или несколько связанных между собой страниц.
Если бы каждая такая страница существовала в бумажном варианте, то вся публикация оказалась бы похожа на своеобразную гирлянду. Роль нитей, связывающих страницы, играют так называемые гипертекстовые ссылки (или просто гиперссылки). Щелкнув мышью на гиперссылке, можно перейти на другую страницу либо к определенному месту на той же странице.
   Набор страниц, связанных гиперссылками, обычно называют гипертекстовым документом. Основная особенность гипертекстового документа в том, что его можно просматривать не только последовательно, страницу за страницей, но и в произвольном порядке, перемещаясь по гиперссылкам. Если, например, создать в виде гипертекстового документа инструкцию по работе с кухонным комбайном, то покупатель сможет знакомиться с ее разделами как поочередно («Технические характеристики» – «Обслуживание» – «Использование насадок» – «Рецепты»), так и «перескакивая» с одной страницы на другую, чтобы уточнить тот или иной момент (рис. 1.1).
   Рис. 1.1. Пример гипертекстового документа.

   В качестве гиперссылки может использоваться слово, фраза или некоторый графический элемент документа. Понятие «гипертекстовый» не ограничивает содержимое документа только текстовой информацией. Такой документ может содержать рисунки, видеоклипы, звуковой ряд и другие мультимедийные элементы.

   ПРИМЕЧАНИЕ: Несколько забегая вперед, отметим, что в большинстве случаев посетитель Интернета не знаком со структурой публикации, а ее создатель не способен заранее предугадать, по какому маршруту захочет перемещаться посетитель. Это одна из основных причин того, что даже найдя интересующий его веб-сайт, посетитель может не добраться до нужной информации (конкретной фразы или иллюстрации).

   Как правило, каждая страница реализована в виде отдельного HTML-файла (файла с расширением. htm или. html). HTML (Hypertext Markup Language – язык гипертекстовой разметки) – это язык программирования, предназначенный для описания содержимого документа. Другими словами, такой язык позволяет указать, что вот здесь, например, должен быть текст, здесь – картинка, а вот там должна появляться реклама жевательной резинки. Но главное достоинство HTML – это возможность быстро и легко создавать гиперссылки.
   Именно HTML-файл загружается в браузер – специальную программу, предназначенную для просмотра гипертекстовых документов и для перехода от одной страницы к другой. В настоящее время наибольшей популярностью среди посетителей Интернета пользуются браузеры Internet Explorer от компании Microsoft (он лидирует с большим отрывом) и Opera (продукт фирмы Opera Software), а также браузеры семейства Mozilla (в частности, Mozilla FireFox).
   Браузер обрабатывает HTML-файл последовательно, сверху вниз, и по мере обработки загруженного документа его содержимое отображается в окне браузера.

   ПРИМЕЧАНИЕ: По умолчанию текстовые гиперссылки выделяются при выводе документа в окне браузера голубым цветом и (или) подчеркиванием. Однако веб-дизайнер (создатель документа) может использовать и другие средства для выделения ссылок на фоне статичного текста. В любом случае гиперссылка должна «реагировать», когда на нее попадает указатель мыши. Виды реакции также могут быть разными: может изменяться цвет гиперссылки, стиль шрифта и т. д. Кроме того, при попадании на гиперссылку обычно видоизменяется указатель мыши.

   Если документ содержит графические иллюстрации, флэш-фильмы или другие «нетекстовые» элементы, то браузер выполняет дополнительные действия, например распознает формат рисунков. Если формат оказывается «знаком» браузеру, то рисунок выводится на экран. Если в документе содержится флэш-фильм, то браузер вызывает дополнительную программу, предназначенную для воспроизведения такого фильма, – флэш-плеер. Аналогичные действия выполняются и при обнаружении на странице ссылки на звуковой файл.
   Важно понимать, что все «нетекстовые» элементы документа хранятся в отдельных файлах, а непосредственно в HTML-файле присутствуют лишь команды вызова этих элементов. Поэтому если какой-то из таких файлов окажется недоступен или «непонятен» браузеру, в документе на месте отсутствующего элемента останется «дыра» (рис. 1.2).
   Рис. 1.2. Пример страницы с отсутствующим «нетекстовым» элементом.

   Для некоторых видов «нетекстовых» элементов предусмотрен собственный значок, который выводится браузером для замещения отсутствующего элемента. Взглянув на такой значок, опытный посетитель сразу поймет, «чего в супе не хватает». Например, на рис. 1.3 показана страница, для которой браузер на смог найти запрошенный флэш-фильм.
   Рис. 1.3. Для некоторых отсутствующих «нетекстовых» элементов предусмотрен значок-заместитель.

   Итак, еще раз подчеркнем, что загружаемая браузером страница может содержать не только текстовую информацию, но и другие элементы, способные привлечь внимание посетителя сами по себе. Скажем, если страница посвящена отчету о футбольном матче, то некий посетитель может заинтересоваться только фотографиями и полностью проигнорировать текст с комментариями. Можно предположить, что при поиске в Интернете такой посетитель будет пытаться найти в первую очередь страницы с «футбольными» иллюстрациями либо непосредственно файлы снимков.

   ПРИМЕЧАНИЕ: Учитывая повышенный интерес посетителей Интернета к мультимедийным материалам, владельцы многих веб-сайтов превратили свои владения в подлинные «склады» таких ресурсов. Большой популярностью пользуются, в частности, специализированные хранилища музыкальных файлов в формате MP3. Подробнее об особенностях поиска на таких сайтах рассказано в третьей главе.

   Читателю, вероятно, знакомо выражение «ресурсы Интернета», упомянутое выше. Оно обычно используется для обозначения всей информации, представленной в Интернете, независимо от ее типа и формата. То есть к ресурсам относятся и HTML-файлы, и графические файлы, и файлы других типов, к которым разрешен доступ посетителям Сети. Очевидно, что технология поиска зависит от вида искомого ресурса. Однако наличие в Интернете единой системы адресации в значительной степени сглаживает эти различия.


   Если вы хотите с кем-то пообщаться в «обычной», некомпьютерной, жизни, то вам потребуется адрес. Как правило, адреса организованы в виде иерархической системы:
   • страна город улица дом квартира или
   • телефонный код страны – код города – телефонный номер абонента.
   В Интернете тоже принята иерархическая система адресов, она имеет пять уровней. Уровни называют доменами (областями). Самый верхний, корневой домен нулевого уровня – это WWW в целом. Самый нижний (четвертый) уровень соответствует конкретному компьютеру, подключенному к Сети.
 //-- Доменные имена --// 
   Правила адресации определены так называемым сетевым протоколом, или IP-протоколом (IP – Internet Protocol).

   ПРИМЕЧАНИЕ Сетевой протокол – это набор правил и требований, определяющих порядок обмена данными в Сети. Он учитывается при разработке компьютерных программ и технических устройств, обеспечивающих передачу и прием данных в Сети. Если программа или устройство отвечает требованиям сетевого протокола, говорят, что она поддерживает этот протокол.

   По названию протокола используемые в Интернете адреса стали называть IP-адресами. Каждый IP-адрес является уникальным и состоит из четырех чисел (от о до 255 включительно), разделенных точками. Например, наугад выбранная комбинация 195.19.23.167 вполне может оказаться IP-адресом какого-нибудь реального компьютера.
   Крайнее слева число соответствует самому высокому уровню, а крайнее справа – конкретному компьютеру, то есть самому нижнему уровню иерархии (рис. 1.4).
   Недостатком IP-адреса является то, что цифровой код сложен для запоминания и восприятия посетителями Сети. Этот недостаток исправили очень просто: заменили цифровой код символьными обозначениями (то есть более или менее осмысленными словами или аббревиатурами). Скажем, комбинация my.group.spb.ru – пример символьного эквивалента цифрового IP-адреса. IP-адрес, представленный в символьной форме, называют доменным именем.
   Рис. 1.4. Структура IP-адреса.

   В отличие от IP-адреса, уровни иерархии в доменном имени расположены в обратном порядке: самому верхнему уровню (домену нулевого уровня) соответствует крайняя справа точка. Стоящая слева от нее последовательность символов (в приведенном выше примере – ru) – это имя домена первого уровня, и так далее. Крайняя левая часть доменного имени соответствует имени компьютера, подключенного к Сети.

   ПРИМЕЧАНИЕ: Как правило, корневой домен (который обозначается самой правой точкой) при написании доменного имени не указывается.

   Еще одно существенное отличие доменного имени от IP-адреса состоит в том, что оно не обязательно должно состоять из четырех частей. Вы можете встретить доменное имя компьютера, которое содержит три, пять или даже шесть частей. Например, доменное имя веб-узла издательства «Питер» – www.piter.com.
   Состав частей доменного имени зависит от логической структуры того домена, к которому относится компьютер (рис. 1.5).
   Контроль за использованием доменных имен осуществляет специальная служба Сети – Служба доменных имен (Domain Name Service, DNS). Основная задача DNS – корректно сопоставить доменному имени компьютера его IP-адрес. Процедуру сопоставления IP-адреса доменного имени обычно называют разрешением (resolving).
   Поиск IP-адреса по доменному имени выполняют так называемые серверы имен (nameserver), чаще их называют DNS-серверами. Каждый DNS-сервер хранит информацию о нескольких доменах. Так называемые корневые серверы хранят информацию о серверах имен для всех доменов первого уровня (top-level domains, TLD). В настоящее время насчитывается 13 корневых серверов, и все они расположены в США. Если DNS-сервер какого-либо уровня не может самостоятельно разрешить доменное имя, он обращается за информацией к вышестоящему DNS-серверу. Это повторяется до тех пор, пока ответ не будет найден или пока не выяснится, что указанного адреса не существует.
   Рис. 1.5. Доменное имя может иметь различную длину.

   Давайте рассмотрим работу DNS на примере. Предположим, работая за компьютером с именем comp.set.spb.ru, вы хотите зайти на сайт по адресу www.piter.com.
   Прежде всего ваш компьютер отправит запрос на определение IP-адреса сайта www.piter.com DNS-серверу организации, которая поддерживает домен set. Допустим, на этом DNS-сервере требуемый IP-адрес отсутствует. В таком случае DNS-сервер перешлет запрос вышестоящему серверу, поддерживающему домен spb. Если и здесь ничего не удастся найти, запрос отправляется DNS-серверу домена. ru. Этот сервер тоже может «не знать», где искать нужный сайт, но он прекрасно «знает», где находится DNS-сервер домена. com, ему он и переадресует ваш запрос. Сервер домена. com содержит информацию обо всех субдоменах, в том числе о домене piter.com. Но о том, где в домене piter находится веб-сервер www.piter.com, он знать не обязан. Поэтому он посылает запрос DNS-серверу издательства «Питер» и уже от него получает IP-адрес искомого веб-сервера. Этот адрес передается назад по цепочке запросов и в конце концов поступает на ваш компьютер. И только после этого браузер обращается напрямую по указанному IP-адресу за получением нужной веб-страницы (рис. 1.6).
   В настоящее время практически каждая цивилизованная страна имеет свой домен первого уровня (на сегодняшний день насчитывается около 300 таких доменов). Имя домена соответствует международному двухбуквенному коду страны по стандарту ISO. Например, имя домена России – ru, Украины – ua, США – us. Единственное исключение – Великобритания. Ее код ISO – gb, однако в качестве доменного имени используются буквы uk.
   Рис. 1.6. Упрощенная схема поиска IP-адреса.

   Внутри доменов первого уровня обычно используется дополнительное деление. Например, географические домены обычно подразделяются в соответствии с административным устройством данного сообщества. В России достаточно распространено создание доменов второго уровня для крупных городов. Так, домен Санкт-Петербурга называется spb.ru, домен Москвы – msk.ru.
   Наряду с географическим принципом образования доменов широко используются домены первого уровня, оставшиеся с тех времен, когда границы Интернета «совпадали» с границами США. Наиболее известными из них являются:.com – коммерческие организации, net – сетевые организации, edu – образовательные учреждения, org – общественные (некоммерческие) организации, mil – учреждения министерства обороны США.

   ПРИМЕЧАНИЕ: В 2001 году было введено еще несколько имен для доменов первого уровня:.name – для физических лиц, museum – для музеев и других «сокровищниц мировой культуры», aero – для организаций и фирм, связанных с авиационными перевозками, biz – для коммерческих организаций. А в 2002 список пополнился именем. pro. Предполагается, что в соответствующем домене будут регистрироваться организации и учреждения, занимающиеся профессиональной деятельностью в различных областях науки и техники. Пока ни один из перечисленных доменов не стал так популярен, как их предшественники.

   В принципе, владелец домена второго уровня и ниже имеет право выбрать для него произвольное имя. Однако это грозит опасностью возникновения нескольких одинаковых доменных имен: обратившись к одному ресурсу, посетитель может оказаться совсем в другом уголке «паутины». Чтобы такого не произошло, существует специальная организация, контролирующая уникальность доменных имен. До 1998 г. такой организацией была IANA (Internet Assigned Numbers Authority), работавшая по контракту с правительством США (как известно, США – родина Интернета). Теперь эти функции возложены на независимую международную организацию ICANN (Internet Corporation for Assigned Names and Numbers). Официальный сайт этой организации (рис. 1.7) расположен по адресу www.icann.org.
   Рис. 1.7. Сайт организации ICANN.

   ICANN регистрирует и назначает имена для доменов первого уровня. Подчиненные ей региональные регистраторы выполняют те же функции на своем уровне. Если пользователь или организация хотят зарегистрировать новое доменное имя, то они должны обратиться к регистратору более высокого уровня. Например, чтобы зарегистрировать доменное имя 3-го уровня, следует получить разрешение у регистратора 2-го уровня.

   ПРИМЕЧАНИЕ: Максимальная длина доменного имени ограничена техническими стандартами и составляет 63 символа.

   В России представителем ICANN является организация РосНИИРОС (Российский НИИ развития общественных сетей).
   По согласованию с Министерством связи Российской Федерации администратором национального домена. ru с 4 января 2006 г. является Координационный центр национального домена сети Интернет (www.cctld.ru/ru). Его учредители – РосНИИРОС и три российские общественные организации: Региональный общественный центр интернет-технологий (РОЦИТ), Союз операторов Интернета (СОИ), Ассоциация документальной электросвязи (АДЭ). На Координационный центр возложены полномочия по составлению правил регистрации доменных имен, аккредитации регистраторов и перспективному планированию развития российского национального домена.
   РосНИИРОС обеспечивает функционирование технического центра, работающего непосредственно с действующими регистраторами, и ведет базу данных (реестр) домена. ru, а также обеспечивает техническую поддержку и регистрацию доменов третьего уровня в ряде доменов общего пользования (GEOGRAPHICAL, GENERIC).
   Подробную информацию о порядке регистрации можно получить на сайте этой организации, размещенном по адресу www.ripn.net (рис. 1.8).
   Рис. 1.8. Лицо хозяина российского Интернета.

   Для русскоязычных посетителей Интернета особый интерес представляет введенное с марта 2003 г. разрешение на использование русскоязычных имен доменов (типа президент. нет). Несмотря на то, что соответствующий стандарт был принят еще в ноябре 2003 г., до сих пор не решены технические проблемы, связанные с нелатинскими именами доменов (подробное, но весьма доходчивое описание этих проблем имеется на веб-сайте упомянутого выше Координационного центра по адресу www.cctld.ru/ru/about/structure/wgroup/domaincyr/report/).
   Тем не менее уже сейчас желающие могут зарегистрировать русскоязычное доменное имя. Правда, браузер пользователя, желающего зайти на сайт с таким именем, должен быть дополнен специальным модулем (плагином). Один из таких модулей (он называется i-Nav) бесплатно предоставляет компания VeriSign (www.idnnow.com). Этот модуль выполняет преобразование заданного пользователем нелатинского доменного имени в латинский (англоязычный) аналог по определенным правилам, в соответствии с соглашением о многоязычных доменных именах IDN (Internationalized Domain Names).
   И в заключение – небольшая, но поучительная история «из жизни доменных имен» как пример творческого подхода к бизнесу в Интернете.
   Алекс Тью, 21-летний житель Криклэйда, что в английском графстве Уилтшир, открыл сайт под названием Million Dollar Homepage (milliondollarhomepage.com), перед тем как отправился в Ноттингемский университет изучать основы делового управления.
   Главная страница сайта представляет собой сетку из 10 тысяч квадратов площадью 100 пикселов (10 на 10) каждый (рис. 1.9).
   Рис. 1.9. Главная страница сайта Million Dollar Homepage.

   Посетителям было предложено размещать на купленном пространстве свою рекламу со ссылкой на собственный сайт.
   На разработку концепции у Алекса ушло 20 минут, а на то, чтобы продать все свободное рекламное пространство, – 5 месяцев. «У меня оставался буквально месяц до начала учебы в университете, и мне очень не хотелось быть бедным студентом, сидящим в баре и беспокоящимся о том, как купить всем друзьям по стакану пива», – рассказывает он.
   Вероятно, поначалу рекламодатели просто заинтересовались нестандартностью идеи. Но после публикаций в СМИ сайт стал весьма посещаемым, а следовательно, действительно привлекательным с рекламной точки зрения.
   С тех пор как Алекс придумал свой сайт, он зарабатывал по 4 тысячи долларов в день. Предпоследний кусочек рекламного пространства площадью 1000 пикселов был продан на интернет-аукционе eBay за 38 100 долларов.
   Алекс пока не знает, будет ли он развивать эту идею дальше, но адрес billiondollarhomepage.com он уже зарегистрировал.
 //-- URL: универсальный адрес --// 
   Теперь, когда мы узнали, что такое доменное имя, стоит вернуться к структуре гипертекстового документа. Как было сказано выше, такой документ можно рассматривать как набор страниц (HTML-файлов), связанных между собой гиперссылками. Если таких страниц достаточно много, они упорядочены и однотипно оформлены, то их обычно называют сайтом (от англ. site), или узлом. Правда, второй вариант чаще используется для обозначения подключенного к Сети компьютера, имеющего собственное доменное имя.

   ПРИМЕЧАНИЕ: Если помимо предоставления информации сайт обеспечивает доступ к нескольким сервисам Интернета (электронной почте, рассылкам новостей, электронному магазину), то его обычно называют порталом.

   Как правило, физически сайт размещается в одной папке на жестком диске компьютера, подключенного к Сети. Эта папка может содержать другие вложенные папки для более удобной работы с файлами сайта. Например, может быть создана отдельная папка для рисунков, включаемых в HTML-страницы, еще одна – для звуковых файлов или для флэш-фильмов и т. д. (рис. 1.10). В отдельной папке также хранятся файлы с программами-сценариями, обеспечивающими интерактивность сайта.
   Если посетители Интернета имеют доступ к единственному сайту, размещенному на данном компьютере, то можно считать (с некоторыми оговорками), что адрес сайта совпадает с доменным именем компьютера. Например, если на компьютере, имеющем имя bank и входящем в домен. spb, который, в свою очередь, является частью домена. ru, размещен единственный сайт, то адресом сайта можно считать доменное имя bank.spb.ru. Обычно компьютер, на котором размещен сайт, называют веб-сервером, поскольку он «обслуживает» запросы, поступающие от клиентов– посетителей Интернета (точнее, от браузеров посетителей).
   Рис. 1.10. Типовая структура небольшого сайта.


скачать книгу бесплатно

страницы: 1 2 3 4 5 6 7 8 9

Поделиться ссылкой на выделенное