Алексей Гультяев.

Поиск в интернете

(страница 2 из 9)

скачать книгу бесплатно



   ПРИМЕЧАНИЕ: Следует отметить, что на таком компьютере должно быть установлено дополнительное программное обеспечение, предназначенное для обработки поступающих запросов (отправки запрошенных страниц). Кроме того, серверное программное обеспечение выполняет ряд дополнительных задач. Например, оно может проверять, разрешен ли данному пользователю доступ к конкретной странице сайта.

   В большинстве случаев начальная (главная) страница сайта размещается непосредственно в корневой папке сайта, и веб-сервер при поступлении адреса сайта от клиента пересылает браузеру в качестве ответа на запрос именно эту страницу. Обычно такой файл называется Index.html, Default.html или Home.html (см. рис. 1.10).
   Чтобы обратиться к конкретному ресурсу (файлу), входящему в состав сайта, недостаточно доменного имени компьютера. Необходимо указать специальный адрес, который называется Uniform Resource Locator (универсальный адрес ресурса), сокращенно URL.
   Поскольку физическим носителем (точнее, хранителем) ресурса является компьютер, то основу URL составляет доменное имя этого компьютера. Однако для обращения к конкретному файлу-ресурсу требуется указывать дополнительные сведения – маршрут доступа к необходимому файлу. Маршрут доступа отделяется от доменного имени наклонной чертой (слэшем). Например, обращение к файлу Cat.gif, находящемуся в папке Images, может выглядеть так: bank.spb.ru/Images/Cat.gif.
   Наряду с адресом ресурса URL обычно содержит также наименование протокола, который должен использоваться при работе с запрашиваемым ресурсом.
   Вот наиболее распространенные протоколы (методы) доступа к ресурсам Интернета:
   • http – сокращение от Hypertext Transfer Protocol (протокол пересылки гипертекста); применяется для доступа к гипертекстовым документам;
   • ftp – сокращение от File Transfer Protocol (протокол передачи файлов); применяется для обращения к файлам, хранящимся в FTP-архивах;
   • news – применяется для доступа к новостям системы Usenet;
   • file – применяется для доступа к локальным файлам.
   Например, для обращения к упоминавшемуся выше графическому файлу Cat.gif, расположенному в FTP-архиве public, может использоваться такой URL: ftp://public.spb.ru/Images/Cat.gif.
   Подробнее о поиске информации, отличающейся от гипертекстовых документов, будет рассказано в главах 2 и 3.
   Итак, в общем случае URL выглядит следующим образом (рис. 1.11):
   [тип протокола]:// [доменное имя компьютера]/[маршрут доступа].
   Рис. 1.11. Структура URL.

   ПРИМЕЧАНИЕ: Иногда (при наличии соответствующего сетевого оборудования) компьютер может быть не только подключен к Интернету, но и включен в состав одной или нескольких локальных сетей.
В этом случае целесообразно указывать в URL наименование входного порта, используемого для подключения к Интернету. Например, URL http://www.wired.com: port1/path/file.htm означает, что ресурс расположен на компьютере с доменным именем www.wired.com и что для доступа к нему необходимо использовать протокол HTTP через IP-порт с именем port1.

   В заключение отметим, что далеко не всегда имена папок и файлов, используемые в URL, совпадают с именами физических папок и файлов, расположенных на веб-сервере. Одна из причин – попытка владельцев сайта защитить информацию от злоумышленников. Другая причина состоит в том, что современные программные средства позволяют создавать запрашиваемые документы динамически. То есть до тех пор, пока документ не понадобится посетителю сайта, он вообще может не существовать. Характерный пример использования такой технологии – поиск и выдача информации из базы данных.
   Преобразование условного (виртуального) имени в реальное возлагается на веб-сервер и никаких дополнительных забот у «добропорядочных» посетителей не вызывает.


   Точно так же, как в реальном мире небезопасно нырять в незнакомом водоеме или ехать в экзотические страны без профилактических прививок, в Интернете небезопасно путешествовать по незнакомым веб-сайтам без предварительной «боевой» подготовки. Поэтому прежде чем перейти к описанию технологий поиска, поговорим о возможных неприятных сюрпризах, подстерегающих новичков на просторах Всемирной паутины.
 //-- Вирусы, черви и троянские кони --// 
   Как ни странно, в этой самой «паутине» путешественникам следует опасаться не пауков, а вирусов, червей и… коней.
   Вряд ли кто-нибудь из читателей ничего не слышал о компьютерных вирусах, сетевых червях и «троянцах». Тем не менее полезно напомнить особенности указанных «жителей» Сети.
   Способы вредоносного воздействия на компьютер со стороны «классических» вирусов могут быть самыми разнообразными. Однако всех представителей этого семейства объединяет одно: способность к саморазмножению, то есть умение создавать собственные копии. Размножение вирусов происходит непосредственно на зараженном компьютере, без привлечения специфических сетевых технологий. При работе в Интернете источником заражения может оказаться исполняемый файл (с расширением exe, com или bat), загруженный пользователем с какого-либо сайта (в том числе и файл самораспаковывающегося архива или дистрибутива), либо файл-вложение, прикрепленный к полученному по электронной почте письму.
   А вот сетевые черви для своего распространения используют разнообразные сервисы Интернета (электронную почту, системы обмена мгновенными сообщениями) и особенности сетевых протоколов. Большинство известных червей распространяются в виде файлов, вложенных в электронное письмо, с помощью ссылок на зараженный файл в ICQ-сообщениях, файл в каталоге обмена P2P и т. д. Некоторые черви (так называемые бесфайловые, или пакетные, черви) распространяются в виде сетевых пакетов, проникают непосредственно в память компьютера и там активизируют свой код. Сетевые черви нечасто наносят вред собственно «приютившему» их компьютеру. Обычно они подготавливают его для совместной атаки (вместе с другими зараженными компьютерами) на какой-либо веб-сервер.
   Троянские кони, или просто троянцы – это программы, осуществляющие различные несанкционированные пользователем действия: сбор информации и ее передачу злоумышленнику, ее разрушение или злонамеренную модификацию, нарушение работоспособности компьютера, использование ресурсов компьютера в неблаговидных целях. Причем свои функции троянец может выполнять либо вообще не выдавая свое присутствие на компьютере, либо прикрываясь какой-либо полезной программой, в состав которой он входит (благодаря чему, собственно, этот вид вредителей и получил свое название). Например, троянский модуль может входить в состав программы – менеджера загрузки: помогая вам скачивать из Интернета нужный файл, она одновременно может отсылать «хозяину» сведения об установленном на вашем компьютере программном обеспечении.
   Чтобы обезопасить себя от перечисленных вредителей, позаботьтесь заблаговременно об установке на компьютер антивирусов, антишпионских программ, а также персональных брандмауэров (межсетевых экранов).
 //-- Ловля на удочку --// 
   Как это ни печально, но в последнее время Интернет славится тем, что вы можете не только «поймать» в нем нечто неприятное, но и сами можете оказаться на удочке у нечистоплотных «старожилов» Сети. Речь идет о так называемом фишинге.
   Фишинг (от англ. fishing – удить рыбу) – это попытка выуживания у посетителей Сети (в основном через электронную почту) секретной информации, такой как пароли и другая личная информация, со стороны злоумышленников, выдающих себя за лица или организации, заслуживающие доверия. Злонамеренные атаки с применением фишинга зачастую приводят к тому, что пользователь разглашает секретную информацию, в том числе и финансовую, что может нанести ущерб его конфиденциальности и финансовому состоянию.
   Идея фишинга состоит в том, что атакующий должен привлечь внимание и, используя интересную для атакуемого тему, заставить его выполнить определенные действия:
   • посетить сайт и ввести там какие-либо данные;
   • скачать и запустить неизвестное приложение;
   • открыть пришедший по электронной почте файл.
   Фантазия социальных инженеров не знает границ. Причем киберпреступники не стесняются использовать в своих целях чужое горе и человеческое любопытство. Так, настоящая вакханалия разразилась в конце августа – начале сентября 2005 г., когда на южное побережье США обрушился один из сильнейших ураганов последних десятилетий – Катрина. Уже на следующий день после удара стихии пользователям Интернета был нанесен другой удар в виде десятков писем, предлагавших «посмотреть видео», «узнать секретные данные о числе жертв», «прочитать срочное обращение президента» и совершить множество различных действий. Письма преследовали одну и ту же цель: завлечь пользователя на специально подготовленные сайты с размещенными на них вредоносными программами. Злоумышленники рассылали письма с просьбами о пожертвовании средств на помощь жертвам урагана, выдавая себя за уполномоченные агентства. Под видом упрощенного варианта сбора средств на некоторых сайтах предлагалось ввести номера и коды пластиковых карт. Разумеется, эта информация в дальнейшем использовалась совсем по другому назначению – для «обдирания» доверчивых посетителей Сети.
   От фишинг-атак не спасет ни антивирус, ни брандмауэр. Главное оружие против них – ваша собственная аккуратность и осторожность при встрече с подобными предложениями.
 //-- Только сейчас и только у нас --// 
   По духу очень близка фишингу еще одна напасть Интернета – спам.
   Сегодня мало кто помнит, откуда появилось само слово «спам». Его корни уходят к некомпьютерной рекламе. Spam – это зарегистрированная торговая марка компании по производству консервов Hormel Foods Corporation. Этим же словом стали называть сообщения, которые принудительно рассылаются подписчикам телеконференций для напоминания о тематике дискуссионных списков. Позднее «спамом» стали обозначать и другие непрошеные рекламные сообщения в электронной почте, а отправителей подобных посланий стали звать спамерами.
   Цели спамеров могут различаться весьма существенно: это и «просто реклама», и раскрутка некого сайта, и рассылка вредоносных программ (в том числе троянцев и сетевых червей). Однако в последнее время все большее распространение получают спамерские рассылки, имеющие целью финансовое мошенничество.
   Из мошеннических спамерских новинок в российской части Интернета (Рунете) следует отметить так называемые «нигерийские письма». Они представляют собой электронные письма, написанные от имени реальных или вымышленных лиц, обычно граждан стран с нестабильной экономической ситуацией, воспринимаемых публикой как рассадник коррупции. Первый зафиксированный спам такого типа рассылался от имени вымышленных нигерийских чиновников, именно поэтому он и получил такое название.
   Автор «нигерийского письма» обычно утверждает, что он располагает миллионами долларов, но они приобретены не совсем законными способами или же хранятся в обход закона. Например, это украденные иностранные инвестиции или гранты ООН. Далее автор письма объясняет, что по этой причине он не может более держать деньги на счету в нигерийском банке и что ему срочно требуется счет в зарубежном банке, куда можно перечислить «грязные» деньги. В качестве вознаграждения за помощь предлагается от 10 до 30 % от заявленной в письме суммы. Идея мошенничества заключается в том, что доверчивый пользователь предоставит автору письма доступ к своему счету. Нетрудно предугадать результат – все деньги с этого счета будут сняты и уйдут в неизвестном направлении.
   Для защиты от спама в настоящее время созданы специальные программы. Большинство из них работают в качестве фильтров, отсекающих все подозрительные послания на пути к вашему электронному почтовому ящику. Правила отбора основаны на использовании черных и белых списков. В черные списки включаются IP-адреса, доменные имена и адреса электронной почты, зарекомендовавшие себя как источники спама. Письма, поступившие от отправителей из черного списка, блокируются. Правила, основанные на использовании белого списка, более жесткие: они обеспечивают пропуск писем только от тех отправителей, которые включены в такой список.
   Более «продвинутые» антиспамовые программы способны анализировать тему и содержание послания и принимать решение относительно его потенциальной опасности.
 //-- Продаю чужое имя --// 
   В 1998 г. маленькое островное государство Тувалу, которое находится в Тихом океане, продало свой географический домен. tv канадскому предпринимателю Джейсону Чепнику. По условиям сделки Тувалу должно получить 50 миллионов долларов в течение 12 лет. Чепник тоже не прогадал. Созданная им компания DotTV сразу же после получения прав на домен начала торговлю доменными именами второго уровня. Предполагается, что наибольший интерес этот домен должен вызывать у телевизионных компаний. За первую неделю торгов было продано около 200 имен на общую сумму в 300 тысяч долларов. По заявлению компании, к настоящему времени она зарегистрировала уже десятки тысяч имен в домене. tv, но о размерах доходов от этого бизнеса DotTV сообщать отказывается.
   Поскольку успех Чепника оказался заразительным, его примеру последовали сотни и тысячи любителей «нетрудовых доходов», и даже образовалось своего рода самостоятельное направление в бизнесе. Спекулянтов доменными именами сейчас называют киберсквоттерами (англ. squatter – поселившийся незаконно на незанятой земле; незаконно вселившийся в дом). Официально перепродажа доменных имен запрещена ICANN, однако число людей, желающих заниматься этим выгодным делом, не уменьшается.
   В Рунете самый известный случай киберсквоттинга имел место в начале 2002 г. Тандем в составе интернет-бюро Well и ООО «Латруаль» за два месяца зарегистрировал около пяти тысяч доменных имен, среди которых можно встретить фамилии известных политиков, бизнесменов, ученых и артистов. Официальной целью массовой регистрации был назван запуск в январе 2003 г. некоммерческого проекта «Великие современники», но владельцы отнюдь не отрицали возможности продажи имен их «физическим носителям». Расценки колебались в пределах от 1 до 15 тысяч долларов за домен, и на сегодняшний день большая часть товара уже выкуплена.
   Киберсквоттинг сегодня уже можно разделить на несколько основных видов. Первый – классический киберсквоттинг, заключающийся в недвусмысленной регистрации имени, идентичного известной торговой марке. В таких случаях пострадавшему, то есть владельцу марки, сравнительно легко оспорить законность интернет-приватизации. Второй вид, стремительно набирающий популярность, – это так называемый тайпсквоттинг (первая часть слова – «тайп» – происходит от type, т. е. «печатать», «вводить текст»), при котором захватываются имена, по своему написанию или звучанию близкие к популярным доменным именам. Например, недавно корпорация Porsche отсудила у одного тайпсквоттера доменное имя porshe.com.
   Следует отметить, что тайпсквоттеры далеко не всегда преследуют цель перепродажи имени – известны и другие мотивы. Например, вариант написания названия фирмы может зарегистрировать конкурент с целью переманивания клиентуры или уволенный из фирмы сотрудник – с целью публикации конфиденциальной информации о своем прежнем месте работы. Но для вас, уважаемый читатель, как для начинающего веб-серфингиста наибольшую угрозу могут представлять тайпсквоттеры с хакерскими наклонностями, населившие свои владения вирусами, червями и прочими сетевыми паразитами.
   О том, как свести к минимуму риск оказаться на одном из таких сайтов, ошибившись при вводе доменного имени, рассказано в следующей главе.




   Если вы знаете адрес (URL) нужной веб-страницы, то достаточно ввести его в адресной строке браузера и терпеливо ждать результата. Через несколько секунд или минут в окне браузера появится именно то, что вы хотели увидеть. А может быть, и нет. Иногда случается так, что вместо красочной страницы на экране появляется унылое сообщение о том, что запрошенная страница не найдена. А бывает и так, что в ответ на ваш запрос браузер выдаст нечто совершенно неожиданное. Вроде бы вы и попали куда-то, но вот куда? Есть достаточно много причин появления неожиданного результата. Наиболее распространенными можно считать следующие:
   • вы ошиблись при вводе адреса;
   • известный вам адрес оказался неверным;
   • интересующий вас ресурс отсутствует (находится на реконструкции или вообще больше не существует);
   • изменилась структура сайта, и маршрут доступа к конкретному ресурсу также изменился.
   Ниже рассмотрены возможные способы решения возникших проблем.


   Адрес сайта может оказаться ошибочным по двум причинам: либо была допущена «опечатка» при его вводе с клавиатуры, либо в вашем распоряжении оказался изначально неверный адрес. Еще одна ситуация, в которой браузер выдает сообщение об ошибочном запросе, может быть связана с тем, что сайт закрылся или «переехал». Правда, в последнем случае грамотный владелец сайта обычно оставляет по прежнему адресу соответствующее сообщение или обеспечивает автоматический переход посетителя по новому адресу (рис. 2.1).
 //-- Ошибка при вводе адреса --// 
   При вводе адреса можно легко ошибиться, особенно если вы идете на сайт впервые. Например, вместо настоящего адреса сайта газеты «Спорт-экспресс» (www.sport-express.ru) можно случайно ввести www.spor-express.ru или www.sport-expres.ru.
   Браузеру, в отличие от «водителя кобылы», абсолютно безразлично, какой адрес вы ему назовете, то есть какой именно URL будет введен в адресной строке. Любую последовательность символов, похожую по структуре на доменное имя, браузер воспринимает как реальный адрес и пытается отыскать запрошенный ресурс на DNS-серверах. В результате вы можете оказаться на сайте, который вам совершенно не нужен (а возможно, и опасен – если он принадлежит агрессивному тайпсквоттеру), либо в окне браузера появится сообщение о том, что сервер не найден (ошибка 400, рис. 2.2).
   Рис. 2.1. Воспитанный хозяин не бросит гостя на произвол судьбы.

   Рис. 2.2. Сообщение о том, что введенный адрес не найден в базе данных DNS.

   Хотя, впрочем, бывают и приятные неожиданности.

   ПРИМЕЧАНИЕ: Вообще в результате обработки URL, введенного в адресной строке, браузер может выдать сообщение об ошибке одного из пяти типов, каждому из которых соответствует свой числовой код: 400 (bad request – «плохой» запрос), 401 (authorization error – ошибка опознавания), 403 (access denied – отказ в доступе), 404 (document not found – страница не найдена) и 500 (internal server error – внутренняя ошибка сервера). В данном и последующих разделах книги речь идет о способах борьбы с ошибками 400 и 404.

   В настоящее время в Интернете появилось достаточно много полулегальных фирм, предлагающих за весьма умеренную плату зарегистрировать на имя любого желающего то или иное «свободное» доменное имя второго уровня в доменах «общего пользования» типа. com, org или. net. Программное обеспечение «коробейников» настроено таким образом, что способно перехватывать сообщение от DNS об отсутствии введенного адреса. Поэтому в результате обработки ошибочного адреса вы можете увидеть в окне браузера страницу с предложением от одного из «коробейников». Например, в ответ на ввод вымышленного доменного имени www.jurasik.com некая фирма BayDomains сообщила, что это имя продается, и настоятельно порекомендовала его приобрести (рис. 2.3).
   Рис. 2.3. Сайт одной из фирм-«коробейников», продающих «недорого» доменные имена.

   Если же вам хотя бы раз удалось посетить нужный сайт, то любой из трех наиболее популярных браузеров, работающих под Windows (Internet Explorer, Opera, Mozilla FireFox), сохранит в своей книге адресов URL сайта. Чтобы нанести повторный визит, вы можете либо просто выбрать адрес из списка, либо ввести в поле адреса один-два символа, входящие в URL. Во втором случае браузер сам отыщет в списке требуемый адрес, и вам останется лишь подтвердить выбор, нажав клавишу Enter. Например, чтобы выбрать в списке уже упоминавшийся адрес газеты «Спорт-экспресс», достаточно ввести символы sp (рис. 2.4).
   Рис. 2.4. Современные браузеры могут подсказать вам забытый адрес.

   Все названные выше браузеры предоставляют пользователю еще три механизма сохранения посещенных адресов: они могут быть включены в журнал посещений, в список закладок или в папку избранных страниц.
   В частности, чтобы просмотреть журнал посещений в Internet Explorer, требуется нажать на панели инструментов кнопку Журнал (рис. 2.5) и на открывшейся слева панели выбрать предполагаемый день посещения интересующего ресурса.
   Рис. 2.5. Чтобы вспомнить посещенные ресурсы, воспользуйтесь журналом.

 //-- Неверный адрес --// 
   Бывает и так, что источник адреса оказался недостоверным. Например, была допущена опечатка в издании, где вы встретили описание заинтересовавшего вас ресурса, либо вы забыли одну из частей доменного имени. Вот один забавный, но весьма показательный пример. На сайте корпорации Microsoft имеется русский (региональный) раздел, который расположен по адресу www.microsoft.com/rus. Если же вы по невнимательности или из-за ошибочной информации вводили адрес www.microsoft.ru, то оказывались на сайте, посвященном небезызвестному Гарри Поттеру. Правда, недавно Microsoft наконец решила покончить с этим безобразием и выкупила у владельца указанный адрес. Теперь вместо страницы с въезжающим паровозом в окне браузера появляется сообщение о перенаправлении на «настоящий» сайт Microsoft.
   Или вот еще один пример, иллюстрирующий весьма относительную связь доменного имени с реальным содержанием сайта.
   Компания «Лаборатория Касперского», разработчик популярного Антивируса Касперского (AVP), имеет в Интернете два зарегистрированных имени в домене. com – www.kaspersky.com и www.kasperski.com. Благодаря этому ошибка в последней букве домена второго уровня не является критичной. Однако в Рунете (в домене. ru) зарегистрирован лишь адрес www.kaspersky.ru, и, введя вариант www.kasperski.ru,вы будете автоматически перенаправлены на «барахолку» под названием Poishi.com (рис. 2.6).
   Рис. 2.6. Ошибка в нескольких символах может унести вас за тысячи миль от цели.

   В подобном случае шансы исправить самостоятельно допущенную неточность значительно снижаются. Но не равны нулю! Обладая интуицией и навыками логического мышления, вы все-таки сможете добраться до нужного сайта. Однако для этого требуется представлять себе хотя бы приблизительно возможную область поиска. Прежде всего необходимо определить имя домена первого уровня. Например, если целью поиска является русскоязычный ресурс, то он, скорее всего, входит в домен. ru. В последнее время подавляющее большинство создаваемых русскоязычных сайтов регистрируются именно в этом домене. Хотя, разумеется, из каждого правила есть исключения. Сайты крупных российских коммерческих фирм и организаций перерегистрируются в «интернациональном» домене. com, что считается более престижным, поскольку как бы ставит эти сайты в один ряд с коммерческими ресурсами зарубежных компаний.


скачать книгу бесплатно

страницы: 1 2 3 4 5 6 7 8 9

Поделиться ссылкой на выделенное