Что это
DuckDuckGo - это довольно известная поисковая система с открытым исходным кодом. Серверы находятся в США. Кроме собственного робота, поисковик использует результаты других источников: Yahoo, Bing, «Википедии».
Чем лучше
DuckDuckGo позиционирует себя как поиск, обеспечивающий максимальную приватность и конфиденциальность. Система не собирает никаких данных о пользователе, не хранит логи (нет истории поиска), использование файлов cookie максимально ограничено.
DuckDuckGo не собирает личную информацию пользователей и не делится ею. Это наша политика конфиденциальности.
Гэбриел Вайнберг (Gabriel Weinberg), основатель DuckDuckGo
Зачем это вам
Все крупные поисковые системы стараются персонализировать поисковую выдачу на основе данных о человеке перед монитором. Этот феномен получил название «пузырь фильтров»: пользователь видит только те результаты, которые согласуются с его предпочтениями или которые система сочтёт таковыми.
Формирует объективную картину, не зависящую от вашего прошлого поведения в Сети, и избавляет от тематической рекламы Google и «Яндекса», основанной на ваших запросах. При помощи DuckDuckGo легко искать информацию на иностранных языках, тогда как Google и «Яндекс» по умолчанию отдают предпочтение русскоязычным сайтам, даже если запрос введён на другом языке.
Что это
not Evil - система, осуществляющая поиск по анонимной сети Tor. Для использования нужно зайти в эту сеть, например запустив специализированный .
not Evil не единственный поисковик в своём роде. Есть LOOK (поиск по умолчанию в Tor-браузере, доступен из обычного интернета) или TORCH (один из самых старых поисковиков в Tor-сети) и другие. Мы остановились на not Evil из-за недвусмысленного намёка на Google (достаточно посмотреть на стартовую страницу).
Чем лучше
Ищет там, куда Google, «Яндексу» и другим поисковикам вход закрыт в принципе.
Зачем это вам
В сети Tor много ресурсов, которые невозможно встретить в законопослушном интернете. И их число будет расти по мере того, как ужесточается контроль властей над содержанием Сети. Tor - это своеобразная сеть внутри Сети со своими социалками, торрент-трекерами, СМИ, торговыми площадками, блогами, библиотеками и так далее.
3. YaCy
Что это
YaCy - децентрализованная поисковая система, работающая по принципу сетей P2P. Каждый компьютер, на котором установлен основной программный модуль, сканирует интернет самостоятельно, то есть является аналогом поискового робота. Полученные результаты собираются в общую базу, которую используют все участники YaCy.
Чем лучше
Здесь сложно говорить, лучше это или хуже, так как YaCy - это совершенно иной подход к организации поиска. Отсутствие единого сервера и компании-владельца делает результаты полностью независимыми от чьих-то предпочтений. Автономность каждого узла исключает цензуру. YaCy способен вести поиск в глубоком вебе и неиндексируемых сетях общего пользования.
Зачем это вам
Если вы сторонник открытого ПО и свободного интернета, не подверженного влиянию государственных органов и крупных корпораций, то YaCy - это ваш выбор. Также с его помощью можно организовать поиск внутри корпоративной или другой автономной сети. И пусть пока в быту YaCy не слишком полезен, он является достойной альтернативой Google с точки зрения процесса поиска.
4. Pipl
Что это
Pipl - система, предназначенная для поиска информации о конкретном человеке.
Чем лучше
Авторы Pipl утверждают, что их специализированные алгоритмы ищут эффективнее, чем «обычные» поисковики. В частности, приоритетными являются профили социальных сетей, комментарии, списки участников и различные базы данных, где публикуются сведения о людях, например базы судебных решений. Лидерство Pipl в этой области подтверждено оценками Lifehacker.com, TechCrunch и других изданий.
Зачем это вам
Если вам нужно найти информацию о человеке, проживающем в США, то Pipl будет намного эффективнее Google. Базы данных российских судов, видимо, недоступны для поисковика. Поэтому с гражданами России он справляется не так хорошо.
Что это
FindSounds - ещё один специализированный поисковик. Ищет в открытых источниках различные звуки: дом, природа, машины, люди и так далее. Сервис не поддерживает запросы на русском языке, но есть внушительный список русскоязычных тегов, по которым можно выполнять поиск.
Чем лучше
В выдаче только звуки и ничего лишнего. В настройках можно выставить желаемый формат и качество звучания. Все найденные звуки доступны для скачивания. Имеется поиск по образцу.
Зачем это вам
Если вам нужно быстро найти звук мушкетного выстрела, удары дятла-сосуна или крик Гомера Симпсона, то этот сервис для вас. И это мы выбрали только из доступных русскоязычных запросов. На английском языке спектр ещё шире.
Если серьёзно, специализированный сервис предполагает специализированную аудиторию. Но вдруг и вам пригодится?
Что это
Wolfram|Alpha - вычислительно-поисковая система. Вместо ссылок на статьи, содержащие ключевые слова, она выдаёт готовый ответ на запрос пользователя. Например, если ввести в форму поиска «сравнить население Нью-Йорка и Сан-Франциско» на английском, то Wolfram|Alpha сразу выведет на экран таблицы и графики со сравнением.
Чем лучше
Этот сервис лучше других подходит для поиска фактов и вычисления данных. Wolfram|Alpha накапливает и систематизирует доступные в Сети знания из различных областей, включая науку, культуру и развлечения. Если в этой базе находится готовый ответ на поисковый запрос, система показывает его, если нет - вычисляет и выводит результат. При этом пользователь видит только и ничего лишнего.
Зачем это вам
Если вы, например, студент, аналитик, журналист или научный сотрудник, то можете использовать Wolfram|Alpha для поиска и вычисления данных, связанных с вашей деятельностью. Сервис понимает не все запросы, но постоянно развивается и становится умнее.
Что это
Метапоисковик Dogpile выводит комбинированный список результатов из поисковых выдач Google, Yahoo и других популярных систем.
Чем лучше
Во-первых, Dogpile отображает меньше рекламы. Во-вторых, сервис использует особый алгоритм, чтобы находить и показывать лучшие результаты из разных поисковиков. Как утверждают разработчики Dogpile, их системы формирует самую полную выдачу во всём интернете.
Зачем это вам
Если вы не можете найти информацию в Google или другом стандартном поисковике, поищите её сразу в нескольких поисковиках с помощью Dogpile.
Что это
BoardReader - система для текстового поиска по форумам, сервисам вопросов и ответов и другим сообществам.
Чем лучше
Сервис позволяет сузить поле поиска до социальных площадок. Благодаря специальным фильтрам вы можете быстро находить посты и комментарии, которые соответствуют вашим критериям: языку, дате публикации и названию сайта.
Зачем это вам
BoardReader может пригодиться пиарщикам и другим специалистам в области медиа, которых интересует мнение массовой по тем или иным вопросам.
В заключение
Жизнь альтернативных поисковиков часто бывает скоротечной. О долгосрочных перспективах подобных проектов Лайфхакер спросил бывшего генерального директора украинского филиала компании «Яндекс» Сергея Петренко .
Сергей Петренко
Бывший генеральный директор «Яндекс.Украины».
Что касается судьбы альтернативных поисковиков, то она проста: быть очень нишевыми проектами с небольшой аудиторией, следовательно без ясных коммерческих перспектив или, наоборот, с полной ясностью их отсутствия.
Если посмотреть на примеры в статье, то видно, что такие поисковики либо специализируются в узкой, но востребованной нише, которая, возможно только пока, не выросла настолько, чтобы оказаться заметной на радарах Google или «Яндекса», либо тестируют оригинальную гипотезу в ранжировании, которая пока не применима в обычном поиске.
Например, если поиск по Tor вдруг окажется востребованным, то есть результаты оттуда понадобятся хотя бы проценту аудитории Google, то, конечно, обычные поисковики начнут решать проблему, как их найти и показать пользователю. Если поведение аудитории покажет, что заметной доле пользователей в заметном количестве запросов более релевантными кажутся результаты, данные без учёта факторов, зависящих от пользователя, то «Яндекс» или Google начнут давать такие результаты.
«Быть лучше» в контексте этой статьи не означает «быть лучше во всём». Да, во многих аспектах нашим героям далеко до и «Яндекса» (даже до Bing далековато). Но зато каждый из этих сервисов даёт пользователю нечто такое, чего не могут предложить гиганты поисковой индустрии. Наверняка вы тоже знаете подобные проекты. Поделитесь с нами - обсудим.
Введение
В настоящее время Интернет объединяет сотни миллионов серверов, на которых размещены миллиарды различных сайтов и отдельных файлов, содержащих различного рода информацию. Это гигантское хранилище информации. Существуют различные приемы поиска информации в Интернет.
Поиск по известному адресу. Необходимые адреса берутся из справочников. Зная адрес, достаточно ввести его в адресную строку Браузера.
Пример 1. www.gov.ru - сервер органов государственной власти России.
Конструирование адреса пользователем. Зная систему формирования адреса в Интернет, можно при поискеWeb-сайтов конструировать адреса.
К ключевому слову (названию фирмы, предприятия, организации или простому английскому существительному) необходимо добавить домен тематический или географический, при этом необходимо подключать интуицию.
Пример 2. Адреса коммерческих Web-страниц:
www.samsung.com (фирма SAMSUNG),
www.mtv.com (музыкальные новости MTV).
Пример 3. Адреса учебных заведений:
www.ntu.edu (Национальный университет США).
Поисковые системы Интернет
Для поиска информации в Интернет разработаны специальные информационно-поисковые системы. Поисковые системы имеют обычный адрес и отображаются в виде Web-страницы, содержащей специальные средства для организации поиска (строку для поиска, тематический каталог, ссылки). Для вызова поисковой системы достаточно ввести ее адрес в адресную строку Браузера.
По данным сервиса статистики LiveInternet.ru распределение поисковых систем в России примерно следующее:
2) Гугл – 35.0%
3) Поиск Mail.ru – 8.3%
4) Рамблер – 0.9%
По способу организации информации информационно-поисковые системы делятся на два вида: классификационные (рубрикаторы) и словарные.
Рубрикаторы (классификаторы) - поисковые системы, в которых используется иерархическая (древовидная) организация информации. При поиске информации пользователь просматривает тематические рубрики, постепенно сужая поле поиска (например, если необходимо найти значение какого-то слова, то сначала в классификаторе нужно найти словарь, а затем уже в нем найти нужное слово).
Словарные поисковые системы - это мощные автоматические программно-аппаратные комплексы. С их помощью просматривается (сканируется) информация в Интернет. В специальные справочники-индексы заносятся данные о местонахождении той или иной информации. В ответ на запрос осуществляется поиск в соответствии со строкой запроса. В результате пользователю предлагаются те адреса (URL), на которых в момент сканирования найдены искомые слово или группа слов. Выбрав любой из предложенных адресов-ссылок, можно перейти к найденному документу. Большинство современных поисковых систем являются смешанными.
Наиболее известные и популярные системы поиска:
Существуют системы, специализирующиеся на поиске информационных ресурсов по различным направлениям.
https://my.mail.ru
https://ru-ru.facebook.com
https://twitter.com
https://www.tumblr.com
https://www.instagram.com и т.д.
Предметные поисковые системы:
Поиск программного обеспечения:
Каталоги (тематические подборки ссылок с аннотациями):
http://www.atrus.ru
Правила выполнения запросов
В каждой поисковой системе в разделе Помощь (Help) можно получить сведения о том, как искать, как составить строку запроса. Ниже приведена информация о типовом, "усредненном" языке запросов.
Простой запрос
Ввести одно слово, определяющее тему поиска. Например, в поисковой системе Rambler.ru достаточно ввести: автоматика.
Находятся документы, в которых встречаются слова, указанные в запросе. Распознаются все формы слов русского языка, как правило, регистр букв игнорируется.
В запросе можно использовать символ "*" или "?". Знаком "?" в ключевом слове заменяется один символ, на место которого может быть подставлена любая буква, а знаком "*" - последовательность символов.
Например, запрос автомат* позволит найти документы, включающие слова автоматический, автоматика и т.д.
Сложный запрос
Часто возникает необходимость комбинирования ключевых слов для получения более определенной информации. В этом случае используются дополнительные слова-связки, функции, операторы, символы, комбинации операторов, разделенные скобками.
Например, запрос музыка & (beatles битлз) означает, что пользователь ищет документы, содержащие слова музыка и beatles или музыка и битлз.
Список поисковых серверов и каталогов
Адрес | Описание | |
www.excite.com | Поисковый сервер с обзорами узлов и путеводителями | |
www.alta-vista.com | Поисковый сервер, имеются возможности расширенного поиска | |
www.hotbot.com | Поисковый сервер | |
www.ifoseek.com | Поисковый сервер (простой в использовании) | |
www.ipl.org | Internet Publik library, публичная библиотека, функционирующая в рамках проекта "Всемирная деревня" | |
www.wisewire.com | WiseWire - организация поиска с применением искусственного интеллекта | |
www.webcrawler.com | WebCrawler - поисковый сервер, прост в обращении | |
www.yahoo.com | КаталогWeb и интерфейс для обращения к полнотекстовому поиску на сервере AltaVista | |
www.aport.ru | Апорт - русскоязычный поисковый сервер | |
www.yandex.ru | Яндекс - русскоязычный поисковый сервер | |
www.rambler.ru | Рамблер - русскоязычный поисковый сервер | |
Справочные ресурсы Интернет | ||
www.yellow.com | Желтые страницы Интернет | |
monk.newmail.ru | Поисковые системы различного профиля | |
www.top200.ru | 200 лучшихWeb-сайтов | |
www.allru.net | ||
www.ru | Каталог русских ресурсов Интернет | |
www.allru.net/z09.htm | Образовательные ресурсы | |
www.students.ru | Сервер российского студенчества | |
www.cdo.ru/index_new.asp | Центр дистанционного обучения | |
www.open.ac.uk | Открытый университет Великобритании | |
www.ntu.edu | Национальный университет США | |
www.translate.ru | Электронный переводчик текстов | |
www.pomorsu.ru/guide.library.html | Список ссылок на сетевые библиотеки | |
www.elibrary.ru | Научная электронная библиотека | |
www.citforum.ru | Электронная библиотека | |
www.infamed.com/psy | Психологические тесты | |
www.pokoleniye.ru | Web-сайт Федерации Интернет образования | |
www.metod.narod.ru | Образовательные ресурсы | |
www.spb.osi.ru/ic/distant | Дистанционное обучение в Интернет | |
www.examen.ru | Экзамены и тесты | |
www.kbsu.ru/~book/ | Учебник информатики | |
Mega.km.ru | Энциклопедии и словари | |
Профессиональный поиск информации в Интернет
Поиск информации является одной из наиболее распространенных и одновременно наиболее сложных задач, с которыми приходится сталкиваться в Сети любому пользователю. Однако если для рядового члена сетевого сообщества знание методов эффективного информационного поиска является желательным, но далеко не обязательным качеством, то для профессионалов информационной деятельности умение быстро ориентироваться в ресурсах Интернет и находить требуемые источники относится к числу базовых квалификационных навыков.
Причина сложностей, возникающих при информационном поиске в Интернет, определяется двумя главными факторами. Во-первых, число источников в Сети чрезвычайно велико. В конце 2001 года самые приблизительные подсчеты указывали ориентировочную цифру в 7,5 миллиардов документов, расположенных на серверах по всему миру. Во-вторых, массив информации в Сети не только колоссален по объему, но еще и крайне динамичен. За те полминуты, что вы потратили на чтение первых строк этого раздела, в виртуальной вселенной появилось порядка сотни новых или измененных документов, десятки были перемещены на новые адреса, а единицы - навсегда прекратили свое существование. Интернет никогда "не спит", как никогда "не спит" наша планета, по которой непрерывно катится волна деловой активности человечества в точном соответствии со сменой часовых поясов.
В отличии от стабильного и контролируемого фонда документов в библиотеке, в Сети мы имеем дело с гигантским и непрерывно меняющимся информационным массивом, поиск данных в котором является весьма и весьма сложным процессом. Ситуация зачастую очень напоминает известную задачу поиска иголки в стоге сена, и порой сведения, представляющие огромную ценность, остаются невостребованными единственно по причине трудности их разыскания.
Навыками информационных разысканий в той или иной степени обладают большинство пользователей глобальных компьютерных сетей. И дилетанты, и профессионалы зачастую пользуются одними и теми же инструментами. Однако результаты разысканий и затраченное на них время различаются в очень значительной степени.
Задача данного раздела состоит в детальном ознакомлении с инструментами и методами информационного поиска и выработке устойчивых навыков профессионального поиска в Сети всех видов данных: от текстов в любых форматах, до видео и анимации.
Машины должны работать.
Люди должны думать.
Курс «Профессионального поиска в Интернете» - удобный способ научиться грамотно и эффективно искать и находить нужную информацию в Сети.
Что такое профессиональный поиск?
Парадокс Интернета
состоит в том, что информации с каждой секундой становится всё больше
, но найти нужную
информацию становится всё труднее
. Профессиональный поиск - это эффективный поиск нужной
и достоверной
информации
.
В современном мире информация становится капиталом, а Интернет - удобным средством её добычи, именно поэтому умение находить ценную информацию характеризует человека как профессионала высокого класса
. Профессиональный поиск должен быть всегда результативным. Больше того, во время поиска профессионалы не только ищут место, где хранится информация, но и оценивают авторитетность ресурса, актуальность, точность, полноту опубликованной информации. В этом нам помогает интернет-эвристика - набор полезных правил поиска, критериев отбора и оценки сетевой информации
.
Что Вы узнаете и чему научитесь?
Вы искали и не смогли найти? Тогда курс будет Вам исключительно полезен. Вы получите исчерпывающие инструкции по поиску того, что в Интернете уже есть, но на первый взгляд кажется, что найти это просто невозможно... Возможно! Вы узнаете, как искать, чтобы находить! Каждое занятие построено на соединении знаний и опыта, все полученные знания проверяются в деле .
На занятиях курса Вы узнаете , как развивается современный Интернет и как распространяется электронная информация, как создаются каталоги и как работают поисковые системы, зачем нужны метапоисковые системы и откуда взялся «скрытый» веб, чем форумы отличаются от блогов и что такое фандрайзинг.
Во время практикумов Вы научитесь правильно использовать язык запросов, грамотно подбирать ключевые слова, находить сведения в «скрытом» вебе, отыскивать нужные изображения и файлы, оценивать общественное мнение в блогосфере, разыскивать персональную информацию, а главное - верно оценивать достоверность, актуальность и полноту найденной информации.
Курс интернет-поиска позволит Вам существенно развить свои познавательные, информационные и коммуникативные способности .
Какие темы изучаются в курсе профессионального поиска?
Цель курса - за один месяц обучить возможностям и тонкостям современного поиска профессиональной информации в Сети.
Каждое занятие (модуль) включает лекцию
, семинар
в формате форума, тест
на усвоение пройденного материала, а также несколько упражнений и поисковых заданий
.
В обновленном курсе еженедельно будут проводиться часовые вебинары
- интерактивные виртуальные онлайн-семинары, посвященные обсуждению ключевых задач профессионального интернет-поиска.
Каждый учебный модуль снабжён полезными дополнительными материалами по темам курса и удобными для распечатки раздаточными материалами.
Тематический план курса состоит из 10 взаимосвязанных модулей:
1. Интернетика : история, технология и исследования Интернет.
2. Информационный поиск . Поисковые каталоги.
3. Информационно-поисковые системы . ИПС крупным планом (Google, Яndex и другие).
4. Метапоисковые системы и программы.
5. Справочное интернет-бюро : фактографический поиск в энциклопедиях, справочниках, словарях.
6. Библиографический поиск : библиотеки, каталоги, программы.
7. Документальный поиск : электронные документы, электронные библиотеки, электронные журналы.
8. «Скрытый» Web : поиск мультимедиа, баз данных, баз знаний и файлов.
9. Поиск новостей (блоги и форумы), контактов, учреждений, фандрайзинг.
10. Стратегии информационного поиска : обобщение навыков интернет-эвристики.
Почему курс дистанционный?
Дистанционный курс имеет целый ряд преимуществ .
Во-первых, на каждое занятие отводится не один-два академических часа в неделю, а целая неделя . Вы можете без спешки осваивать и усваивать лекционный материал, выполнять упражнения и поисковые задания.
Во-вторых, дистанционный курс интерактивен . Значит, Вы всегда можете спросить, уточнить, узнать у преподавателя то, что Вам кажется важным. Ваш вопрос не останется без ответа, а сложные задания по поиску можно будет обсудить всей группой, чтобы оценить каждый навык в сравнении.
В-третьих, Вы сможете заниматься в удобное для Вас время и не придётся тратить время на дорогу на занятия. Более того, Вы можете заниматься в любой точке мира, где есть доступ к Интернету.
Сколько стоит курс?
Курс «Интернет-эвристики» продлится один месяц
и будет состоять из 10 модулей
, каждый из модулей состоит из занятиий-«квантов» – они позволяют сохранять нужный для освоения нового материала темп). Цена каждого модуля – всего 300 рублей
, за все занятия Вы заплатите всего 3000 рублей. Обратите внимание, что Вам не придётся покупать дополнительные учебники, курс полностью обеспечен всеми необходимыми учебно-методическими материалами. В случае успешного прохождения курса Вы получите сертификат МГУ о прохождении курса «Профессиональный поиск в Интернете».
Если Вы хотите научиться интернет-находчивости, то нужно выбрать удобное время для прохождения курса и записаться (достаточно нажать на ссылку записаться напротив удобного временного отрезка наверху страницы)!
После регистрации у Вас ещё будет время подумать и принять окончательное решение. Кстати, можете познакомиться с
ПРОФЕССИОНАЛЬНЫЙ ПОИСК ИНФОРМАЦИИ В СЕТИ ИНТЕРНЕТ
Интернет-поиск – важный элемент работы в Сети. Точное количество веб-ресурсов современного интернета вряд ли кому-либо точно известно. В любом случае, счет идет на миллиарды. Для того чтобы можно было использовать информацию, необходимую в данный конкретный момент, не важно, в рабочих или развлекательных целях, сначала нужно ее найти в этом постоянно пополняемом океане ресурсов.
Для того чтобы интернет-поиск был успешным, должны быть выполнены два условия: запросы должны быть хорошо сформулированы и задавать их нужно в подходящих местах. Другими словами, от пользователя требуется, с одной стороны, умение переводить свои поисковые интересы на язык поискового запроса, а с другой – хорошее знание поисковых систем, доступных инструментов поиска, их достоинств и недостатков, что позволит выбирать в каждом конкретном случае наиболее подходящие средства поиска.
В настоящее время не существует какого-либо одного ресурса, удовлетворяющего всем требованиям к интернет-поиску. Поэтому при серьезном подходе к поиску неизбежно приходится задействовать разные инструменты, используя каждый в наиболее подходящем случае.
Основные средства интернет-поиска можно разделить на следующие основные группы:
Поисковые машины;
Веб-каталоги;
Справочные ресурсы;
Локальные программы для поиска в интернете.
Наиболее популярным средством поиска являются поисковые машины – так называемые интернет-поисковики (Search Engines). Тройка лидеров в общемировом масштабе достаточно стабильна – это Google, Yahoo! и Bing. Во многих странах к этому перечню добавляются собственные локальные поисковики, оптимизированные для работы с местным контентом. С их помощью теоретически можно найти любое конкретное слово на страницах многих миллионов сайтов. С точки зрения пользователя основной недостаток поисковиков – это неизбежное наличие информационного шума в результатах. Так принято называть попавшие по тем или иным причинам в список выдачи результаты, не соответствующие запросу.
Несмотря на многие различия, все интернет-поисковики работают по схожим принципам и с технической точки зрения состоят из похожих подсистем. Первая структурная часть поисковика – специальные программы, применяемые для автоматического поиска и последующего индексирования веб-страниц. Такие программы обычно называют пауками, или ботами. Они просматривают код веб-страниц, находят расположенные на них ссылки и тем самым обнаруживают новые веб-страницы. Есть и альтернативный способ включения сайта в индекс. Многие поисковики предлагают владельцам ресурсов возможность самостоятельно добавить сайт в свою базу. Как бы то ни было, затем веб-страницы скачиваются, анализируются и индексируются. В них выделяются структурные элементы, находятся ключевые слова, определяются их связи с остальными сайтами и веб-страницами. Производятся и другие операции, результатом выполнения которых становится формирование индексной базы поисковика. Эта база – второй главный элемент любого поисковика. Сейчас не существует какой-либо одной абсолютно полной индексной базы, которая содержала бы сведения обо всем контенте интернета. Поскольку разные поисковики используют разные программы поиска веб-страниц и строят свой индекс с помощью разных алгоритмов, индексные базы поисковиков могут существенно различаться. Некоторые сайты оказываются проиндексированными несколькими поисковиками, однако всегда остается определенный процент ресурсов, включенных в базу только какого-либо одного поисковика. Наличие у каждого поисковика такой оригинальной и непересекающейся части индекса позволяет сделать важное практическое заключение: если вы пользуетесь только одним поисковиком, пусть даже самым крупным, вы обязательно потеряете некоторый процент полезных ссылок.
Следующая часть интернет-поисковика – собственно программы поиска и сортировки результатов. Эти программы решают две основные задачи: сначала находят в базе страницы и файлы, соответствующие поступившему запросу, а затем сортируют полученный массив данных в соответствии с различными критериями. От эффективности их работы во многом зависит успех в достижении целей поиска.
Последний элемент интернет-поисковика – пользовательский интерфейс. Кроме обычных для любых сайтов требований к эстетике и удобству, к интерфейсам поисковиков предъявляется еще одно важное требование: они должны предлагать различные инструменты составления и уточнения запросов, а также сортировки и фильтрации результатов. Преимущества поисковых машин – великолепный охват источников, сравнительно быстрое обновление содержимого базы и хороший выбор дополнительных функций.
Главный инструмент работы с поисковиками – это запрос.
Для интернет-поиска используются также специальные приложения, устанавливаемые на локальном компьютере. Это могут быть как простые программы, так и довольно сложные комплексы поиска и анализа данных. Наиболее распространены поисковые плагины для браузеров, панели для браузеров, предназначенные для работы с каким-либо конкретным поисковым сервисом, и метапоисковые пакеты с возможностями анализа результатов.
Веб-каталоги – это ресурсы, в которых сайты распределяются по тематическим категориям. Если с поисковиками пользователь работает только посредством запросов, то в каталоге есть возможность просматривать тематические разделы целиком. Второе принципиальное отличие каталогов от автоматических поисковиков – это то, что в их наполнении, как правило, непосредственно участвуют люди, которые просматривают ресурсы и относят сайт к той либо иной категории. Веб-каталоги принято делить на универсальные и тематические. Универсальные стараются охватить максимум тем. В них можно найти все, что угодно: от сайтов о поэзии до компьютерных ресурсов. Другими словами, широта поиска у них максимальная. Тематические же каталоги специализируются на определенной тематике, обеспечивая за счет сокращения широты охвата ресурсов максимальную глубину поиска.
Преимущества каталогов – сравнительно высокое качество ресурсов, поскольку каждый сайт в нем просматривается и отбирается человеком. Тематическая группировка сайтов позволяет удобно располагать сайты близкой тематики. Такой режим работы хорош для обнаружения новых для вас сайтов по интересующей теме – он точнее применения поисковой машины. Веб-каталоги рекомендуется использовать для первого знакомства с какой-либо предметной областью, а также поиска по нечетким запросам – у вас будет возможность «побродить» по разделам каталога и точнее определиться с тем, что именно вам требуется.
Недостатки веб-каталогов известны. В первую очередь, это медленное пополнение базы, поскольку включение сайта в каталог предполагает участие человека. В отношении оперативности веб-каталог – не соперник поисковикам. Кроме того, веб-каталоги существенно уступают поисковикам по размерам баз.
Говоря о интернет-поиске, нельзя обойти вниманием ряд терминов, которые тесно связаны с этой сферой и часто используются для описания и оценки поисковиков. Например: широта и глубина интернет-поиска. Широким называют поиск, который захватывает как можно большее количество источников информации. При этом достаточным считается хотя бы упоминание о том или ином подходящем запросу сайте. Глубина поиска относится к подробности индексирования и последующего поиска каждого конкретного ресурса. Например, многие поисковики по-разному подходят к индексированию разных сайтов. Крупные и популярные сайты индексируются в максимальном объеме, роботы стараются не упустить ни одной страницы такого ресурса. В то же время на других сайтах может быть проиндексирована только заглавная страница и пара страниц содержания. Эти обстоятельства, естественно, сказываются и на последующем поиске. Глубокий поиск работает по принципу «лучше включить в результаты лишнюю информацию, чем упустить какие-либо относящиеся к теме поиска данные».
Достаточно часто можно встретить такие понятия, как глобальный и локальный интернет-поиск. При локальном интернет-поиске учитывается географическое местоположение пользователя и предпочтение отдается результатам, так или иначе связанным с конкретной страной или местностью. При глобальном поиске эта информация не учитывается, и поиск ведется во всех доступных ресурсах.
При составлении запроса на интернет-поисковиках действуют различные режимы поиска. К типовым режимам поиска, которые встречаются на большинстве интернет-машин, можно отнести простой и расширенный поиск. Простой поиск позволяет в одном запросе указать только один поисковый признак. Расширенный поиск дает возможность составить запрос из нескольких условий, связав их логическими операторами.
Для уточнения поисковых запросов используются различные фильтры . Фильтрами называют те или иные вспомогательные средства составления запроса, которые не относятся к содержательной стороне условий запроса, а ограничивают результаты поиска каким-либо формальным признаком. Так, например, применяя при поиске фильтр типа файла, пользователь не сообщает системе сведений, относящихся к теме своего запроса, а просто ограничивает полученные результаты определенным типом файлов, указанным в условии своего запроса.
Для большинства пользователей универсальные поисковики являются основным, а зачастую и единственным средством интернет-поиска. Они предлагают хороший охват источников, а также набор инструментов, достаточный для решения основных поисковых задач.
Рынок универсальных поисковиков достаточно велик. Мы постарались проанализировать наиболее известные поисковые системы, а результаты представили в виде таблицы 1.
При выборе универсального поисковика важную роль играет качество находимых с его помощью ресурсов. Определить предпочтительный для конкретных задач поисковик можно «методом маркера». Суть его состоит в том, что вначале составляется некий тематический поисковый запрос, после чего опрашивается группа людей – экспертов в данной области на предмет выявления лучших, по их мнению, интернет-ресурсов по избранной теме. На основе данных опроса формируется список сайтов-маркеров, гарантированно релевантных запросу и содержащих качественную информацию. Затем запрос отправляется на тестируемые поисковики. Логика оценки проста: чем выше в результатах поиска будут расположены сайты-маркеры, тем лучше конкретный ресурс подходит для поиска информации по тестовой теме.
Алексей Кутовенко
Профессиональный поиск в Интернете
Введение
Интернет-поиск – важный элемент работы в Сети. Точное количество веб-ресурсов современного интернета вряд ли кому-либо точно известно. В любом случае, счет идет на миллиарды. Для того чтобы можно было использовать информацию, необходимую в данный конкретный момент, не важно, в рабочих или развлекательных целях, сначала нужно ее найти в этом постоянно пополняемом океане ресурсов. Это совсем не простая задача, поскольку информация в современной Сети не структурирована, что создает проблемы ее нахождения. Не случайно своеобразными «окнами» в это информационное пространство стали именно интернет-поисковики.
Вряд ли среди интернет-пользователей найдутся люди, никогда не использовавшие крупные универсальные поисковые машины. Названия Google, Яндекс и пары-тройки других больших машин на слуху у всех. Они замечательно справляются с повседневными задачами интернет-поиска, и зачастую пользователи даже не пытаются искать им замену. В то же время количество поисковых интернет-машин в наше время исчисляется тысячами. Причины такого разнообразия альтернативных машин имеют различные корни. Одни проекты пытаются напрямую конкурировать с лидерами глобального рынка за счет тщательной работы с национальными интернет-ресурсами. Другие предлагают возможности составления запроса, отсутствующие у известных поисковиков. Значительное количество альтернативных машин специализируются на поиске по определенной тематической области или определенному типу контента, достигая в решении этих задач впечатляющих результатов. Как бы то ни было, включение таких поисковиков в собственный пользовательский арсенал средств интернет-поиска может заметно повысить его качество. Здесь, правда, существует один нюанс: надо знать о таких машинах и уметь пользоваться их возможностями.
Предполагаем, что читатели данной книги уже достаточно хорошо знакомы с техникой поиска с помощью универсальных поисковиков. Хорошо настолько, что почувствовали ограничения, связанные с их применением. Скорее всего, такие люди уже пробовали искать и применять те или иные дополнительные инструменты. Печатное слово не обходит стороной тему интернет-поиска: и статьи периодически появляются, и книги выходят. Вот только герои у них, как правило, одни и те же – несколько ведущих универсальных поисковиков. Наша книга отличается тем, что в ней делается попытка охватить весь спектр современных поисковых решений. Здесь вы найдете описания и рекомендации по использованию лучших современных сервисов, ориентированных на решение наиболее распространенных поисковых задач. Эта книга для людей, много работающих в интернете и использующих Сеть для поиска нужной информации – будь то бизнес, учеба или хобби.
Для того чтобы интернет-поиск был успешным, должны быть выполнены два условия: запросы должны быть хорошо сформулированы и задавать их нужно в подходящих местах. Другими словами, от пользователя требуется, с одной стороны, умение переводить свои поисковые интересы на язык поискового запроса, а с другой – хорошее знание поисковых систем, доступных инструментов поиска, их достоинств и недостатков, что позволит выбирать в каждом конкретном случае наиболее подходящие средства поиска.
В настоящее время не существует какого-либо одного ресурса, удовлетворяющего всем требованиям к интернет-поиску. Поэтому при серьезном подходе к поиску неизбежно приходится задействовать разные инструменты, используя каждый в наиболее подходящем случае.
Доступных средств поиска немало. Их можно объединить в несколько групп, каждая из которых обладает определенными достоинствами и недостатками. Главы нашей книги посвящены основным группам современных поисковых интернет-систем.
Глава 1, «Универсальные интернет-поисковики», посвящена крупным универсальным системам поиска информации в Сети. Основной акцент делается на их наиболее современных инструментах, которые обычно выпадают из поля зрения широкой публики. Обзор возможностей известных машин дает нам своеобразную точку отсчета и позволяет четко представить сферу применения альтернативных поисковых решений.
Глава 2, «Вертикальный поиск», рассказывает о системах, специализирующихся на определенных тематических областях или же определенных видах контента.
В главе 3, «Метапоиск», рассмотрены метапоисковые системы, способные отправить запрос одновременно на несколько интернет-поисковиков, а затем собрать и обработать полученные результаты в едином интерфейсе.
Глава 4, «Семантические и визуальные интернет-поисковики», представляет собой обзор экспериментальных систем, предлагающих оригинальные пользовательские интерфейсы, а также интересные подходы к обработке запросов.
В главе 5, «Рекомендательные машины», рассказывается о недавно появившихся поисковых сервисах, по-английски метко названных «Discovery Engines», то есть «машины открытий». С их помощью можно обрабатывать ряд запросов, которые «не по зубам» другим видам интернет-поисковиков.
Если вам не подходит ни один готовый продукт, вы можете создать собственный интернет-поисковик. Созданию таких персональных машин посвящена глава 6, «Персональные поисковики».
Несколько глав нашей книги посвящены поиску различных видов сетевого контента. В главе 7, «Поиск изображений», рассказывается о современных тенденциях интернет-поиска изображений, а также о возможностях соответствующих экспериментальных систем. Глава 8, «Поиск видео», предлагает обзор средств видеопоиска ведущих универсальных интернет-поисковиков, а также лучших специализированных систем этого направления.
Глава 9, «Поиск «скрытого» контента», является обзором систем, позволяющих вести поиск контента, который «не видят» универсальные поисковики. К такому «скрытому» контенту относятся, например, торренты или файлы, размещенные на FTP-серверах и файловых хостингах.
Глава 10, «Поиск для Web 3.0», рассказывает о средствах интернет-поиска данных в форматах «семантического веба».
Поиск не заканчивается простым получением результатов с того или иного поисковика. Инструментам обработки и сохранения результатов посвящена последняя глава нашей книги – глава 11, «Программы-помощники».
Прежде чем начинать рассказ о конкретных продуктах, имеет смысл разобраться с классификацией современных средств интернет-поиска, а также определиться с терминами, которые постоянно встречаются на страницах нашей книги.
Основные средства интернет-поиска можно разделить на следующие основные группы:
Поисковые машины;
Веб-каталоги;
Справочные ресурсы;
Локальные программы для поиска в интернете.
Наиболее популярным средством поиска являются поисковые машины – так называемые интернет-поисковики (Search Engines). Тройка лидеров в общемировом масштабе достаточно стабильна – это Google, Yahoo! и Bing. Во многих странах к этому перечню добавляются собственные локальные поисковики, оптимизированные для работы с местным контентом. С их помощью теоретически можно найти любое конкретное слово на страницах многих миллионов сайтов.
Несмотря на многие различия, все интернет-поисковики работают по схожим принципам и с технической точки зрения состоят из похожих подсистем.
Первая структурная часть поисковика – специальные программы, применяемые для автоматического поиска и последующего индексирования веб-страниц. Такие программы обычно называют пауками, или ботами. Они просматривают код веб-страниц, находят расположенные на них ссылки и тем самым обнаруживают новые веб-страницы. Есть и альтернативный способ включения сайта в индекс. Многие поисковики предлагают владельцам ресурсов возможность самостоятельно добавить сайт в свою базу. Как бы то ни было, затем веб-страницы скачиваются, анализируются и индексируются. В них выделяются структурные элементы, находятся ключевые слова, определяются их связи с остальными сайтами и веб-страницами. Производятся и другие операции, результатом выполнения которых становится формирование индексной базы поисковика. Эта база – второй главный элемент любого поисковика. Сейчас не существует какой-либо одной абсолютно полной индексной базы, которая содержала бы сведения обо всем контенте интернета. Поскольку разные поисковики используют разные программы поиска веб-страниц и строят свой индекс с помощью разных алгоритмов, индексные базы поисковиков могут существенно различаться. Некоторые сайты оказываются проиндексированными несколькими поисковиками, однако всегда остается определенный процент ресурсов, включенных в базу только какого-либо одного поисковика. Наличие у каждого поисковика такой оригинальной и непересекающейся части индекса позволяет сделать важное практическое заключение: если вы пользуетесь только одним поисковиком, пусть даже самым крупным, вы обязательно потеряете некоторый процент полезных ссылок.