Блог

Синтаксис поисковых запросов

Цветков Максим
04.04.2015

Для эффективного поиска в Интернете необходимо использовать различные команды-операторы (поисковые запросы), задающие условия поиска. Только в этом случае у вас будет не миллион страниц в поисковой выдаче, а список документов, которые полностью соответствуют вашему запросу. Так как ресерч это один из основных способов учиться, работать и делать выбор, то трудно переоценить важность умения искать максимально эффективно.

Особо сложных запросов сделать не удастся, так как гугл позволяет вводить не более 32 слов. Многие запросы работают как в гугле, так и в яндексе. Но не все.

OR — Логическое «ИЛИ» позволяет найти несколько вариантов слов или выражений. Пример: дизайн OR your-scorpion

Before: добавляете before:2014 и получаете выдачу до 2014 года.

+ — обязательно учесть слово, перед которым стоит знак плюс. рабочие +президент

— минус позволяет исключить слово из результатов поиска (строительство -ремонт)

[дизайн графика mime:doc] — будут обнаружены документы doc формата, содержащие слова «дизайн» и «графика»

«» — такие кавычки помогут найти только тот набор слов, который указан внутри кавычек «какой красивый закат». Если вас интересует, сперли ли у вас статью, то вбейте кусочек вашей статьи в кавычках в поисковую строку.

~ — не только слово, но и его синонимы

anchorint — использую, когда нужно найти все внутренние страницы сайта, ссылающиеся на определенную страницу заданной ключевой фразой. anchorint:»unity3d» site:http://www.render.ru

* заменяет одно слово другим. «радуга***слон». Грубо говоря, это сколько может быть разных слов между искомыми.

.. – для поиска диапазона между числами «от — до». год основания 1950..1960 Купить книгу $100..$150
Численность населения 1913..1935

[!дедлайн] — найти документы, где содержится слово «дедлайн», написанное с прописной буквы. Тут важно понимать, [основы юзабилити] будет считаться менее точным запросом, чем [!основы !юзабилити]

filetype: — помогает указать тип файла, внутри которого нужно осуществить поиск слова или фразы. тип файла filetype:pdf

site: — это все знают, поиск по определенному сайту. Кстати, пробела между «:» и адресом страницы быть не должно. Но правильное использование выглядит так: site:boards.greenhouse.io united states intext:"apply" (intext:"Product Designer" OR intext:"UX Designer")

movie: — поиск информации о фильме. «movie:красная шапочка»

source — поиск новостей из указанных источников.

allinurl: — вам покажут список страниц, у которых есть слова из поискового запроса в URL allinurl:prikol pravda

allintext: поиск только в тексте документа, без учета заголовков, адресов и прочей ереси

define: поиск описания слова. Типа словаря. define:архивариус

object – поиск по содержимому атрибута тега object. object:align center

applet – поиск по значению атрибута code. applet:button.class

related: моя любимая функция. Поиск страниц, которые похожи по тематике с указанным URL в поисковой строке. related:www.rg.ru. Можно хитрить, так, URL может быть представлен в виде punycode, или sylleric вместо ASCII, это потенциальная homograph-атака и браузер об этом предупредит в большинстве случаев. Возможно скрывать домен для доверенных хостов.

cache: вторая по любимости функция. Показывает последнюю версию страницы из кеша гугла.

Link: покажет страницы, которые ссылкаются на указанную link:www.google.ru

Браузерный запрос google.com/#q=filetype:pdf+site:2gis.ru позволяет найти на сайте 2gis все файлы с расширением pdf. Или такой запрос: google.com/search?#q=inurl:»ViewerFrame?Mode=» найдёт все все веб-камеры. Так, один из способов этого избежать или наоборот, расширить свой арсенал поисковых запросов, это использовать специальный символ для чтения справа налево. Другими словами, скажем, расширение файла .ps1 можно написать инвентированно: filename1sp.pdf. Для компьютерной системы это будет все равно powershell script. Для достижения такой магии существует специальный юникод символ U+202E, который позволяет писать справа налево: filename‮pdf.

Если понять принципы работы Unicode, то ваши поисковые запросы будут очень эффективны. Unicode умеет во все языки со всего мира, включая эмоджи. Байты в виде 10111011 хранятся в памяти, и преображаются в запросе на bb. ASCII же это подтип, который умеет хранить символ в максимум 7 битах. И UTF-8 тоже подтип, а не реализация Unicode. И в ходе передачи данных по сети, байты могут подвергаться изменениям и менять свое семантическое значение. Например, если отправить эмоджи с ноутом (U+1F4BB), то на языке компьютера это выглядит как f0 9f 92 bb, и не влезает в 7и битный ASCII. Все эти особенности компенсируются нормализациями NFD, NFC, NFKD, NFKC.

У яндекса извращений чуть больше, но самые популярные запросы они вынесли в интерфейс. А теперь допустим, мы SEOшники, и хотим использовать полученные знания для получения финансовой выгоды (чего уж греха таить, в SEO идут исключительно за деньгами). Заходим на сайт wordstat.yandex.ru, и используем все вышеперечисленные возможности конкретизации выборки. Например, если вести вашу ключевую фразу в кавычках, сервис выдаст количество точных запросов по этой фразе. Или забиваем фразу «!дизайн !мобильных !приложений», и получаем статистику, сколько людей искало именно дизайн мобильных приложений. Как результат, мы получаем очень качественное семантическое ядро запросов.

Также, не только Google и Yandex создали язык поисковых запросов для своих сервисов, у многих крупных порталов есть свой язык с такими же базовыми операторами конкретизации. Так, хорошие специалисты по подбору персонала в совершенстве владеют довольно скудным языком поисковых запросов по HH.ru.

Слишком активное использование поисковых запросов может приводить к ошибке 503 (Service Temporarily Unavailable), это поисковая система защищается от DDoS. И не забываем про более технические инструменты, такие как sublist3r.

8 комментариев

dima_ovrite

15.05.2015

Может ли это помочь для составлении анкор-листа? Как вы вообще составляете анкор лист?

Ответить
- your-scorpion
  
  15.05.2015
  
  Я никогда не действую по принципу «пойду ка я на биржу и куплю много ссылок». Это не работало во времена моей молодости, не сработает и сейчас.
  
  Для оставления анкор-листа нужно озадачиться составлением ссылочного профиля.
  Идем в яндексовый «подбор слов», вбиваем наши ключевые слова и получаем поисковые запросы. По этим поисковым запросам в яндексе и гугле находим нужные качественные коммерческие сайты.
  
  Далее, при помощи ahrefs, linkpad, rankinity смотрим обратные ссылки с этих сайтов и тем самым, формируем свой список доноров.
  
  Далее связываемся с веб-мастерами или SEO-шниками и договариваемся о размещении ссылок.
  
  Ответить
Timofey Penkov

07.02.2018

Есть какой нибудь хитрый запрос на парсинг заголовков с сайта, в котором более 1 000 страниц?

Ответить
- Цветков Максим
  
  07.02.2018
  Есть, в Google Sheets. Например, формула для Title будет следующей
  
  =importxml(D6,"//title")
  =importxml(D6,"//title")
  
  А для Description такой
  
  =IMPORTXML(D8,"//meta[@name='description']/@content")
  =IMPORTXML(D8,"//meta[@name='description']/@content")
  
  Я таким образом проверяю, на каких страницах не прописаны важные теги. Для решения вашей задачи нужно будет распределить URL по левому столбику (Netpeak Spider поможет), в соседнем столбике прописать нужную формулу и потянуть ячейку с формулой вниз. Но для 1 000 запросов придется подождать и не факт, что вообще спарсит.
  Ответить
  - Федор Венков
    
    03.04.2019
    
    Здравствуйте, а можно ли сграбить картинки в ячейки таблицы?
    
    Ответить
    - Цветков Максим
      
      03.04.2019
      
      Да, командой
      
      =ARRAYFORMULA( IMAGE( importxml(HYPERLINK("https://yandex.ru/images/search?text=normal%20distribution"),"//img/@src"),1))
      =ARRAYFORMULA( IMAGE( importxml(HYPERLINK("https://yandex.ru/images/search?text=normal%20distribution"),"//img/@src"),1))
      
      Ответить
Дима Ипатов

25.05.2025

Команда filetype очень крутая, а есть ли что-то более продвинутое для поиска сразу по всем типам файлов? именно файлов, а не контенту на сайте.

Ответить
- Цветков Максим
  
  25.05.2025
  
  Гляньте metagoofil. Синтаксис весьма простой: metagoofil -d example.com -t pdf,doc,ppt -l 50 -n 10 -o /tmp/metadata -f report.html, тут будет произведен поиск по типу файлов, 10 из них скачаются в папку metadata и сгенерирует отчет с мета-данными. Как альтернатива, theHarvester -d site.example -b otx или theHarvester -d example.dd -b urlscan,crtsh,rapiddns -v, в зависимости от целей. Вы перечисляете поисковики, это попросту автоматизация работы с поисковыми системами, например urlscan.io можно использовать отдельно через веб-морду. Но в качестве начала ресерча, команды theHarvester -d example.com -b rapiddns,crtsh,urlscan,otx -l 1000 -v дают хорошее представление о потенциальных результатах.
  
  Или в гугле командой типа: site:example.kd (filetype:pdf OR filetype:doc*)
  
  Ответить

Добавить комментарий для Федор Венков Отменить ответ

Этот сайт использует Akismet для борьбы со спамом. Узнайте, как обрабатываются ваши данные комментариев.

Синтаксис поисковых запросов

8 комментариев

dima_ovrite

your-scorpion

Timofey Penkov

Цветков Максим

Федор Венков

Цветков Максим

Дима Ипатов

Цветков Максим

Добавить комментарий для Федор Венков Отменить ответ

Related articles.

Создание LLM-агентов и использование MCP

Сбор и визуализация GIS данных

Как продавать опыт в условиях жёсткой конкуренции