В июле 2018 года файлы Google Docs несколько раз появлялись в поисковой выдаче Яндекса. В некоторых файлах содержались персональные данные владельцев, пароли от их аккаунтов и т.д. Почему это произошло?
Почему Яндекс нашел все?
В начале июля внимательные пользователи сети заметили, что при запросах «Зарплата», «Пароль», «График» и т.д. в поиске Яндекса среди прочих результатов попадаются ссылки на файлы, хранящиеся в Google Docs. Подбирая ключевые слова, IT-специалисты и журналисты нашли ряд довольно интересных документов: методички для бот-сетей и сведения о политической агитации в Интернете, данные о зарплатах некоторых пользователей, пароли от учетных записей. Все найденные документы были созданы в онлайн-редакторе Google Docs и хранились на серверах IT-гиганта. А Яндекс эти документы нашел и успешно проиндексировал их содержимое, поэтому данные появились в результатах поиска.
Почему это произошло? Все достаточно просто: авторы документов, попавших в поиск Яндекса, выставили для созданных файлов доступ по ссылке, но ссылки на документы попали «во внешний мир». Те лица, которые получили ссылки на файлы с персональными данными, видимо, выложили эти ссылки в открытый доступ. Поисковый робот Яндекса нашел ссылки и проиндексировал данные. Впрочем, от подобной индексации можно защититься.
Как настроить Google Docs?
Отметим, что в Google Docs существует три основных настройки доступа к документу:
- Доступ к документу неограничен: просматривать документ могут все и без авторизации. Содержимое таких документов индексируют поисковые роботы Яндекса и Google.
- Доступ только по ссылке. В этом случае прочитать документ можно без авторизации, но откроется он только при прямом переходе по ссылке. Поисковые роботы могут индексировать такие файлы, если ссылка появляется в открытом доступе на форуме, в социальной сети и т.п.
- Доступ только для отдельных пользователей. В этом случае для просмотра файла требуется авторизация, и содержимое документа доступно только тем, кому вы отправите приглашение. Поисковые роботы не индексируют такие документы.
Таким образом, если вы не хотите, чтобы содержимое файла появилось в поисковике, предоставьте доступ к документу только отдельным пользователям. Предоставление доступа по ссылке не защитит данные от поисковых роботов.
Но и документы, требующие авторизации, могут попасть в поисковую систему, например, если пользователь, имеющий доступ к информации, скопирует какую-либо информацию в новый файл и не защитит его от посторонних глаз.
Также заметим, что ссылка на документ в Google Docs не меняется при изменении настроек доступа к файлу. Это неслучайно: благодаря такому поведению Google Docs ссылки на документы не «ломаются», например, при предоставлении неограниченного доступа к файлу, ранее доступному только его создателям.
Уязвимы не только сервисы Google
Разумеется, персональные данные могут попасть в поисковик не только из Google Docs. Поисковые роботы могут индексировать данные из социальных сетей, сервисов для хранения текстовых фрагментов (например, Pastebin) и т.д. В частности, известны случаи, когда в поисковые системы попадали паспортные данные: некоторые пользователи выкладывали их в социальную сеть ВКонтакте в раздел «Документы».
Также персональные данные нередко попадаются в общедоступных сервисах для хранения логов и иных текстовых файлов. Скажем, известны случаи «слива» тысяч логинов и паролей на Pastebin – периодически на сайте появляются данные для входа в учетные записи Dropbox, Facebook и т.п. Все эти данные никак не зашифрованы, и, хотя многие пароли уже изменены владельцами, в некоторые аккаунты все еще можно войти с помощью украденных паролей.
Как защититься от попадания данных в открытый доступ?
Если вы имеете доступ к управлению каким-либо сайтом и не хотите, чтобы поисковые роботы индексировали определенные разделы, то можете прямо прописать в robots.txt директивы Disallow, чтобы запретить индексацию, например:
User-agent: *Disallow: /docs(запрещаем индексацию директории /docs для всех поисковых роботов) В тех случаях, когда вы пользуетесь услугами сторонних сервисов, рекомендуем вам не хранить пароли и конфиденциальные данные в открытом виде.
Если вы храните конфиденциальные данные в облачных сервисах, шифруйте данные перед отправкой. А лучше всего, просто не загружайте в Интернет паспортные данные, информацию о своем финансовом состоянии, домашние адреса и личные телефоны.
Даже минимальное использование шифрования (например, выкладывание в Dropbox не текстового файла с паролями, а зашифрованной базы Keepass) уже делает данные более защищенными. А внимательное отношение к персональным данным позволяет избежать попадания информации в поисковые системы и на общедоступные сайты.