В крупных соцопросах участвует менее 0,1% населения, но мы делаем выводы про всех россиян. Как это работает?
Часто социологов интересует мнение очень большой группы людей: например, всех россиян. Опросить каждого в такой группе сложно — так делают во время переписей, которые проходят раз в десятилетие и требуют очень много ресурсов (в последней российской переписи участвовали 314 тысяч переписчиков, ее бюджет составил больше 30 млрд рублей, но к качеству при этом остается много вопросов).
Поэтому обычно всю интересующую группу (ее называют генеральной совокупностью) не опрашивают, а вместо этого выбирают какую-то ее часть — выборку. Чтобы выборка была похожа на генеральную совокупность, ее формируют особенным образом.
Самые точные выборки — случайные
Самыми точными считаются случайные (другое название — вероятностные) выборки. Это значит, что все в генеральной совокупности имеют определенный вычислимый шанс в нее попасть. При достаточном размере случайные выборки репрезентативны для всей совокупности — в этом их главное преимущество.
Например, мы хотим опросить всех жителей города, в котором живет 100 тысяч человек. Мы можем взять список всех горожан и случайным образом выбрать нужное нам число человек, а потом опросить тех, кого мы выбрали. Тогда у каждого в списке 1 на 100 тысяч шанс попасть в выборку.
Для случайной выборки нужен список всех членов генеральной совокупности. Например, ВЦИОМ при своих опросах использует полный список сотовых телефонных номеров, задействованных на территории России, а Росстат – данные переписей.
Выборка, в которой из генеральной совокупности напрямую выбирают нужное число участников, называется простой случайной. Но обычно выбирают не напрямую из генеральной совокупности, а из групп (их называют стратами), из которых она состоит (например, отдельно из мужчин и отдельно из женщин).
Например, в РМЭЗ все районы, на которые делятся субъекты в России, объединены в 38 групп (страт) по географическому расположению и уровню урбанизированности. Из каждой такой страты выбирают по одному району. Шанс попасть в выборку у каждого из районов пропорционален его населению. То есть если в одном районе живет 500 тысяч человек, а в другом — 100 тысяч, то у первого шанс попасть в выборку в пять раз больше, чем у второго.
Выбранные районы дробят на еще более мелкие участки: населенные пункты в сельской местности, избирательные участки — в городах. И уже из них случайным образом выбирают жилища, которые будут опрашивать. В опросе участвует 4 тысячи домохозяйств, но за счет процедуры отбора, которая обеспечивает всем равный шанс попасть в выборку, результаты можно переносить на все население страны.
На самом деле выборка РМЭЗ устроена еще сложнее, потому что это панельное исследование — то есть в нем из года в год опрашивают одних и тех же людей. Такие обследования встречаются редко, особенно такого масштаба. Подробнее об этом мы рассказывали в другом материале.
Похожим образом выборку формируют в обследованиях Росстата, но в них, в отличие от РМЭЗ, попадают все регионы. На странице каждого обследования есть раздел, где описана процедура формирования выборки. По такой же многоступенчатой методологии выборки формируют «Левада-Центр»* и ФОМ.
Выборка не обязательно должна быть как можно больше. С определенного момента добавление новых участников в выборку не делает результаты сильно точнее, но требует ресурсов.
Более того, размер выборки не зависит от размера генеральной совокупности. Как это ни парадоксально, последний вообще не участвует в формуле расчета размера выборки. Формула подразумевает, что популяция может быть бесконечно большой. То есть чтобы получить выборку, репрезентативную для всего населения России, знать численность населения не нужно.
Обычно для этого используют формулу
n = (Z² * p * (1−p)) / E²
n — это размер выборки
Z — z-оценка. Мы задаем ее значение в зависимости от того, насколько точные результаты хотим получить. Значения z-оценки для самых распространенных уровней доверительной значимости можно найти, например, здесь.
p — доля интересующей группы в генеральной совокупности. Если доля неизвестна, ставят максимальное значение — 0,5 (50%).
E — предельная ошибка выборки (насколько значения в выборке могут отличаться от значений в генеральной совокупности).
Что такое неслучайные выборки и когда их можно использовать
Иногда о генеральной совокупности вообще ничего не известно. Например, никто точно не знает, сколько человек уехало из России в 2022 году, какого они возраста и пола, в каких странах сейчас живут — поэтому сформировать случайную выборку эмигрантов невозможно.
В таких ситуациях исследователи используют неслучайные выборки — такие, в которых рассчитать шанс попадания в выборку нельзя. Например, опрашивают тех, кто добровольно откликнулся на просьбу принять участие в исследовании (такие выборки называются стихийными). Это дает искажение относительно всей интересующей группы. Авторы исследования российской эмиграции искали респондентов через свои соцсети, демографические и социологические телеграм-каналы, группы эмигрантов в телеграме — это значит, что в выборку попали только те, кто пользуется этими соцсетями, имел возможность увидеть опрос и согласился в нем участвовать.
Другой частый тип неслучайной выборки — квотированная. Она воспроизводит некоторые характеристики генеральной совокупности: например, соотношение мужчин и женщин, горожан и сельских жителей, людей разного возраста. Это снижает риск смещения, но внутри этих групп шанс попасть в выборку тоже невозможно оценить.
Для опроса труднодоступных групп часто выбирают метод «снежного кома»: каждый представитель интересующей группы, с которым удалось связаться, называет еще несколько человек, которые входят в эту группу. Например, таким образом сформирована выборка в российском исследовании о распространенности ВИЧ среди уязвимых групп населения (секс-работниц, людей, практикующих рискованный секс, потребителей инъекционных наркотиков).
«Если целью исследования по неслучайной выборке было изучение мнения определенной подгруппы или проведение разведывательного анализа, результаты могут быть ценными. Но их нельзя экстраполировать на всю генеральную совокупность, и важно четко прописывать ограничения. Риск разного рода смещений велик. В стихийных выборках, особенно в онлайн-опросах, распространено смещение добровольцев, когда люди, которые решают принять участие в опросе, могут иметь отличные характеристики от тех, кто этого не делает. В квотной выборке, несмотря на контроль за пропорциями ключевых характеристик, может возникнуть смещение интервьюера из-за того, что интервьюеры могут неосознанно выбирать респондентов, которые кажутся им более приятными или соответствуют их ожиданиям», — объясняет социолог, научный сотрудник Тель-Авивского университета Ника Костенко.
Получить несмещенные результаты (точнее, оценить, насколько результаты смещенные) на неслучайной выборке — очень сложная задача. Отдельная проблема состоит в том, что в эпоху больших данных неслучайные выборки могут быть огромными, и это создает впечатление, что размер сгладит ошибки, пишут авторы исследования «Пора поговорить о неслучайных выборках». Это не так: например, один из опросов о вакцинации от коронавируса в США был сделан на неслучайной выборке в 250 тысяч человек, но после того, как его скорректировали на возможные смещения, оказалось, что результаты столь же точные, как если бы опрос был сделан на случайной выборке в 10 человек.
Некоторые исследователи предлагают вообще не использовать неслучайные выборки в науке. Менее жесткая позиция — оценивать и подробно прописывать все возможные смещения. Если о каких-то смещениях известно заранее, на них можно делать поправку: например, дать больший вес респондентам старшего возраста в онлайн-опросах, если известно, что в таких опросах обычно участвует непропорционально много молодых людей. Иногда используют и более сложные способы — моделирование процесса отбора в выборку, сравнение реальной неслучайной выборки с искусственно смоделированной случайной. Однако все эти методы не гарантируют успеха, и оценить их результаты может быть очень сложно.
Искажения могут появиться в любом опросе
Хотя случайные выборки считаются более надежными, чем неслучайные, они тоже не застрахованы от ошибок — даже при строгом соблюдении принципов случайного отбора, говорит Ника Костенко.
«Даже при случайном отборе могут возникать ситуации, когда определенные сегменты населения недостаточно представлены в выборочной совокупности или когда люди, отказывающиеся от участия в опросе, систематически отличаются от тех, кто соглашается. Например, ФОМ, ВЦИОМ, Левада* слишком доверяют своей сети и продолжают пользоваться телефонными опросами. Это приводит к перепредставленности пожилых людей, пользующихся домашним телефоном. На звонки с незнакомого номера на мобильный люди отвечают редко. Другой источник искажений — ошибка измерения. Она может возникать из-за недостатков самого опросного инструмента (например, некорректно сформулированные вопросы, наводящие вопросы, запутанные варианты ответов) или процесса сбора данных (например, ошибки интервьюеров, неправильное понимание вопросов респондентами, социально одобряемые ответы)», — поясняет исследовательница.
Смещение может быть сильным. Например, когда вопросы касаются какой-то опасной темы, начинает раскручиваться «спираль молчания»: люди боятся озвучивать свою позицию, начинает громче звучать часть общества, которой нечего бояться. Поэтому, в частности, результаты опросов россиян об отношении к боевым действиям в Украине нельзя воспринимать всерьез, считает социолог Григорий Юдин*.
Другой знаменитый пример искажения в выборке — результаты опросов американских избирателей в 2016 году. Тогда все опросы уверенно прогнозировали победу Хиллари Клинтон, но на выборах победу одержал Дональд Трамп. Судя по всему, в выборку попало непропорционально мало сторонников Трампа: они чаще менее образованы, не доверяют опросам и отказываются в них участвовать. Кроме того, голосовать за Трампа считалось социально не одобряемой позицией, поэтому респонденты могли давать неискренние ответы.
Чтобы устранить смещение, исследователи используют взвешивание: если какие-то группы недопредставлены в выборке по сравнению со всей интересующей группой, их ответам придают больший вес, если перепредставлены — наоборот, меньший. Часто это делают по демографическим характеристикам — полу, возрасту. Но в некоторых случаях, чтобы значимо снизить погрешность, приходится использовать гораздо больше характеристик и более сложные методы. Но полностью устранить смещение не всегда возможно.
«Надо понимать, что если у вас в выборке вообще нет, например, сверхбогатых или бездомных, они там не появятся, как ни взвешивай. В российском контексте к этому добавляется недоверие (еще в мирные времена многие люди считали, что опрос — это способ донести до власти свои проблемы, в анонимность люди мало верят), поэтому избегание опасных вопросов или в целом участия в опросе становится нормальной практикой», — объясняет Костенко.
*Минюст считает иноагентом
Автор: Анастасия Кокоурова
Инфографика: Ксения Тихомирова, Екатерина Буркова