Статистика в SPSS: за пределами кнопочного интерфейса. Выпуск 11 (comp.soft.others.spss) : Рассылка : Subscribe.Ru

Отправляет email-рассылки с помощью сервиса Sendsay

Статистика в SPSS: за пределами кнопочного интерфейса

Рассылка закрыта

Вы можете найти рассылки сходной тематики в Каталоге рассылок.

← Март 2006 →
	1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Автор

Балабанов Антон

Статистика

592 подписчиков
0 за неделю

← Все выпуски →

Статистика в SPSS: за пределами кнопочного интерфейса. Выпуск 11

В рассылке используются материалы веб-сайта www.spsstools.ru

Содержание выпуска

Пример агрегирования данных

Новое на сайте www.spsstools.ru

Здравствуйте, уважаемые подписчики!

Пример агрегирования данных

В коллекции Рейналя имеется синтаксис Создать переменную со средними значениями другой переменной.SPS (Ray, 17.06.2003), который, как следует из названия, создаёт новую переменную, помещая в неё среднее значение существующей переменной файла данных. Подобная задача является характерным примером того, когда особая логика организации данных в статистическом пакете создаёт определённые трудности в использовании статистики по файлу данных в дальнейших расчётах. Поскольку данная операция хотя и требуется, но не слишком часто, её реализация в SPSS хотя и возможна, но чуть более сложна, чем, например, простое вычисление среднего значения.

Если бы мы работали в пакете MS Excel, то, наверное, сначала рассчитали бы среднее, а затем "размножили" его по всем наблюдениям с помощью специальных символов закрепления "$" при адресации на ячейку, содержащую среднее. В SPSS процедура также включает 2 этапа, схожих по своему содержанию с действиями в Excel, но иных по техническому исполнению: создание внешнего файла со статистикой (средними значениями) и затем "подшивание" этой статистики к исходному файлу данных.

Безусловно, на месте среднего значения могут быть и другие обобщающие характеристики переменной, такие, как минимум, максимум, дисперсия, процент наблюдений, превышающих установленный порог и так далее. Команда AGGREGATE, использующаяся на первом этапе, предоставляет широкий спектр соответствующих функций.

В примере синтаксиса, который мы разберём, будут задействованы 2 ключевые команды: AGGREGATE - расчёт статистики и помещение её во внешний файл данных и MATCH FILES (буквально - сопоставление файлов), т.е. слияние исходного файла и файла статистических показателей. Данные команды доступны и через кнопочный интерфейс программы (AGGREGATE - через Data - Aggregate, MATCH FILES - через Data - Merge Files - Add Variables).

Откроем файл примера, поставляющегося с SPSS (Employee data.sav); на вашем компьютере может потребоваться изменить путь к этому файлу...

GET FILE = 'C:\Program Files\SPSS\Employee data.sav'.

... и определим техническую задачу нашего исследования: вычислить отклонение жалованья сотрудника (переменная salary) от среднего жалованья. Задачу можно понимать на двух уровнях сложности. В качестве среднего жалованья может выступать общее среднее, а может выступать среднее той группы работников, к которой принадлежит данный сотрудник. Во втором случае модель среднего жалованья будет, скорее всего, более точной (с меньшими отклонениями), и отклонения от такого среднего не будут являться результатом действия группирующего фактора.

Благо, пакет SPSS, как правило, предоставляет несколько вариантов получения того или иного результата, поэтому посмотрим в начале, как можно построить отклонения от общей средней и от средней по группам работников (например, по категориям, jobcat) с помощью иных средств, отличных от AGGREGATE и MATCH FILES.

1. Вычисляем отклонения от общей средней посредством сохранения и последующей модификации стандартизированных значений.

В меню Analyze - Descriptive Statistics - Descriptives присутствует опция "Save standardized values as variables" - "сохранить стандартизированные значения как переменные". Воспользуемся ей, чтобы получить отклонения заработков относительно средней величины, выраженные в количестве стандартных отклонений. Эквивалент этой операции на командном языке выглядит следующим образом:

DESCRIPTIVES
VARIABLES=salary /SAVE
/STATISTICS=MEAN STDDEV MIN MAX.

Опция /SAVE обеспечила создание новой переменной (zsalary), содержащей стандартизированные значения переменной salary. Из таблицы Descriptive Statistics в окне результатов видим, что стандартное отклонение составило 17 075.6 условных единиц. Таким образом, чтобы получить абсолютные отклонения жалованья от собственного среднего, достаточно теперь умножить стандартизированные значения на 17 075.6:

COMPUTE saldev=zsalary*17075.6.

EXECUTE.

2. Вычисляем отклонения от среднего жалованья по категориям служащих (переменная jobcat) посредством одномерного однофакторного дисперсионного анализа.

В самом деле, если использовать переменную jobcat как фактор в дисперсионном анализе, возможности команды UNIANOVA по сохранению прогнозов (Predicted) и остатков (невязок модели - Residuals), обеспечат нам появление в файле данных соответствующих переменных.

UNIANOVA
salary BY jobcat
/INTERCEPT = INCLUDE
/SAVE = PRED RESID
/DESIGN = jobcat.

После выполнения этой команды в переменных pre_1 и res_1 оказались, соответственно, средние размеры жалованья по категориям служащих и отклонения от среднего жалованья в своей категории для каждого работника.

3. То же самое, через команды AGGREGATE и MATCH FILES.

Рассмотренные выше способы вычисления средних значений и отклонений от них являются, без сомнения, удобными, поскольку не требуют использования дополнительных файлов и слияний - программа использует внутренние процедуры для создания новых переменных. Тем не менее, их нельзя назвать универсальными способами, так как, во-первых, они основаны на наших знаниях об особенности реализации тех или иных статистических процедур, во-вторых, использование этих методов будет иметь свои особенности при наличии пропусков в данных, в-третьих, поставленная перед нами задача по агрегированию файла данных может оказаться более специфичной (например, могут потребоваться не средние величины, а иные функции).

Задачи с общими и частными средними реализуются аналогичными сочетаниями команд AGGREGATE и MATCH FILES.

Вариант А: общее среднее.

Команда AGGREGATE предназначена для расчёта статистик по группам наблюдений. В её теле присутствует подкоманда /BREAK, устанавливающая переменную, относящую наблюдения к той или иной группе. Соответственно, количество рассчитанных статистик будет определяться числом уникальных значений переменной, указанной в параметре /BREAK (включая пропущенные значения). В данном случае, поскольку нас интересует общее среднее, необходимо указать, что все наблюдения относятся к одной и той же группе. В этом нам поможет константа nobreak:

COMPUTE nobreak=1.

После инструкции COMPUTE вычисления принудительно можно не выполнять, так как следующая команда AGGREGATE всё равно будет обрабатывать весь файл данных - заодно и произведёт те вычисления, которые были запрошены ранее.

В команде AGGREGATE мы указываем имя внешнего файла, который будет содержать статистику ('c:\temp\temp.sav'), а также имя группирующей переменной (nobreak) и тот факт, что наблюдения были отсортированы по значениям этой переменной (/PRESORTED). В самом деле, хотя сортировка и не производилась, она была и не нужна, т.к. nobreak имеет значение 1 для всех наблюдений. Вообще же, если группирующая переменная действительно имеет разные значения, знатоки рекомендуют заранее отсортировать файл данных командой SORT CASES BY, а затем использовать AGGREGATE именно с параметром /PRESORTED. Это освобождает AGGREGATE от необходимости выполнять сортировку по ходу своего алгоритма, что благоприятно сказывается на объёме требуемой памяти и скорости преобразований. Для больших файлов такое разнесение сортировки и агрегирования может оказаться очень полезным. Ну а в данном случае мы просто выпендрились...

Ключевым параметром является указание того, что переменная msal в новом файле должна содержать среднее (MEAN) по переменной salary из текущего файла.

AGGREGATE OUTFILE='c:\temp\temp.sav'
/PRESORTED
/BREAK=nobreak
/msal=MEAN(salary).

Агрегирование произведено. Если раньше вы никогда не использовали AGGREGATE, на этом этапе полезно прервать чтение и заглянуть в получившийся файл (c:\temp\temp.sav), дабы увидеть, что он из себя представляет. Затем вновь откройте исходный файл данных и доведите исполнение синтаксиса вновь до этого места.

Теперь наша задача - сделать так, чтобы единственное наблюдение переменной msal из файла c:\temp\temp.sav оказалось размножено по всем наблюдениям текущего файла. Это сделает команда сопоставления файлов MATCH FILES. Слияние производится в текущий файл данных (параметр "*"). Внешний файл со статистикой объявляется подстановочной таблицей (/TABLE) по ключу nobreak. Это означает, что значения всех переменных для тех наблюдений из внешнего файла, для которых значения nobreak совпадут со значением nobreak из наблюдений текущего файла, будут приписаны этим наблюдениям в текущий файл по принципу один-ко-многим. Поскольку других значений ключа, кроме 1, у нас нет ни в том, ни в другом файле, а во внешнем файле имеется только две переменные - ключ nobreak и msal, визуально данное действие добавит в текущий файл переменную msal, которая будет иметь значение 34 419 для всех наблюдений.

MATCH FILES FILE=*
/TABLE='c:\temp\temp.sav'
/BY nobreak.

Остаётся подсчитать отклонения и дать метки новым переменным:

COMPUTE saldif=salary-msal.

EXECUTE.

VARIABLE LABEL saldif 'Жалованье минус среднее жалованье'
/msal 'Среднее жалованье'.

Вариант Б. Средние по категориям.

Очень похожими будут наши действия в том случае, если требуется подсчитать средние и отклонения от них по категориям служащих (переменная jobcat). В этом случае мы будем использовать не константу nobreak в качестве разделителя, а непосредственно переменную jobcat. Причём в данном случае важно предварительно произвести сортировку наблюдений по ней, если в последующей команде AGGREGATE мы используем параметр /PRESORTED (предварительно отсортированный файл).

SORT CASES BY jobcat.

AGGREGATE OUTFILE='c:\temp\temp.sav'
/PRESORTED
/BREAK=jobcat
/msalj=MEAN(salary).

MATCH FILES FILE=*
/TABLE='c:\temp\temp.sav'
/BY jobcat.

COMPUTE saldifj=salary-msalj.

EXECUTE.

VARIABLE LABEL saldifj 'Жалованье минус среднее жалованье по категориям'
/msalj 'Среднее жалованье по категориям'.

На сегодня это все упражнения.

Всего доброго и приятных выходных!

Ведущий рассылки,

Балабанов Антон

Новое на сайте www.spsstools.ru

Переведены и добавлены примеры синтаксиса:

Уменьшить ширину колонок в редакторе данных.SPS

Выравнивание строковых переменных по правому краю.SPS

Проверка формата текстового поля.SPS

Проверить шкалу Лайкерта и непрерывную переменную.SPS

Добавить 60 дней к дате и найти последний день месяца.SPS

Добавить ведущие нули к дате в строковом формате.SPS

Вычислить возраст, если он введён как nnH nnD nnM и nnA.SPS

Разложить период госпитализации по месяцам.SPS

Вычислить возраст.SPS

Вычислить разницу во времени в миллисекундах.SPS

Вычислить среднюю дату и стандартное отклонение в днях.SPS

Переведены и добавлены скрипты:

Установить число десятичных знаков для процентов.SBS

Заменить процентный формат.SBS

В избранное

{#template MAIN} <div id="loginForm" style="display:none;" class="subscriberu_popup"> <div class="popup_register"> {#include js_tmpl_auth_reg_tab} {#if $P.login_register_tab == 1} <form class="authentication-form" method="post" action="/MEMBERLOGIN_authen_cred"> <dl class="rg_block_options"> <dt id="js_tap_panel_auth"> <h1>Войти на сайт</h1> {* {#include js_tmpl_auth_reg_button} *} {#include js_tmpl_auth_reg_action} <hr class="logreg_line noPhones"> <div class="logreg_descr noPhones"><p>{#include js_tmpl_auth_reg_descr} </p></div> <div class="logreg_advice noPhones"> Если вы еще не с нами, то начните с <a href="#" onclick="rgNav('js_tab_reg');return false;" class="dashed" data-func="registr">регистрации</a> </div> <br><br> <a class="dashed auth-enter" href="/manage/author/"><b>Вход для авторов</b></a> </dt> </dl> </form> {#/if} {#if $P.login_register_tab == 2} <div class="rg_block_options"> <div id="js_tap_panel_auth"> <h1>Регистрация</h1> <div class="social_reg"> {* <div class="rg_description">{#include js_tmpl_soc_auth_reg_descr}</div> *} {#include js_tmpl_auth_reg_soc} <div class="rg_soc_auth_agree">{#include js_tmpl_auth_reg_agree}</div> </div> <div class="subscribe_reg"> {* <div class="rg_description"> #include js_tmpl_auth_reg_descr </div> *} {#include js_tmpl_auth_reg_action} </div> {* {#include js_tmpl_auth_reg_button} *} <div class="clr"> </div> <hr class="logreg_line noPhones"> <div class="logreg_descr noPhones">{#include js_tmpl_auth_reg_descr} {#include js_tmpl_soc_auth_reg_descr} </div> </div> </div> {#/if} </div> {* <div class="gray_bg register_shadow"></div> *} </div> {#/template MAIN} {#template js_tmpl_auth_reg_tab} <ul class="rg_nav"> <li id="js_tab_auth" class="{#if $P.login_register_tab == 1} rg_active_nav {#/if} rg_first_nav"><a onclick="rgNav('js_tab_auth');return false;" href="">Вход на сайт</a></li> <li id="js_tab_reg" class="{#if $P.login_register_tab == 2} rg_active_nav {#/if}"><a onclick="rgNav('js_tab_reg');return false;" href="">Регистрация </a></li> </ul> <span onclick="hidebo();" class="rg_closed"> </span> {#/template js_tmpl_auth_reg_tab} {#template js_tmpl_auth_reg_action} {#if $P.login_register_tab == 1} {#include js_tmpl_auth_reg_soc} {#/if} <div class="rg_forms"> <input type="hidden" id="login_register_destination" value="{$P.login_register_destination}"/> {#if $P.login_register_tab == 1} <div class="rg_for_input"> <span class="rg_text_inner">E-mail или код подписчика</span> <input id="credential_0" class="js_keydown_selector rg_input_text" data-js_submit="no" data-js_next_input_name="credential_1" name="" type="text" /> </div> <div class="rg_for_input"> <span class="rg_text_inner">Пароль</span> <input id="credential_1" class="js_keydown_selector rg_input_text" data-js_submit="yes" data-js_action="js_loginFormBut" name="" type="password" onkeyup="showAttention(this,!!window.event.shiftKey)" /> <span class="pswd_attention" id="attention_pswd"> <span class="icon_attention"></span> <span class="pswd_attention-text" id="attention-text_pswd1">Русская раскладка клавиатуры!</span> <span class="pswd_attention-text" id="attention-text_pswd2">У вас включен Caps Lock!</span> <span class="pswd_attention-text" id="attention-text_pswd3">У вас включен Caps Lock и русская раскладка клавиатуры!</span> </span> </div> <div class="rg_for_input input-alien"> <span class="chk noPhones"><input id="chk_alien" name="" type="checkbox" /></span><label for="chk_alien" class="noPhones"> Чужой компьютер</label> <a class="forgot_pass" href="/member/totalrecall">Забыли пароль?</a> </div> <div class="rg_for_input"> <em id="auth_msg" class="reg_error"></em> <input id="lf_typeauthid" value="email" type="hidden"> <input type="submit" class="button button-red logreg_submit" id="js_loginFormBut" value="Войти">  <div class="loading loading-cover" style="display: none;"><div class="loader"></div></div> </div> {#/if} {#if $P.login_register_tab == 2} <div class="rg_for_input"> <span class="rg_text_inner">E-mail</span> <input id="arfemail" class="js_keydown_selector rg_input_text" name="" type="text" data-js_submit="yes" data-js_action="js_regFormBut"/> </div> <div class="rg_for_input rg_set_lineh rg_for_input_wide"> <label class="js_tap_panel_checkbox"> <span class="chk"><input name="" id='js_tap_panel_checkbox_terms' type="checkbox" data-js_submit="yes" /></span> Я ознакомился и согласен с <a class="link_txd logreg_accLink" href="/faq/vereinbarung.html">условиями сервиса Subscribe.ru</a> </label> <br /> <label class="js_tap_panel_checkbox"> <span class="chk"><input name="" id='js_tap_panel_checkbox_personal' type="checkbox" data-js_submit="yes" /></span> Нажимая на кнопку "Готово!", я даю <a class="link_txd logreg_accLink" href="/faq/persverordnung.html">согласие на обработку персональных данных</a> </label> </div> {* <div style="float: left;position: absolute;left: 11em;"> <img src="http://www.kupivip.ru/images/vip/logo.png?1604" style="width: 86px; vertical-align: middle;display: block;"> </div> <div class="rg_for_input rg_set_lineh"> <label class="js_tap_panel_checkbox"><input name="" id="js_tap_panel_checkbox_kupivip" type="checkbox" data-js_submit="yes"> Я хочу получать новости о скидках на одежду</label> </div> *} <div class="rg_for_input"> <em id="reg_msg" class="reg_error rg_for_input_wide"></em> <em id="reg_msg2" class="reg_error rg_for_input_wide"></em> <input id="rf_typeauthid" value="email" type="hidden"> <a class="button button-red logreg_submit" id="js_regFormBut" href="#">Готово!</a> <div class="loading loading-cover" style="display: none;"><div class="loader"></div></div> </div> {#/if} </div> {#/template js_tmpl_auth_reg_action} {#template js_tmpl_auth_reg_agree} <div class="rg_for_input rg_set_lineh rg_for_input_wide"> <label class="js_tap_panel_checkbox"> <span class="chk"><input name="" id='js_tap_panel_checkbox_terms_reg' type="checkbox" data-js_submit="yes" /></span> Я ознакомился и согласен с <a class="link_txd logreg_accLink" href="/faq/vereinbarung.html">условиями сервиса Subscribe.ru</a></label> <em id="reg_msg_soc" class="reg_error rg_for_input_wide"></em> </div> {#/template js_tmpl_auth_reg_agree} {#template js_tmpl_auth_reg_button} <div class="rg_butons_socials"> {#if $P.login_register_tab == 1} <a class="rg_btn_soc rg_bs_01 js_tap_panel_selector" action="auth_email" href="#"><span><i></i>Email</span></a> <a class="rg_btn_soc rg_bs_01 js_tap_panel_selector" action="auth_openid" href="#"><span><i></i>OpenID</span></a> <a class="rg_btn_soc rg_bs_02 js_tap_panel_selector" action="auth_vkontakte" href="#"><span><i></i>Вконтакте</span></a> <a class="rg_btn_soc rg_bs_02 js_tap_panel_selector" action="auth_mailru" href="#"><span><i></i>Mail.Ru</span></a> {#/if} {#if $P.login_register_tab == 2} <a class="rg_btn_soc rg_bs_01 js_tap_panel_selector" action="reg_email" href="#"><span><i></i>Email</span></a> <a class="rg_btn_soc rg_bs_01 js_tap_panel_selector" action="reg_openid" href="#"><span><i></i>OpenID</span></a> <a class="rg_btn_soc rg_bs_02 js_tap_panel_selector" action="reg_vkontakte" href="#"><span><i></i>Вконтакте</span></a> <a class="rg_btn_soc rg_bs_02 js_tap_panel_selector" action="reg_mailru" href="#"><span><i></i>Mail.Ru</span></a> {#/if} </div> {#/template js_tmpl_auth_reg_button} {#template js_tmpl_auth_reg_descr} {#if $P.login_register_tab == 1} Для оформления подписки на выбранную рассылку, работы с интересующей вас группой или доступа в нужный вам раздел, просим авторизоваться на Subscribe.ru {#/if} {#if $P.login_register_tab == 2} Для регистрации укажите ваш e-mail адрес. Адрес должен быть действующим, на него сразу после регистрации будет отправлено письмо с инструкциями и кодом подтверждения. {#/if} {#/template js_tmpl_auth_reg_descr} {#template js_tmpl_soc_auth_reg_descr} Или зарегистрируйтесь через социальную сеть. {#/template js_tmpl_soc_auth_reg_descr} {#template js_tmpl_auth_reg_soc} <div class="rg_soc"> {#if $P.login_register_tab == 1} <a onclick="return _checkSocConfirm(event)" href="https://oauth.vk.com/authorize?client_id=3954260&scope=wall,offline,photos,groups,video,audio,email&redirect_uri={location.protocol+'//'+location.host}/member/login/vk/&response_type=code&v=5.15" class="login_register_vk_button"> <span class="login_register_vk_icon"></span> </a> {#/if} {#if $P.login_register_tab == 2} <a onclick="return _checkSocConfirm(event)" href="https://oauth.vk.com/authorize?client_id=3954260&scope=wall,offline,photos,groups,video,audio,email&redirect_uri={location.protocol+'//'+location.host}/member/join/vk&response_type=code&v=5.15" class="login_register_vk_button"> <span class="login_register_vk_icon"></span> </a> {#/if} </div> {#/template js_tmpl_auth_reg_soc}

{#template MAIN} <div id="loginForm" style="display:none;" class="subscriberu_popup"> <div class="popup_register"> {#include js_tmpl_auth_reg_tab} <dl class="rg_block_options"> <dt id="js_tap_panel_auth"> <p class="rg_description">{#include js_tmpl_auth_reg_descr}</p> <div class="clr"> </div> {#include js_tmpl_auth_reg_action} <div class="clr"> </div> </dt> </dl> </div>  </div> {#/template MAIN} {#template js_tmpl_auth_reg_tab} <ul class="rg_nav"> <li id="js_tab_reg" class="rg_active_nav rg_first_nav"><a href="" onclick="return false;" >Регистрация</a></li> </ul> <span onclick="hidebo();" class="rg_closed"> </span> {#/template js_tmpl_auth_reg_tab} {#template js_tmpl_auth_reg_descr} <strong>Пожалуйста, подтвердите ваш адрес.</strong><br><br>Вам отправлено письмо для подтверждения вашего адреса {$P.register_confirm_mail}.<br>Для подтверждения адреса перейдите по ссылке из этого письма. {#/template js_tmpl_auth_reg_descr} {#template js_tmpl_auth_reg_action} <div class="rg_forms confirm_code_from_letter"> <div class="rg_for_input"> <span class="rg_inp_descr" style="width:15em;">Или введите код из письма:</span> <input type="text" value="" id="confirm_code" name="" data-js_submit="yes" data-js_action="js_confirmFormBut" class="js_keydown_selector rg_input_text_conf" > </div> <div class="rg_for_input"><label>Не пришло письмо? <b>Пожалуйста, проверьте папку Спам</b><br /> (папку для нежелательной почты).</label><br /> <a href="" onclick="ajax_recall_code();return false" >Вышлите мне письмо еще раз!</a></div> <div class="rg_for_input"> <em class="reg_error" id="confirm_msg"></em> <a href="#" class="button button-red" id="js_confirmFormBut">Готово</a> <div class="loading loading-cover" style="display: none;"><div class="loader"></div></div> <br> </div> </div> {#/template js_tmpl_auth_reg_action}