gingema: (Default)
[personal profile] gingema
Целых несколько добрых людей вызывались помочь мне с проектом.


Профессор наш - парень хороший, но совершенно не понимает ни уровня нашей подготовленности, ни того простого факта, что он, вообще-то, должен быть доступен для консультаций. А он на конференции, всю неделю. На просьбу встретиться в прошедший понедельник сообщил, что вернется к концу недели и предложил встретиться "в следующий понедельник", то есть ...в день презентации проектов.
Здесь кончаю ныть и рассказываю про проект.

У меня есть официальные данные о зарплатах и количестве работников, по профессиям, по штатам, и по годам (1998-2006). Правда, упакованы они весьма неудобно: каждый год - отдельный огромный файл, в котором строк = кол-во профессий х кол-во штатов. Перепаковывать вручную долго получится, я не особый спец по Excel, хотя может, перегоню в базу данных, хотя бы в Access, и там сделаю select-ы.
Но проблема не в этом, а в том, что я не понимаю, что из этих данных можно сделать.
Меня интересует рынок программистского труда. Несколько разных профессий в их списке. Есть несколько гипотез из статей, которые я бы с удовольствием проверила. Например:
1. Концентрация компьютерных работ в разных штатах выравнивается - в захолустье становится больше, в магаполисах - меньше. Это видно, если просто смотреть на данные, а требование проекта регрессии какие-нибудь погонять.
2. По мере того, как дешевые IT-работники дешевеют (за счет outsourcing-a в менее дорогие штаты и Индию), спрос на дорогих - растет. Тут бы классно какой-нибудь production function изобразить, скажем, s/w продукт как функция количества работников подороже и количества работников подешевле. Ну и обнаружить, что когда дешевые дешевеют, допустим, вдвое, оптимальная точка сдвигается в такое место, где дешевого труда нужно условно в 1.3 раза больше, зато дорогого тоже нужно больше, чем раньше. И тогда, аутсорся в Индию support, мы повышаем спрос на крутых и высокооплачиваемых в Америке.

По большому счету, любая модель мне сгодится. Главное - прогнать хоть какую-нибудь регрессию и получить объяснимый результат. Но я совершенно не понимаю, что можно выжать из этих данных, которые еще сначала надо выковырять из разных файлов, так что хочется сначала четко понять, что и зачем, а уже потом выковыривать.
Можно по годам пытаться искать тенденцию - тогда надо что-то делать с time series, а в некоторые годы - два набора данных, за май и за ноябрь, непонятно, можно ли использовать ноябрьские данные, если они есть не за все годы. И вообще, лет-то всего семь, слабенькая для статистики выборка.
Или, наверное, можно пробовать искать зависимость количества работников от зарплаты. Или зарплаты от количества? Допустим, я это сделаю для двух профессий - высокооплачиваемой и низкооплачиваемой. Получу якобы две кривых спроса на труд. И? Тоже причем данные за разные годы, но это мелочи, главное - непонятно, что дальше с этими спросами на труд, кому они нужны.

В общем, я в полной растерянности, время идет, яснее не становится, спросить не у кого.

Date: 2007-06-14 01:06 pm (UTC)
From: [identity profile] petrova-ma.livejournal.com
такие данные надо мерджить в стате и потом стирать все лишнее. Как мерджить? Сначала перегнать в статовский формат программой с названием stata transfer, получится несколько статовских файлов, потом стереть лишнее, а потом сделать merge. Чтобы привести все в формат "то, что надо"-год-штат, надо еще перед тем, как делать merge, в каждом году приписать "год" в конце названия переменной. А потом сделать примерно так (из моей программы):
foreach y in 82 83 84 85 86 {
sort state tcity county newsp
merge state tcity county newsp using "*.dta", unique _merge(_merge`y')
tab _merge`y'
}
reshape long переменные, которые тебе нужны, i(state county tcity newsp) j(year)
Если что, обращайся.
По смыслу, для labor dependent variable должна быть log (wage). А что у тебя есть, кроме зарплат? Если ничего, то можно смотреть как зарплата в IT зависит от зарплаты в других секторах. Ну и, скажем, state fixed effects. Ну, или от количества сотрудников в других секторах. Вдруг, чем меньше уборщиц, тем меньше зарплата сотрудников IT (они же могут создавать негативную экстерналию). Если есть еще чего кроме зарплат, то можно смотреть, в зависимости от наличия данных, как это влияет на wage. Ну, я плохо знаю labor, какие там вопросы можно задавать, не очень знаю. Спрос на труд, как и любой спрос, оценивать не очень рекомендую, тк наблюдаешь ты равновесие (пересечение спроса и предложения), и если ты оцениваешь одно без другого, получается bias.
Ну, вобщем, если что, обращайся, по интересным вопросам я тебе вряд ли помогу, а со статой и методологией - может, и подскажу чего :-)

Date: 2007-06-14 01:08 pm (UTC)
From: [identity profile] petrova-ma.livejournal.com
PS стирать лишнее в стате очень просто, говоришь drop список переменных if условие. Или keep список переменных if условие, в зависимости от того, что проще.

Date: 2007-06-14 02:37 pm (UTC)
From: [identity profile] petrova-ma.livejournal.com
(1) Если у тебя есть подозрение, что нет независимости, надо кластерить стандартные ошибки (clustered standard errors, option cluster() in Stata) внутри группы того уровня, где ты думаешь есть зависимость. Например, по штату. Или по штату-отрасли.
Проблему с двумя наборами данных, кажется, это тоже решает, только надо понять, по чему кластерить. Но чище и проще, если просто одинаковые данные брать (например, только за май), у тебя ж данных много, нет проблемы с их количеством.
На serial correlation я бы вообще забила и использовала методы работы с панельными данными, тем более, что у тебя панель не длинная, как я поняла. Ну, хорошо бы, скажем, вставить year fixed effects, чтобы на это как то проконтролировать, должно быть достаточно.
Как бороться с omitted variable bias? Опять таки, если много данных, то fixed effects. Ну, я их люблю, на самом деле, каюсь :-) Есть другие более продвинутые методы, но там не на курсовую можно накропать, а на статью, если разбираться. Я думаю, что вам это не надо. Я думаю, что для цели курсовой будет лучше, если ты скажешь, что вот у меня нет таких и таких переменных, поэтому скорее всего у меня есть такой то и такой то bias. Будет хорошо, такое любят, хуже, если ты утверждаешь, что у тебя вообще bias'а нет.

Date: 2007-06-14 03:06 pm (UTC)
From: [identity profile] petrova-ma.livejournal.com
по годам у тебя целых 9 лет (считая 98 и 06), нормально. У меня вот в главной статье 6 лет (а у многих вообще 2-3 года). То, что классификации меняются, это measurement error, если это нескоррелировано с твоей гипотезой, то это не плохо (это означает, что у тебя правильные коэффициенты, но большие стандартные ошибки, если у тебя при этом все равно есть значимость, то все тип топ).
Можно дополнительные данные брать, только там аккуратно надо структуру стандартных ошибок прописывать. Я не очень знаю, как это сделать, ну кластеринг точно, а что еще. Точно взвешивать надо: иначе у тебя годы, в которые два раза, будут непропорционально много представленны в итоговой выборке.

Profile

gingema: (Default)
gingema

October 2023

S M T W T F S
1234567
89 1011121314
15161718192021
22232425262728
293031    

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Jan. 2nd, 2026 03:30 pm
Powered by Dreamwidth Studios