gingema: (Default)
[personal profile] gingema
Целых несколько добрых людей вызывались помочь мне с проектом.


Профессор наш - парень хороший, но совершенно не понимает ни уровня нашей подготовленности, ни того простого факта, что он, вообще-то, должен быть доступен для консультаций. А он на конференции, всю неделю. На просьбу встретиться в прошедший понедельник сообщил, что вернется к концу недели и предложил встретиться "в следующий понедельник", то есть ...в день презентации проектов.
Здесь кончаю ныть и рассказываю про проект.

У меня есть официальные данные о зарплатах и количестве работников, по профессиям, по штатам, и по годам (1998-2006). Правда, упакованы они весьма неудобно: каждый год - отдельный огромный файл, в котором строк = кол-во профессий х кол-во штатов. Перепаковывать вручную долго получится, я не особый спец по Excel, хотя может, перегоню в базу данных, хотя бы в Access, и там сделаю select-ы.
Но проблема не в этом, а в том, что я не понимаю, что из этих данных можно сделать.
Меня интересует рынок программистского труда. Несколько разных профессий в их списке. Есть несколько гипотез из статей, которые я бы с удовольствием проверила. Например:
1. Концентрация компьютерных работ в разных штатах выравнивается - в захолустье становится больше, в магаполисах - меньше. Это видно, если просто смотреть на данные, а требование проекта регрессии какие-нибудь погонять.
2. По мере того, как дешевые IT-работники дешевеют (за счет outsourcing-a в менее дорогие штаты и Индию), спрос на дорогих - растет. Тут бы классно какой-нибудь production function изобразить, скажем, s/w продукт как функция количества работников подороже и количества работников подешевле. Ну и обнаружить, что когда дешевые дешевеют, допустим, вдвое, оптимальная точка сдвигается в такое место, где дешевого труда нужно условно в 1.3 раза больше, зато дорогого тоже нужно больше, чем раньше. И тогда, аутсорся в Индию support, мы повышаем спрос на крутых и высокооплачиваемых в Америке.

По большому счету, любая модель мне сгодится. Главное - прогнать хоть какую-нибудь регрессию и получить объяснимый результат. Но я совершенно не понимаю, что можно выжать из этих данных, которые еще сначала надо выковырять из разных файлов, так что хочется сначала четко понять, что и зачем, а уже потом выковыривать.
Можно по годам пытаться искать тенденцию - тогда надо что-то делать с time series, а в некоторые годы - два набора данных, за май и за ноябрь, непонятно, можно ли использовать ноябрьские данные, если они есть не за все годы. И вообще, лет-то всего семь, слабенькая для статистики выборка.
Или, наверное, можно пробовать искать зависимость количества работников от зарплаты. Или зарплаты от количества? Допустим, я это сделаю для двух профессий - высокооплачиваемой и низкооплачиваемой. Получу якобы две кривых спроса на труд. И? Тоже причем данные за разные годы, но это мелочи, главное - непонятно, что дальше с этими спросами на труд, кому они нужны.

В общем, я в полной растерянности, время идет, яснее не становится, спросить не у кого.

Date: 2007-06-14 04:59 am (UTC)
From: [identity profile] nat-sd.livejournal.com
Я честно говоря сразу про time series подумала, но дочитала и увидела что ты уже это учла.
Я бы наверное попробовала первую гипотезу (мне кажется это проще): создать какой то средний индекс компьютерных работ (может быть даже два-для крупных городов и областей), и посмотреть на отношение этого индекса с годами, штатами, и ещё какими то данными которые ты сможешь найти.

Date: 2007-06-14 06:09 am (UTC)
From: [identity profile] pashar.livejournal.com
Необязательно перегонять в Access. В Excel есть неплохие возможности для фильтров — вряд ли тебе понадобится что-то более серьезное. Насчет production functions — в этом я мало чего понимаю.

Date: 2007-06-14 09:28 am (UTC)
From: [identity profile] syarzhuk.livejournal.com
В старом Экселе было ограничение на 65535 строчек в одной таблице (в новом то ли пропало, то ли сильно увеличилось вверх)
Чем Эксель хорош, что в нём есть Data Analysis Toolpak, в котором туева хуча статистических функций.

Date: 2007-06-14 01:06 pm (UTC)
From: [identity profile] petrova-ma.livejournal.com
такие данные надо мерджить в стате и потом стирать все лишнее. Как мерджить? Сначала перегнать в статовский формат программой с названием stata transfer, получится несколько статовских файлов, потом стереть лишнее, а потом сделать merge. Чтобы привести все в формат "то, что надо"-год-штат, надо еще перед тем, как делать merge, в каждом году приписать "год" в конце названия переменной. А потом сделать примерно так (из моей программы):
foreach y in 82 83 84 85 86 {
sort state tcity county newsp
merge state tcity county newsp using "*.dta", unique _merge(_merge`y')
tab _merge`y'
}
reshape long переменные, которые тебе нужны, i(state county tcity newsp) j(year)
Если что, обращайся.
По смыслу, для labor dependent variable должна быть log (wage). А что у тебя есть, кроме зарплат? Если ничего, то можно смотреть как зарплата в IT зависит от зарплаты в других секторах. Ну и, скажем, state fixed effects. Ну, или от количества сотрудников в других секторах. Вдруг, чем меньше уборщиц, тем меньше зарплата сотрудников IT (они же могут создавать негативную экстерналию). Если есть еще чего кроме зарплат, то можно смотреть, в зависимости от наличия данных, как это влияет на wage. Ну, я плохо знаю labor, какие там вопросы можно задавать, не очень знаю. Спрос на труд, как и любой спрос, оценивать не очень рекомендую, тк наблюдаешь ты равновесие (пересечение спроса и предложения), и если ты оцениваешь одно без другого, получается bias.
Ну, вобщем, если что, обращайся, по интересным вопросам я тебе вряд ли помогу, а со статой и методологией - может, и подскажу чего :-)

Date: 2007-06-14 01:08 pm (UTC)
From: [identity profile] petrova-ma.livejournal.com
PS стирать лишнее в стате очень просто, говоришь drop список переменных if условие. Или keep список переменных if условие, в зависимости от того, что проще.

Date: 2007-06-14 02:37 pm (UTC)
From: [identity profile] petrova-ma.livejournal.com
(1) Если у тебя есть подозрение, что нет независимости, надо кластерить стандартные ошибки (clustered standard errors, option cluster() in Stata) внутри группы того уровня, где ты думаешь есть зависимость. Например, по штату. Или по штату-отрасли.
Проблему с двумя наборами данных, кажется, это тоже решает, только надо понять, по чему кластерить. Но чище и проще, если просто одинаковые данные брать (например, только за май), у тебя ж данных много, нет проблемы с их количеством.
На serial correlation я бы вообще забила и использовала методы работы с панельными данными, тем более, что у тебя панель не длинная, как я поняла. Ну, хорошо бы, скажем, вставить year fixed effects, чтобы на это как то проконтролировать, должно быть достаточно.
Как бороться с omitted variable bias? Опять таки, если много данных, то fixed effects. Ну, я их люблю, на самом деле, каюсь :-) Есть другие более продвинутые методы, но там не на курсовую можно накропать, а на статью, если разбираться. Я думаю, что вам это не надо. Я думаю, что для цели курсовой будет лучше, если ты скажешь, что вот у меня нет таких и таких переменных, поэтому скорее всего у меня есть такой то и такой то bias. Будет хорошо, такое любят, хуже, если ты утверждаешь, что у тебя вообще bias'а нет.

Date: 2007-06-14 03:06 pm (UTC)
From: [identity profile] petrova-ma.livejournal.com
по годам у тебя целых 9 лет (считая 98 и 06), нормально. У меня вот в главной статье 6 лет (а у многих вообще 2-3 года). То, что классификации меняются, это measurement error, если это нескоррелировано с твоей гипотезой, то это не плохо (это означает, что у тебя правильные коэффициенты, но большие стандартные ошибки, если у тебя при этом все равно есть значимость, то все тип топ).
Можно дополнительные данные брать, только там аккуратно надо структуру стандартных ошибок прописывать. Я не очень знаю, как это сделать, ну кластеринг точно, а что еще. Точно взвешивать надо: иначе у тебя годы, в которые два раза, будут непропорционально много представленны в итоговой выборке.

Date: 2007-06-14 06:07 pm (UTC)
From: [identity profile] uzheletta.livejournal.com
Sonya, u tebya tri faktora
1. goda (1-9)This is a whinin subject factor
2. geographic location (you can combine it into three levels: east coast, west coast, midwest. then, you'll have only three groups to look at, and you don't expect idaho and ohio much differ from each other in terms of salaries, but California and East Coast, will probably differ. This is a between-subject factor).
3. position/profession. i don't know, how many you have, you can probably combine some of them together. it's a between subject factor.

so, this is your design.

now, analyses:

a) Data coding: in SPSS-each within subject factor, sp take column A, call it "year_one" and just list all the scores (salaries) there. same for years
2-9.

b). then, column 10, becomes your "geographic location column". in that column you inser "1" for all the salaries that are coming from east coast, "2" for west coast", "3" for midwest. you'll have a bunch of 1-2-3s in the same column.

c). then, column 11 becomes your "profession" column. "1" becomes marketing director, "2" becomes financial analyst. if you N is high, you can have lots of professsions, if your N is low, collaps across the similar ones (ones with similar set of skills/salaries) to increase your Ns in each cell.

d. Then go to you toolbar, select "analyse", select "repeated measures".
call you "repeated measure" factor "Years" or "TIme" or something, then say that it has 9 levels. In the next window drag your variables for years 1-9 into the "within subject" box. then drag your two between subject factors (location and position) into your "Between subject factors" box.
also ask for Descriptives.

this way, you'll see whether TIme, Geography, Positisions (or their interactions) have any effect on salaries. If something doesn't have an effect, you can forget about it (collaps across this factor) for future analyses, if something has an effect, you are going to look at it closer in your future analyses. that's about all :)

Date: 2007-06-14 07:33 pm (UTC)
From: [identity profile] michk.livejournal.com
Не знаю, поможет ли это, но в качестве программных средств рекомендую SPSS и матлаб. Хотя ты наверняка про них знаешь.

Date: 2007-06-15 11:15 am (UTC)
From: [identity profile] michk.livejournal.com
Извини, но по SPSS я не спец - с ним работала моя бывшая шефиня. Вот если надо по матлабу помочь - это ко мне. Можешь, например, прислать мне набор данных, и я тебе пришлю график.

Date: 2007-06-16 07:21 pm (UTC)
From: [identity profile] michk.livejournal.com
Excel совсем плохо знаю.

Profile

gingema: (Default)
gingema

October 2023

S M T W T F S
1234567
89 1011121314
15161718192021
22232425262728
293031    

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Jan. 2nd, 2026 11:30 am
Powered by Dreamwidth Studios