(no subject)
Jun. 13th, 2007 11:02 pmЦелых несколько добрых людей вызывались помочь мне с проектом.
Профессор наш - парень хороший, но совершенно не понимает ни уровня нашей подготовленности, ни того простого факта, что он, вообще-то, должен быть доступен для консультаций. А он на конференции, всю неделю. На просьбу встретиться в прошедший понедельник сообщил, что вернется к концу недели и предложил встретиться "в следующий понедельник", то есть ...в день презентации проектов.
Здесь кончаю ныть и рассказываю про проект.
У меня есть официальные данные о зарплатах и количестве работников, по профессиям, по штатам, и по годам (1998-2006). Правда, упакованы они весьма неудобно: каждый год - отдельный огромный файл, в котором строк = кол-во профессий х кол-во штатов. Перепаковывать вручную долго получится, я не особый спец по Excel, хотя может, перегоню в базу данных, хотя бы в Access, и там сделаю select-ы.
Но проблема не в этом, а в том, что я не понимаю, что из этих данных можно сделать.
Меня интересует рынок программистского труда. Несколько разных профессий в их списке. Есть несколько гипотез из статей, которые я бы с удовольствием проверила. Например:
1. Концентрация компьютерных работ в разных штатах выравнивается - в захолустье становится больше, в магаполисах - меньше. Это видно, если просто смотреть на данные, а требование проекта регрессии какие-нибудь погонять.
2. По мере того, как дешевые IT-работники дешевеют (за счет outsourcing-a в менее дорогие штаты и Индию), спрос на дорогих - растет. Тут бы классно какой-нибудь production function изобразить, скажем, s/w продукт как функция количества работников подороже и количества работников подешевле. Ну и обнаружить, что когда дешевые дешевеют, допустим, вдвое, оптимальная точка сдвигается в такое место, где дешевого труда нужно условно в 1.3 раза больше, зато дорогого тоже нужно больше, чем раньше. И тогда, аутсорся в Индию support, мы повышаем спрос на крутых и высокооплачиваемых в Америке.
По большому счету, любая модель мне сгодится. Главное - прогнать хоть какую-нибудь регрессию и получить объяснимый результат. Но я совершенно не понимаю, что можно выжать из этих данных, которые еще сначала надо выковырять из разных файлов, так что хочется сначала четко понять, что и зачем, а уже потом выковыривать.
Можно по годам пытаться искать тенденцию - тогда надо что-то делать с time series, а в некоторые годы - два набора данных, за май и за ноябрь, непонятно, можно ли использовать ноябрьские данные, если они есть не за все годы. И вообще, лет-то всего семь, слабенькая для статистики выборка.
Или, наверное, можно пробовать искать зависимость количества работников от зарплаты. Или зарплаты от количества? Допустим, я это сделаю для двух профессий - высокооплачиваемой и низкооплачиваемой. Получу якобы две кривых спроса на труд. И? Тоже причем данные за разные годы, но это мелочи, главное - непонятно, что дальше с этими спросами на труд, кому они нужны.
В общем, я в полной растерянности, время идет, яснее не становится, спросить не у кого.
Профессор наш - парень хороший, но совершенно не понимает ни уровня нашей подготовленности, ни того простого факта, что он, вообще-то, должен быть доступен для консультаций. А он на конференции, всю неделю. На просьбу встретиться в прошедший понедельник сообщил, что вернется к концу недели и предложил встретиться "в следующий понедельник", то есть ...в день презентации проектов.
Здесь кончаю ныть и рассказываю про проект.
У меня есть официальные данные о зарплатах и количестве работников, по профессиям, по штатам, и по годам (1998-2006). Правда, упакованы они весьма неудобно: каждый год - отдельный огромный файл, в котором строк = кол-во профессий х кол-во штатов. Перепаковывать вручную долго получится, я не особый спец по Excel, хотя может, перегоню в базу данных, хотя бы в Access, и там сделаю select-ы.
Но проблема не в этом, а в том, что я не понимаю, что из этих данных можно сделать.
Меня интересует рынок программистского труда. Несколько разных профессий в их списке. Есть несколько гипотез из статей, которые я бы с удовольствием проверила. Например:
1. Концентрация компьютерных работ в разных штатах выравнивается - в захолустье становится больше, в магаполисах - меньше. Это видно, если просто смотреть на данные, а требование проекта регрессии какие-нибудь погонять.
2. По мере того, как дешевые IT-работники дешевеют (за счет outsourcing-a в менее дорогие штаты и Индию), спрос на дорогих - растет. Тут бы классно какой-нибудь production function изобразить, скажем, s/w продукт как функция количества работников подороже и количества работников подешевле. Ну и обнаружить, что когда дешевые дешевеют, допустим, вдвое, оптимальная точка сдвигается в такое место, где дешевого труда нужно условно в 1.3 раза больше, зато дорогого тоже нужно больше, чем раньше. И тогда, аутсорся в Индию support, мы повышаем спрос на крутых и высокооплачиваемых в Америке.
По большому счету, любая модель мне сгодится. Главное - прогнать хоть какую-нибудь регрессию и получить объяснимый результат. Но я совершенно не понимаю, что можно выжать из этих данных, которые еще сначала надо выковырять из разных файлов, так что хочется сначала четко понять, что и зачем, а уже потом выковыривать.
Можно по годам пытаться искать тенденцию - тогда надо что-то делать с time series, а в некоторые годы - два набора данных, за май и за ноябрь, непонятно, можно ли использовать ноябрьские данные, если они есть не за все годы. И вообще, лет-то всего семь, слабенькая для статистики выборка.
Или, наверное, можно пробовать искать зависимость количества работников от зарплаты. Или зарплаты от количества? Допустим, я это сделаю для двух профессий - высокооплачиваемой и низкооплачиваемой. Получу якобы две кривых спроса на труд. И? Тоже причем данные за разные годы, но это мелочи, главное - непонятно, что дальше с этими спросами на труд, кому они нужны.
В общем, я в полной растерянности, время идет, яснее не становится, спросить не у кого.
no subject
Date: 2007-06-14 04:59 am (UTC)Я бы наверное попробовала первую гипотезу (мне кажется это проще): создать какой то средний индекс компьютерных работ (может быть даже два-для крупных городов и областей), и посмотреть на отношение этого индекса с годами, штатами, и ещё какими то данными которые ты сможешь найти.
no subject
Date: 2007-06-14 06:09 am (UTC)no subject
Date: 2007-06-14 09:28 am (UTC)Чем Эксель хорош, что в нём есть Data Analysis Toolpak, в котором туева хуча статистических функций.
no subject
Date: 2007-06-14 01:06 pm (UTC)foreach y in 82 83 84 85 86 {
sort state tcity county newsp
merge state tcity county newsp using "*.dta", unique _merge(_merge`y')
tab _merge`y'
}
reshape long переменные, которые тебе нужны, i(state county tcity newsp) j(year)
Если что, обращайся.
По смыслу, для labor dependent variable должна быть log (wage). А что у тебя есть, кроме зарплат? Если ничего, то можно смотреть как зарплата в IT зависит от зарплаты в других секторах. Ну и, скажем, state fixed effects. Ну, или от количества сотрудников в других секторах. Вдруг, чем меньше уборщиц, тем меньше зарплата сотрудников IT (они же могут создавать негативную экстерналию). Если есть еще чего кроме зарплат, то можно смотреть, в зависимости от наличия данных, как это влияет на wage. Ну, я плохо знаю labor, какие там вопросы можно задавать, не очень знаю. Спрос на труд, как и любой спрос, оценивать не очень рекомендую, тк наблюдаешь ты равновесие (пересечение спроса и предложения), и если ты оцениваешь одно без другого, получается bias.
Ну, вобщем, если что, обращайся, по интересным вопросам я тебе вряд ли помогу, а со статой и методологией - может, и подскажу чего :-)
no subject
Date: 2007-06-14 01:08 pm (UTC)no subject
Date: 2007-06-14 02:21 pm (UTC)Во-первых, я бы охотно оценила и предложение тоже, только как его оценишь? Bias совершенно неизбежен, я могу с ходу назвать десяток разных влияющих факторов, по которым у меня никаких данных нет. Что меня, собственно, и смущает - не понмаю, какие вообще можно делать выводы, анализируя всего несколько самых простых переменных. Попробовала просто количество занятых в отрасли со средней зарплатой по отрасли - получилась аккуратная прямая линия, только знаменитый 2000 год пришлось выкинуть как outlier.
no subject
Date: 2007-06-14 02:25 pm (UTC)И еще как-то неудобно, что за некоторые годы у меня по два набора данных - май и ноябрь, а за некоторые - один, и, наверное, нельзя их вместе использовать, но почему именно, мне не очень понятно.
no subject
Date: 2007-06-14 02:37 pm (UTC)Проблему с двумя наборами данных, кажется, это тоже решает, только надо понять, по чему кластерить. Но чище и проще, если просто одинаковые данные брать (например, только за май), у тебя ж данных много, нет проблемы с их количеством.
На serial correlation я бы вообще забила и использовала методы работы с панельными данными, тем более, что у тебя панель не длинная, как я поняла. Ну, хорошо бы, скажем, вставить year fixed effects, чтобы на это как то проконтролировать, должно быть достаточно.
Как бороться с omitted variable bias? Опять таки, если много данных, то fixed effects. Ну, я их люблю, на самом деле, каюсь :-) Есть другие более продвинутые методы, но там не на курсовую можно накропать, а на статью, если разбираться. Я думаю, что вам это не надо. Я думаю, что для цели курсовой будет лучше, если ты скажешь, что вот у меня нет таких и таких переменных, поэтому скорее всего у меня есть такой то и такой то bias. Будет хорошо, такое любят, хуже, если ты утверждаешь, что у тебя вообще bias'а нет.
no subject
Date: 2007-06-14 02:56 pm (UTC)no subject
Date: 2007-06-14 03:06 pm (UTC)Можно дополнительные данные брать, только там аккуратно надо структуру стандартных ошибок прописывать. Я не очень знаю, как это сделать, ну кластеринг точно, а что еще. Точно взвешивать надо: иначе у тебя годы, в которые два раза, будут непропорционально много представленны в итоговой выборке.
no subject
Date: 2007-06-14 04:02 pm (UTC)Кластерить не хочу ничего. Хочу регрессию тупенькую запустить и все. Мы типа больше ничего не проходили на этом курсе :) У меня сейчас задача - избавиться от курса. Если я решу делать из этого что-то более серьезное (желание есть, науч.рук. поддержала), то просто найду нормального экономиста в соавторы для серьезной модели.
no subject
Date: 2007-06-14 06:07 pm (UTC)1. goda (1-9)This is a whinin subject factor
2. geographic location (you can combine it into three levels: east coast, west coast, midwest. then, you'll have only three groups to look at, and you don't expect idaho and ohio much differ from each other in terms of salaries, but California and East Coast, will probably differ. This is a between-subject factor).
3. position/profession. i don't know, how many you have, you can probably combine some of them together. it's a between subject factor.
so, this is your design.
now, analyses:
a) Data coding: in SPSS-each within subject factor, sp take column A, call it "year_one" and just list all the scores (salaries) there. same for years
2-9.
b). then, column 10, becomes your "geographic location column". in that column you inser "1" for all the salaries that are coming from east coast, "2" for west coast", "3" for midwest. you'll have a bunch of 1-2-3s in the same column.
c). then, column 11 becomes your "profession" column. "1" becomes marketing director, "2" becomes financial analyst. if you N is high, you can have lots of professsions, if your N is low, collaps across the similar ones (ones with similar set of skills/salaries) to increase your Ns in each cell.
d. Then go to you toolbar, select "analyse", select "repeated measures".
call you "repeated measure" factor "Years" or "TIme" or something, then say that it has 9 levels. In the next window drag your variables for years 1-9 into the "within subject" box. then drag your two between subject factors (location and position) into your "Between subject factors" box.
also ask for Descriptives.
this way, you'll see whether TIme, Geography, Positisions (or their interactions) have any effect on salaries. If something doesn't have an effect, you can forget about it (collaps across this factor) for future analyses, if something has an effect, you are going to look at it closer in your future analyses. that's about all :)
no subject
Date: 2007-06-14 06:13 pm (UTC)no subject
Date: 2007-06-14 07:33 pm (UTC)no subject
Date: 2007-06-15 01:44 am (UTC)Может, ты знаешь, почему SPSS вдруг стал рисовать ровненькие графики не в масштабе, и как ему объяснить, чтобы перестал?
Я имею в виду вот что: рисую график, например, зарплата по годам. По оси Х идут годы, через равные промежутки. По оси Y SPSS тоже рисует равные промежутки, и пишет на них зарплаты. Например, между 10К, 15К, 27К и 34К у него одинаковые расстояния! График красивый такой получается, симметричный, но совершенно неправильный. Блин. Только этого мне не хватало :(
no subject
Date: 2007-06-15 11:15 am (UTC)no subject
Date: 2007-06-16 06:48 pm (UTC)no subject
Date: 2007-06-16 07:21 pm (UTC)no subject
Date: 2007-06-16 07:19 pm (UTC)