(no subject)
Jun. 13th, 2007 11:02 pmЦелых несколько добрых людей вызывались помочь мне с проектом.
Профессор наш - парень хороший, но совершенно не понимает ни уровня нашей подготовленности, ни того простого факта, что он, вообще-то, должен быть доступен для консультаций. А он на конференции, всю неделю. На просьбу встретиться в прошедший понедельник сообщил, что вернется к концу недели и предложил встретиться "в следующий понедельник", то есть ...в день презентации проектов.
Здесь кончаю ныть и рассказываю про проект.
У меня есть официальные данные о зарплатах и количестве работников, по профессиям, по штатам, и по годам (1998-2006). Правда, упакованы они весьма неудобно: каждый год - отдельный огромный файл, в котором строк = кол-во профессий х кол-во штатов. Перепаковывать вручную долго получится, я не особый спец по Excel, хотя может, перегоню в базу данных, хотя бы в Access, и там сделаю select-ы.
Но проблема не в этом, а в том, что я не понимаю, что из этих данных можно сделать.
Меня интересует рынок программистского труда. Несколько разных профессий в их списке. Есть несколько гипотез из статей, которые я бы с удовольствием проверила. Например:
1. Концентрация компьютерных работ в разных штатах выравнивается - в захолустье становится больше, в магаполисах - меньше. Это видно, если просто смотреть на данные, а требование проекта регрессии какие-нибудь погонять.
2. По мере того, как дешевые IT-работники дешевеют (за счет outsourcing-a в менее дорогие штаты и Индию), спрос на дорогих - растет. Тут бы классно какой-нибудь production function изобразить, скажем, s/w продукт как функция количества работников подороже и количества работников подешевле. Ну и обнаружить, что когда дешевые дешевеют, допустим, вдвое, оптимальная точка сдвигается в такое место, где дешевого труда нужно условно в 1.3 раза больше, зато дорогого тоже нужно больше, чем раньше. И тогда, аутсорся в Индию support, мы повышаем спрос на крутых и высокооплачиваемых в Америке.
По большому счету, любая модель мне сгодится. Главное - прогнать хоть какую-нибудь регрессию и получить объяснимый результат. Но я совершенно не понимаю, что можно выжать из этих данных, которые еще сначала надо выковырять из разных файлов, так что хочется сначала четко понять, что и зачем, а уже потом выковыривать.
Можно по годам пытаться искать тенденцию - тогда надо что-то делать с time series, а в некоторые годы - два набора данных, за май и за ноябрь, непонятно, можно ли использовать ноябрьские данные, если они есть не за все годы. И вообще, лет-то всего семь, слабенькая для статистики выборка.
Или, наверное, можно пробовать искать зависимость количества работников от зарплаты. Или зарплаты от количества? Допустим, я это сделаю для двух профессий - высокооплачиваемой и низкооплачиваемой. Получу якобы две кривых спроса на труд. И? Тоже причем данные за разные годы, но это мелочи, главное - непонятно, что дальше с этими спросами на труд, кому они нужны.
В общем, я в полной растерянности, время идет, яснее не становится, спросить не у кого.
Профессор наш - парень хороший, но совершенно не понимает ни уровня нашей подготовленности, ни того простого факта, что он, вообще-то, должен быть доступен для консультаций. А он на конференции, всю неделю. На просьбу встретиться в прошедший понедельник сообщил, что вернется к концу недели и предложил встретиться "в следующий понедельник", то есть ...в день презентации проектов.
Здесь кончаю ныть и рассказываю про проект.
У меня есть официальные данные о зарплатах и количестве работников, по профессиям, по штатам, и по годам (1998-2006). Правда, упакованы они весьма неудобно: каждый год - отдельный огромный файл, в котором строк = кол-во профессий х кол-во штатов. Перепаковывать вручную долго получится, я не особый спец по Excel, хотя может, перегоню в базу данных, хотя бы в Access, и там сделаю select-ы.
Но проблема не в этом, а в том, что я не понимаю, что из этих данных можно сделать.
Меня интересует рынок программистского труда. Несколько разных профессий в их списке. Есть несколько гипотез из статей, которые я бы с удовольствием проверила. Например:
1. Концентрация компьютерных работ в разных штатах выравнивается - в захолустье становится больше, в магаполисах - меньше. Это видно, если просто смотреть на данные, а требование проекта регрессии какие-нибудь погонять.
2. По мере того, как дешевые IT-работники дешевеют (за счет outsourcing-a в менее дорогие штаты и Индию), спрос на дорогих - растет. Тут бы классно какой-нибудь production function изобразить, скажем, s/w продукт как функция количества работников подороже и количества работников подешевле. Ну и обнаружить, что когда дешевые дешевеют, допустим, вдвое, оптимальная точка сдвигается в такое место, где дешевого труда нужно условно в 1.3 раза больше, зато дорогого тоже нужно больше, чем раньше. И тогда, аутсорся в Индию support, мы повышаем спрос на крутых и высокооплачиваемых в Америке.
По большому счету, любая модель мне сгодится. Главное - прогнать хоть какую-нибудь регрессию и получить объяснимый результат. Но я совершенно не понимаю, что можно выжать из этих данных, которые еще сначала надо выковырять из разных файлов, так что хочется сначала четко понять, что и зачем, а уже потом выковыривать.
Можно по годам пытаться искать тенденцию - тогда надо что-то делать с time series, а в некоторые годы - два набора данных, за май и за ноябрь, непонятно, можно ли использовать ноябрьские данные, если они есть не за все годы. И вообще, лет-то всего семь, слабенькая для статистики выборка.
Или, наверное, можно пробовать искать зависимость количества работников от зарплаты. Или зарплаты от количества? Допустим, я это сделаю для двух профессий - высокооплачиваемой и низкооплачиваемой. Получу якобы две кривых спроса на труд. И? Тоже причем данные за разные годы, но это мелочи, главное - непонятно, что дальше с этими спросами на труд, кому они нужны.
В общем, я в полной растерянности, время идет, яснее не становится, спросить не у кого.
no subject
Date: 2007-06-14 01:06 pm (UTC)foreach y in 82 83 84 85 86 {
sort state tcity county newsp
merge state tcity county newsp using "*.dta", unique _merge(_merge`y')
tab _merge`y'
}
reshape long переменные, которые тебе нужны, i(state county tcity newsp) j(year)
Если что, обращайся.
По смыслу, для labor dependent variable должна быть log (wage). А что у тебя есть, кроме зарплат? Если ничего, то можно смотреть как зарплата в IT зависит от зарплаты в других секторах. Ну и, скажем, state fixed effects. Ну, или от количества сотрудников в других секторах. Вдруг, чем меньше уборщиц, тем меньше зарплата сотрудников IT (они же могут создавать негативную экстерналию). Если есть еще чего кроме зарплат, то можно смотреть, в зависимости от наличия данных, как это влияет на wage. Ну, я плохо знаю labor, какие там вопросы можно задавать, не очень знаю. Спрос на труд, как и любой спрос, оценивать не очень рекомендую, тк наблюдаешь ты равновесие (пересечение спроса и предложения), и если ты оцениваешь одно без другого, получается bias.
Ну, вобщем, если что, обращайся, по интересным вопросам я тебе вряд ли помогу, а со статой и методологией - может, и подскажу чего :-)
no subject
Date: 2007-06-14 01:08 pm (UTC)no subject
Date: 2007-06-14 02:21 pm (UTC)Во-первых, я бы охотно оценила и предложение тоже, только как его оценишь? Bias совершенно неизбежен, я могу с ходу назвать десяток разных влияющих факторов, по которым у меня никаких данных нет. Что меня, собственно, и смущает - не понмаю, какие вообще можно делать выводы, анализируя всего несколько самых простых переменных. Попробовала просто количество занятых в отрасли со средней зарплатой по отрасли - получилась аккуратная прямая линия, только знаменитый 2000 год пришлось выкинуть как outlier.
no subject
Date: 2007-06-14 02:25 pm (UTC)И еще как-то неудобно, что за некоторые годы у меня по два набора данных - май и ноябрь, а за некоторые - один, и, наверное, нельзя их вместе использовать, но почему именно, мне не очень понятно.
no subject
Date: 2007-06-14 02:37 pm (UTC)Проблему с двумя наборами данных, кажется, это тоже решает, только надо понять, по чему кластерить. Но чище и проще, если просто одинаковые данные брать (например, только за май), у тебя ж данных много, нет проблемы с их количеством.
На serial correlation я бы вообще забила и использовала методы работы с панельными данными, тем более, что у тебя панель не длинная, как я поняла. Ну, хорошо бы, скажем, вставить year fixed effects, чтобы на это как то проконтролировать, должно быть достаточно.
Как бороться с omitted variable bias? Опять таки, если много данных, то fixed effects. Ну, я их люблю, на самом деле, каюсь :-) Есть другие более продвинутые методы, но там не на курсовую можно накропать, а на статью, если разбираться. Я думаю, что вам это не надо. Я думаю, что для цели курсовой будет лучше, если ты скажешь, что вот у меня нет таких и таких переменных, поэтому скорее всего у меня есть такой то и такой то bias. Будет хорошо, такое любят, хуже, если ты утверждаешь, что у тебя вообще bias'а нет.
no subject
Date: 2007-06-14 02:56 pm (UTC)no subject
Date: 2007-06-14 03:06 pm (UTC)Можно дополнительные данные брать, только там аккуратно надо структуру стандартных ошибок прописывать. Я не очень знаю, как это сделать, ну кластеринг точно, а что еще. Точно взвешивать надо: иначе у тебя годы, в которые два раза, будут непропорционально много представленны в итоговой выборке.
no subject
Date: 2007-06-14 04:02 pm (UTC)Кластерить не хочу ничего. Хочу регрессию тупенькую запустить и все. Мы типа больше ничего не проходили на этом курсе :) У меня сейчас задача - избавиться от курса. Если я решу делать из этого что-то более серьезное (желание есть, науч.рук. поддержала), то просто найду нормального экономиста в соавторы для серьезной модели.