gingema: (Default)
[personal profile] gingema
Целых несколько добрых людей вызывались помочь мне с проектом.


Профессор наш - парень хороший, но совершенно не понимает ни уровня нашей подготовленности, ни того простого факта, что он, вообще-то, должен быть доступен для консультаций. А он на конференции, всю неделю. На просьбу встретиться в прошедший понедельник сообщил, что вернется к концу недели и предложил встретиться "в следующий понедельник", то есть ...в день презентации проектов.
Здесь кончаю ныть и рассказываю про проект.

У меня есть официальные данные о зарплатах и количестве работников, по профессиям, по штатам, и по годам (1998-2006). Правда, упакованы они весьма неудобно: каждый год - отдельный огромный файл, в котором строк = кол-во профессий х кол-во штатов. Перепаковывать вручную долго получится, я не особый спец по Excel, хотя может, перегоню в базу данных, хотя бы в Access, и там сделаю select-ы.
Но проблема не в этом, а в том, что я не понимаю, что из этих данных можно сделать.
Меня интересует рынок программистского труда. Несколько разных профессий в их списке. Есть несколько гипотез из статей, которые я бы с удовольствием проверила. Например:
1. Концентрация компьютерных работ в разных штатах выравнивается - в захолустье становится больше, в магаполисах - меньше. Это видно, если просто смотреть на данные, а требование проекта регрессии какие-нибудь погонять.
2. По мере того, как дешевые IT-работники дешевеют (за счет outsourcing-a в менее дорогие штаты и Индию), спрос на дорогих - растет. Тут бы классно какой-нибудь production function изобразить, скажем, s/w продукт как функция количества работников подороже и количества работников подешевле. Ну и обнаружить, что когда дешевые дешевеют, допустим, вдвое, оптимальная точка сдвигается в такое место, где дешевого труда нужно условно в 1.3 раза больше, зато дорогого тоже нужно больше, чем раньше. И тогда, аутсорся в Индию support, мы повышаем спрос на крутых и высокооплачиваемых в Америке.

По большому счету, любая модель мне сгодится. Главное - прогнать хоть какую-нибудь регрессию и получить объяснимый результат. Но я совершенно не понимаю, что можно выжать из этих данных, которые еще сначала надо выковырять из разных файлов, так что хочется сначала четко понять, что и зачем, а уже потом выковыривать.
Можно по годам пытаться искать тенденцию - тогда надо что-то делать с time series, а в некоторые годы - два набора данных, за май и за ноябрь, непонятно, можно ли использовать ноябрьские данные, если они есть не за все годы. И вообще, лет-то всего семь, слабенькая для статистики выборка.
Или, наверное, можно пробовать искать зависимость количества работников от зарплаты. Или зарплаты от количества? Допустим, я это сделаю для двух профессий - высокооплачиваемой и низкооплачиваемой. Получу якобы две кривых спроса на труд. И? Тоже причем данные за разные годы, но это мелочи, главное - непонятно, что дальше с этими спросами на труд, кому они нужны.

В общем, я в полной растерянности, время идет, яснее не становится, спросить не у кого.

Date: 2007-06-14 03:06 pm (UTC)
From: [identity profile] petrova-ma.livejournal.com
по годам у тебя целых 9 лет (считая 98 и 06), нормально. У меня вот в главной статье 6 лет (а у многих вообще 2-3 года). То, что классификации меняются, это measurement error, если это нескоррелировано с твоей гипотезой, то это не плохо (это означает, что у тебя правильные коэффициенты, но большие стандартные ошибки, если у тебя при этом все равно есть значимость, то все тип топ).
Можно дополнительные данные брать, только там аккуратно надо структуру стандартных ошибок прописывать. Я не очень знаю, как это сделать, ну кластеринг точно, а что еще. Точно взвешивать надо: иначе у тебя годы, в которые два раза, будут непропорционально много представленны в итоговой выборке.

Profile

gingema: (Default)
gingema

October 2023

S M T W T F S
1234567
89 1011121314
15161718192021
22232425262728
293031    

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Jan. 2nd, 2026 07:44 pm
Powered by Dreamwidth Studios