(no subject)
Jun. 13th, 2007 11:02 pmЦелых несколько добрых людей вызывались помочь мне с проектом.
Профессор наш - парень хороший, но совершенно не понимает ни уровня нашей подготовленности, ни того простого факта, что он, вообще-то, должен быть доступен для консультаций. А он на конференции, всю неделю. На просьбу встретиться в прошедший понедельник сообщил, что вернется к концу недели и предложил встретиться "в следующий понедельник", то есть ...в день презентации проектов.
Здесь кончаю ныть и рассказываю про проект.
У меня есть официальные данные о зарплатах и количестве работников, по профессиям, по штатам, и по годам (1998-2006). Правда, упакованы они весьма неудобно: каждый год - отдельный огромный файл, в котором строк = кол-во профессий х кол-во штатов. Перепаковывать вручную долго получится, я не особый спец по Excel, хотя может, перегоню в базу данных, хотя бы в Access, и там сделаю select-ы.
Но проблема не в этом, а в том, что я не понимаю, что из этих данных можно сделать.
Меня интересует рынок программистского труда. Несколько разных профессий в их списке. Есть несколько гипотез из статей, которые я бы с удовольствием проверила. Например:
1. Концентрация компьютерных работ в разных штатах выравнивается - в захолустье становится больше, в магаполисах - меньше. Это видно, если просто смотреть на данные, а требование проекта регрессии какие-нибудь погонять.
2. По мере того, как дешевые IT-работники дешевеют (за счет outsourcing-a в менее дорогие штаты и Индию), спрос на дорогих - растет. Тут бы классно какой-нибудь production function изобразить, скажем, s/w продукт как функция количества работников подороже и количества работников подешевле. Ну и обнаружить, что когда дешевые дешевеют, допустим, вдвое, оптимальная точка сдвигается в такое место, где дешевого труда нужно условно в 1.3 раза больше, зато дорогого тоже нужно больше, чем раньше. И тогда, аутсорся в Индию support, мы повышаем спрос на крутых и высокооплачиваемых в Америке.
По большому счету, любая модель мне сгодится. Главное - прогнать хоть какую-нибудь регрессию и получить объяснимый результат. Но я совершенно не понимаю, что можно выжать из этих данных, которые еще сначала надо выковырять из разных файлов, так что хочется сначала четко понять, что и зачем, а уже потом выковыривать.
Можно по годам пытаться искать тенденцию - тогда надо что-то делать с time series, а в некоторые годы - два набора данных, за май и за ноябрь, непонятно, можно ли использовать ноябрьские данные, если они есть не за все годы. И вообще, лет-то всего семь, слабенькая для статистики выборка.
Или, наверное, можно пробовать искать зависимость количества работников от зарплаты. Или зарплаты от количества? Допустим, я это сделаю для двух профессий - высокооплачиваемой и низкооплачиваемой. Получу якобы две кривых спроса на труд. И? Тоже причем данные за разные годы, но это мелочи, главное - непонятно, что дальше с этими спросами на труд, кому они нужны.
В общем, я в полной растерянности, время идет, яснее не становится, спросить не у кого.
Профессор наш - парень хороший, но совершенно не понимает ни уровня нашей подготовленности, ни того простого факта, что он, вообще-то, должен быть доступен для консультаций. А он на конференции, всю неделю. На просьбу встретиться в прошедший понедельник сообщил, что вернется к концу недели и предложил встретиться "в следующий понедельник", то есть ...в день презентации проектов.
Здесь кончаю ныть и рассказываю про проект.
У меня есть официальные данные о зарплатах и количестве работников, по профессиям, по штатам, и по годам (1998-2006). Правда, упакованы они весьма неудобно: каждый год - отдельный огромный файл, в котором строк = кол-во профессий х кол-во штатов. Перепаковывать вручную долго получится, я не особый спец по Excel, хотя может, перегоню в базу данных, хотя бы в Access, и там сделаю select-ы.
Но проблема не в этом, а в том, что я не понимаю, что из этих данных можно сделать.
Меня интересует рынок программистского труда. Несколько разных профессий в их списке. Есть несколько гипотез из статей, которые я бы с удовольствием проверила. Например:
1. Концентрация компьютерных работ в разных штатах выравнивается - в захолустье становится больше, в магаполисах - меньше. Это видно, если просто смотреть на данные, а требование проекта регрессии какие-нибудь погонять.
2. По мере того, как дешевые IT-работники дешевеют (за счет outsourcing-a в менее дорогие штаты и Индию), спрос на дорогих - растет. Тут бы классно какой-нибудь production function изобразить, скажем, s/w продукт как функция количества работников подороже и количества работников подешевле. Ну и обнаружить, что когда дешевые дешевеют, допустим, вдвое, оптимальная точка сдвигается в такое место, где дешевого труда нужно условно в 1.3 раза больше, зато дорогого тоже нужно больше, чем раньше. И тогда, аутсорся в Индию support, мы повышаем спрос на крутых и высокооплачиваемых в Америке.
По большому счету, любая модель мне сгодится. Главное - прогнать хоть какую-нибудь регрессию и получить объяснимый результат. Но я совершенно не понимаю, что можно выжать из этих данных, которые еще сначала надо выковырять из разных файлов, так что хочется сначала четко понять, что и зачем, а уже потом выковыривать.
Можно по годам пытаться искать тенденцию - тогда надо что-то делать с time series, а в некоторые годы - два набора данных, за май и за ноябрь, непонятно, можно ли использовать ноябрьские данные, если они есть не за все годы. И вообще, лет-то всего семь, слабенькая для статистики выборка.
Или, наверное, можно пробовать искать зависимость количества работников от зарплаты. Или зарплаты от количества? Допустим, я это сделаю для двух профессий - высокооплачиваемой и низкооплачиваемой. Получу якобы две кривых спроса на труд. И? Тоже причем данные за разные годы, но это мелочи, главное - непонятно, что дальше с этими спросами на труд, кому они нужны.
В общем, я в полной растерянности, время идет, яснее не становится, спросить не у кого.
no subject
Date: 2007-06-14 04:02 pm (UTC)Кластерить не хочу ничего. Хочу регрессию тупенькую запустить и все. Мы типа больше ничего не проходили на этом курсе :) У меня сейчас задача - избавиться от курса. Если я решу делать из этого что-то более серьезное (желание есть, науч.рук. поддержала), то просто найду нормального экономиста в соавторы для серьезной модели.