(no subject)
Jun. 13th, 2007 11:02 pmЦелых несколько добрых людей вызывались помочь мне с проектом.
Профессор наш - парень хороший, но совершенно не понимает ни уровня нашей подготовленности, ни того простого факта, что он, вообще-то, должен быть доступен для консультаций. А он на конференции, всю неделю. На просьбу встретиться в прошедший понедельник сообщил, что вернется к концу недели и предложил встретиться "в следующий понедельник", то есть ...в день презентации проектов.
Здесь кончаю ныть и рассказываю про проект.
У меня есть официальные данные о зарплатах и количестве работников, по профессиям, по штатам, и по годам (1998-2006). Правда, упакованы они весьма неудобно: каждый год - отдельный огромный файл, в котором строк = кол-во профессий х кол-во штатов. Перепаковывать вручную долго получится, я не особый спец по Excel, хотя может, перегоню в базу данных, хотя бы в Access, и там сделаю select-ы.
Но проблема не в этом, а в том, что я не понимаю, что из этих данных можно сделать.
Меня интересует рынок программистского труда. Несколько разных профессий в их списке. Есть несколько гипотез из статей, которые я бы с удовольствием проверила. Например:
1. Концентрация компьютерных работ в разных штатах выравнивается - в захолустье становится больше, в магаполисах - меньше. Это видно, если просто смотреть на данные, а требование проекта регрессии какие-нибудь погонять.
2. По мере того, как дешевые IT-работники дешевеют (за счет outsourcing-a в менее дорогие штаты и Индию), спрос на дорогих - растет. Тут бы классно какой-нибудь production function изобразить, скажем, s/w продукт как функция количества работников подороже и количества работников подешевле. Ну и обнаружить, что когда дешевые дешевеют, допустим, вдвое, оптимальная точка сдвигается в такое место, где дешевого труда нужно условно в 1.3 раза больше, зато дорогого тоже нужно больше, чем раньше. И тогда, аутсорся в Индию support, мы повышаем спрос на крутых и высокооплачиваемых в Америке.
По большому счету, любая модель мне сгодится. Главное - прогнать хоть какую-нибудь регрессию и получить объяснимый результат. Но я совершенно не понимаю, что можно выжать из этих данных, которые еще сначала надо выковырять из разных файлов, так что хочется сначала четко понять, что и зачем, а уже потом выковыривать.
Можно по годам пытаться искать тенденцию - тогда надо что-то делать с time series, а в некоторые годы - два набора данных, за май и за ноябрь, непонятно, можно ли использовать ноябрьские данные, если они есть не за все годы. И вообще, лет-то всего семь, слабенькая для статистики выборка.
Или, наверное, можно пробовать искать зависимость количества работников от зарплаты. Или зарплаты от количества? Допустим, я это сделаю для двух профессий - высокооплачиваемой и низкооплачиваемой. Получу якобы две кривых спроса на труд. И? Тоже причем данные за разные годы, но это мелочи, главное - непонятно, что дальше с этими спросами на труд, кому они нужны.
В общем, я в полной растерянности, время идет, яснее не становится, спросить не у кого.
Профессор наш - парень хороший, но совершенно не понимает ни уровня нашей подготовленности, ни того простого факта, что он, вообще-то, должен быть доступен для консультаций. А он на конференции, всю неделю. На просьбу встретиться в прошедший понедельник сообщил, что вернется к концу недели и предложил встретиться "в следующий понедельник", то есть ...в день презентации проектов.
Здесь кончаю ныть и рассказываю про проект.
У меня есть официальные данные о зарплатах и количестве работников, по профессиям, по штатам, и по годам (1998-2006). Правда, упакованы они весьма неудобно: каждый год - отдельный огромный файл, в котором строк = кол-во профессий х кол-во штатов. Перепаковывать вручную долго получится, я не особый спец по Excel, хотя может, перегоню в базу данных, хотя бы в Access, и там сделаю select-ы.
Но проблема не в этом, а в том, что я не понимаю, что из этих данных можно сделать.
Меня интересует рынок программистского труда. Несколько разных профессий в их списке. Есть несколько гипотез из статей, которые я бы с удовольствием проверила. Например:
1. Концентрация компьютерных работ в разных штатах выравнивается - в захолустье становится больше, в магаполисах - меньше. Это видно, если просто смотреть на данные, а требование проекта регрессии какие-нибудь погонять.
2. По мере того, как дешевые IT-работники дешевеют (за счет outsourcing-a в менее дорогие штаты и Индию), спрос на дорогих - растет. Тут бы классно какой-нибудь production function изобразить, скажем, s/w продукт как функция количества работников подороже и количества работников подешевле. Ну и обнаружить, что когда дешевые дешевеют, допустим, вдвое, оптимальная точка сдвигается в такое место, где дешевого труда нужно условно в 1.3 раза больше, зато дорогого тоже нужно больше, чем раньше. И тогда, аутсорся в Индию support, мы повышаем спрос на крутых и высокооплачиваемых в Америке.
По большому счету, любая модель мне сгодится. Главное - прогнать хоть какую-нибудь регрессию и получить объяснимый результат. Но я совершенно не понимаю, что можно выжать из этих данных, которые еще сначала надо выковырять из разных файлов, так что хочется сначала четко понять, что и зачем, а уже потом выковыривать.
Можно по годам пытаться искать тенденцию - тогда надо что-то делать с time series, а в некоторые годы - два набора данных, за май и за ноябрь, непонятно, можно ли использовать ноябрьские данные, если они есть не за все годы. И вообще, лет-то всего семь, слабенькая для статистики выборка.
Или, наверное, можно пробовать искать зависимость количества работников от зарплаты. Или зарплаты от количества? Допустим, я это сделаю для двух профессий - высокооплачиваемой и низкооплачиваемой. Получу якобы две кривых спроса на труд. И? Тоже причем данные за разные годы, но это мелочи, главное - непонятно, что дальше с этими спросами на труд, кому они нужны.
В общем, я в полной растерянности, время идет, яснее не становится, спросить не у кого.
no subject
Date: 2007-06-15 01:44 am (UTC)Может, ты знаешь, почему SPSS вдруг стал рисовать ровненькие графики не в масштабе, и как ему объяснить, чтобы перестал?
Я имею в виду вот что: рисую график, например, зарплата по годам. По оси Х идут годы, через равные промежутки. По оси Y SPSS тоже рисует равные промежутки, и пишет на них зарплаты. Например, между 10К, 15К, 27К и 34К у него одинаковые расстояния! График красивый такой получается, симметричный, но совершенно неправильный. Блин. Только этого мне не хватало :(
no subject
Date: 2007-06-15 11:15 am (UTC)no subject
Date: 2007-06-16 06:48 pm (UTC)no subject
Date: 2007-06-16 07:21 pm (UTC)no subject
Date: 2007-06-16 07:19 pm (UTC)