gingema | (no subject)

Целых несколько добрых людей вызывались помочь мне с проектом.

Профессор наш - парень хороший, но совершенно не понимает ни уровня нашей подготовленности, ни того простого факта, что он, вообще-то, должен быть доступен для консультаций. А он на конференции, всю неделю. На просьбу встретиться в прошедший понедельник сообщил, что вернется к концу недели и предложил встретиться "в следующий понедельник", то есть ...в день презентации проектов.
Здесь кончаю ныть и рассказываю про проект.

У меня есть официальные данные о зарплатах и количестве работников, по профессиям, по штатам, и по годам (1998-2006). Правда, упакованы они весьма неудобно: каждый год - отдельный огромный файл, в котором строк = кол-во профессий х кол-во штатов. Перепаковывать вручную долго получится, я не особый спец по Excel, хотя может, перегоню в базу данных, хотя бы в Access, и там сделаю select-ы.
Но проблема не в этом, а в том, что я не понимаю, что из этих данных можно сделать.
Меня интересует рынок программистского труда. Несколько разных профессий в их списке. Есть несколько гипотез из статей, которые я бы с удовольствием проверила. Например:
1. Концентрация компьютерных работ в разных штатах выравнивается - в захолустье становится больше, в магаполисах - меньше. Это видно, если просто смотреть на данные, а требование проекта регрессии какие-нибудь погонять.
2. По мере того, как дешевые IT-работники дешевеют (за счет outsourcing-a в менее дорогие штаты и Индию), спрос на дорогих - растет. Тут бы классно какой-нибудь production function изобразить, скажем, s/w продукт как функция количества работников подороже и количества работников подешевле. Ну и обнаружить, что когда дешевые дешевеют, допустим, вдвое, оптимальная точка сдвигается в такое место, где дешевого труда нужно условно в 1.3 раза больше, зато дорогого тоже нужно больше, чем раньше. И тогда, аутсорся в Индию support, мы повышаем спрос на крутых и высокооплачиваемых в Америке.

По большому счету, любая модель мне сгодится. Главное - прогнать хоть какую-нибудь регрессию и получить объяснимый результат. Но я совершенно не понимаю, что можно выжать из этих данных, которые еще сначала надо выковырять из разных файлов, так что хочется сначала четко понять, что и зачем, а уже потом выковыривать.
Можно по годам пытаться искать тенденцию - тогда надо что-то делать с time series, а в некоторые годы - два набора данных, за май и за ноябрь, непонятно, можно ли использовать ноябрьские данные, если они есть не за все годы. И вообще, лет-то всего семь, слабенькая для статистики выборка.
Или, наверное, можно пробовать искать зависимость количества работников от зарплаты. Или зарплаты от количества? Допустим, я это сделаю для двух профессий - высокооплачиваемой и низкооплачиваемой. Получу якобы две кривых спроса на труд. И? Тоже причем данные за разные годы, но это мелочи, главное - непонятно, что дальше с этими спросами на труд, кому они нужны.

В общем, я в полной растерянности, время идет, яснее не становится, спросить не у кого.

Flat | Top-Level Comments Only

From:

nat-sd.livejournal.com

Я честно говоря сразу про time series подумала, но дочитала и увидела что ты уже это учла.
Я бы наверное попробовала первую гипотезу (мне кажется это проще): создать какой то средний индекс компьютерных работ (может быть даже два-для крупных городов и областей), и посмотреть на отношение этого индекса с годами, штатами, и ещё какими то данными которые ты сможешь найти.

From:

pashar.livejournal.com

Необязательно перегонять в Access. В Excel есть неплохие возможности для фильтров — вряд ли тебе понадобится что-то более серьезное. Насчет production functions — в этом я мало чего понимаю.

From:

syarzhuk.livejournal.com

В старом Экселе было ограничение на 65535 строчек в одной таблице (в новом то ли пропало, то ли сильно увеличилось вверх)
Чем Эксель хорош, что в нём есть Data Analysis Toolpak, в котором туева хуча статистических функций.

From:

petrova-ma.livejournal.com

такие данные надо мерджить в стате и потом стирать все лишнее. Как мерджить? Сначала перегнать в статовский формат программой с названием stata transfer, получится несколько статовских файлов, потом стереть лишнее, а потом сделать merge. Чтобы привести все в формат "то, что надо"-год-штат, надо еще перед тем, как делать merge, в каждом году приписать "год" в конце названия переменной. А потом сделать примерно так (из моей программы):
foreach y in 82 83 84 85 86 {
sort state tcity county newsp
merge state tcity county newsp using "*.dta", unique _merge(_merge`y')
tab _merge`y'
}
reshape long переменные, которые тебе нужны, i(state county tcity newsp) j(year)
Если что, обращайся.
По смыслу, для labor dependent variable должна быть log (wage). А что у тебя есть, кроме зарплат? Если ничего, то можно смотреть как зарплата в IT зависит от зарплаты в других секторах. Ну и, скажем, state fixed effects. Ну, или от количества сотрудников в других секторах. Вдруг, чем меньше уборщиц, тем меньше зарплата сотрудников IT (они же могут создавать негативную экстерналию). Если есть еще чего кроме зарплат, то можно смотреть, в зависимости от наличия данных, как это влияет на wage. Ну, я плохо знаю labor, какие там вопросы можно задавать, не очень знаю. Спрос на труд, как и любой спрос, оценивать не очень рекомендую, тк наблюдаешь ты равновесие (пересечение спроса и предложения), и если ты оцениваешь одно без другого, получается bias.
Ну, вобщем, если что, обращайся, по интересным вопросам я тебе вряд ли помогу, а со статой и методологией - может, и подскажу чего :-)

From:

petrova-ma.livejournal.com

PS стирать лишнее в стате очень просто, говоришь drop список переменных if условие. Или keep список переменных if условие, в зависимости от того, что проще.

From:

gingema

Спасибо!
Во-первых, я бы охотно оценила и предложение тоже, только как его оценишь? Bias совершенно неизбежен, я могу с ходу назвать десяток разных влияющих факторов, по которым у меня никаких данных нет. Что меня, собственно, и смущает - не понмаю, какие вообще можно делать выводы, анализируя всего несколько самых простых переменных. Попробовала просто количество занятых в отрасли со средней зарплатой по отрасли - получилась аккуратная прямая линия, только знаменитый 2000 год пришлось выкинуть как outlier.

From:

gingema

Да, а во-вторых, я не понимаю про time series, вообще не понимаю, почему там надо избавляться от корреляции, от которой в других ситуациях не надо. Типа независимость наблюдений нарушается. Ну так ее в помине и нет, этой независимости, и без time series!
И еще как-то неудобно, что за некоторые годы у меня по два набора данных - май и ноябрь, а за некоторые - один, и, наверное, нельзя их вместе использовать, но почему именно, мне не очень понятно.

From:

petrova-ma.livejournal.com

(1) Если у тебя есть подозрение, что нет независимости, надо кластерить стандартные ошибки (clustered standard errors, option cluster() in Stata) внутри группы того уровня, где ты думаешь есть зависимость. Например, по штату. Или по штату-отрасли.
Проблему с двумя наборами данных, кажется, это тоже решает, только надо понять, по чему кластерить. Но чище и проще, если просто одинаковые данные брать (например, только за май), у тебя ж данных много, нет проблемы с их количеством.
На serial correlation я бы вообще забила и использовала методы работы с панельными данными, тем более, что у тебя панель не длинная, как я поняла. Ну, хорошо бы, скажем, вставить year fixed effects, чтобы на это как то проконтролировать, должно быть достаточно.
Как бороться с omitted variable bias? Опять таки, если много данных, то fixed effects. Ну, я их люблю, на самом деле, каюсь :-) Есть другие более продвинутые методы, но там не на курсовую можно накропать, а на статью, если разбираться. Я думаю, что вам это не надо. Я думаю, что для цели курсовой будет лучше, если ты скажешь, что вот у меня нет таких и таких переменных, поэтому скорее всего у меня есть такой то и такой то bias. Будет хорошо, такое любят, хуже, если ты утверждаешь, что у тебя вообще bias'а нет.

From:

gingema

У меня много параллельных данных - по штатам, по metropolitan areas, и по куче разных профессий (компьтерщики при этом классифицированы дебильно, плюс классификации иногда меняются, и это добавляет bias). А вот по годам у меня всего с 1998 по 2006, по-моему, это маловато, поэтому я и ухватилась за ноябрьские дополнительные по трем годам.

From:

petrova-ma.livejournal.com

по годам у тебя целых 9 лет (считая 98 и 06), нормально. У меня вот в главной статье 6 лет (а у многих вообще 2-3 года). То, что классификации меняются, это measurement error, если это нескоррелировано с твоей гипотезой, то это не плохо (это означает, что у тебя правильные коэффициенты, но большие стандартные ошибки, если у тебя при этом все равно есть значимость, то все тип топ).
Можно дополнительные данные брать, только там аккуратно надо структуру стандартных ошибок прописывать. Я не очень знаю, как это сделать, ну кластеринг точно, а что еще. Точно взвешивать надо: иначе у тебя годы, в которые два раза, будут непропорционально много представленны в итоговой выборке.

From:

gingema

Уговорила! Ноябрьские данные выкину. Мне же проще :)
Кластерить не хочу ничего. Хочу регрессию тупенькую запустить и все. Мы типа больше ничего не проходили на этом курсе :) У меня сейчас задача - избавиться от курса. Если я решу делать из этого что-то более серьезное (желание есть, науч.рук. поддержала), то просто найду нормального экономиста в соавторы для серьезной модели.

From:

uzheletta.livejournal.com

Sonya, u tebya tri faktora
1. goda (1-9)This is a whinin subject factor
2. geographic location (you can combine it into three levels: east coast, west coast, midwest. then, you'll have only three groups to look at, and you don't expect idaho and ohio much differ from each other in terms of salaries, but California and East Coast, will probably differ. This is a between-subject factor).
3. position/profession. i don't know, how many you have, you can probably combine some of them together. it's a between subject factor.

so, this is your design.

now, analyses:

a) Data coding: in SPSS-each within subject factor, sp take column A, call it "year_one" and just list all the scores (salaries) there. same for years
2-9.

b). then, column 10, becomes your "geographic location column". in that column you inser "1" for all the salaries that are coming from east coast, "2" for west coast", "3" for midwest. you'll have a bunch of 1-2-3s in the same column.

c). then, column 11 becomes your "profession" column. "1" becomes marketing director, "2" becomes financial analyst. if you N is high, you can have lots of professsions, if your N is low, collaps across the similar ones (ones with similar set of skills/salaries) to increase your Ns in each cell.

d. Then go to you toolbar, select "analyse", select "repeated measures".
call you "repeated measure" factor "Years" or "TIme" or something, then say that it has 9 levels. In the next window drag your variables for years 1-9 into the "within subject" box. then drag your two between subject factors (location and position) into your "Between subject factors" box.
also ask for Descriptives.

this way, you'll see whether TIme, Geography, Positisions (or their interactions) have any effect on salaries. If something doesn't have an effect, you can forget about it (collaps across this factor) for future analyses, if something has an effect, you are going to look at it closer in your future analyses. that's about all :)

From:

gingema

Спасибо! Щас сделаю себе подходящий data set и попробую!

From:

michk.livejournal.com

Не знаю, поможет ли это, но в качестве программных средств рекомендую SPSS и матлаб. Хотя ты наверняка про них знаешь.

From:

gingema

О, попался! :)
Может, ты знаешь, почему SPSS вдруг стал рисовать ровненькие графики не в масштабе, и как ему объяснить, чтобы перестал?
Я имею в виду вот что: рисую график, например, зарплата по годам. По оси Х идут годы, через равные промежутки. По оси Y SPSS тоже рисует равные промежутки, и пишет на них зарплаты. Например, между 10К, 15К, 27К и 34К у него одинаковые расстояния! График красивый такой получается, симметричный, но совершенно неправильный. Блин. Только этого мне не хватало :(

From:

michk.livejournal.com

Извини, но по SPSS я не спец - с ним работала моя бывшая шефиня. Вот если надо по матлабу помочь - это ко мне. Можешь, например, прислать мне набор данных, и я тебе пришлю график.

From:

gingema

Слушай, Миш, а ты Excel хорошо знаешь? Можно ли в нем делать вещи в нескольких простынках сразу? Вот у меня файл, в нем пять отдельных простынок, одинаковые таблицы с данными по разным штатам, но в каждой таблице другие профессии. Теперь я штаты разбила на пять групп, и мне нужно всюду добавить колонку с группой, т.е. перекодировать колонку "штат". Как это сделать в одной простынке, я знаю. А вот как бы исхитриться, чтобы сразу во всех? Не знаешь часом?

From:

michk.livejournal.com

Excel совсем плохо знаю.

From:

gingema

О, сама уже разобралась, оказалось очень просто!

Flat | Top-Level Comments Only

Profile

gingema

January 2026

S	M	T	W	T	F	S
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Page Summary

Active Entries

1: Израиль, зима 2025-26. Культур.

Style Credit

Style: Coffee and Ink for Paletteable by branchandroot
Resources: one time to cry...

Expand Cut Tags

No cut tags

Page generated Mar. 1st, 2026 05:10 am

Гингема

Незлая виртуальная ведьма

(no subject)

(no subject)

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

Profile

January 2026

Most Popular Tags

Page Summary

Active Entries

Style Credit

Expand Cut Tags