A fines del 2016 pudimos por fin arrancar el proyecto que veníamos postergando hacía 3 años, la idea de un podcast bajo el nombre de “Polémica en /var“. El 16 de noviembre de 2016 hicimos público el primer piloto del nuevo master plan para conquistar el mundo. Seguimos a buen ritmo, así que era hora de hacer la presentación formal:

Polemica en /var es un show pensado primariamente para gente de sistemas, a partir de allí se desprenden distintas temáticas y formas de abordarlas; desde noticias rápidas, eventos, lanzamientos de juegos, vulnerabilidades o bien problemas que sucedieron en Internet o el mundo de sistemas. La idea es llevar todo esto a un formato que se deje ver y escuchar y que tenga un valor agregado, que no sea solamente leer una noticia. Estamos incluyendo entrevistas y especiales y no se pierdan los bloopers.

De izquierda a derecha: Ariel JoloSeba Montini (invitado para charlar sobre la caída de S3) y Jorge Abreu.

 

A continuación pueden ver la Playslist de Polémica en /var en Youtube, comenzando desde el último episodio a la fecha (marzo 2017):

Y también pueden suscribirse al canal de sysarmy: https://goo.gl/5QI5Cy

Como soporte (ya que somos el soporte de los que dan soporte), para quienes no quieran o no puedan ver el programa en video, también lo subimos en formato podcast a diferentes sistemas para que puedan bajarlo o escucharlo. Pueden suscribirse al Podcast de Polémica en /var como más les guste:

Escuchar o bajar directamente desde Ivoox: https://goo.gl/GtISQ9

En iTunes: https://goo.gl/Nrt22g

En Pocketcast: http://pca.st/D3H0

En player.fm: https://goo.gl/XFUCC9

 

¿Qué les parece? ¿Les gusta la propuesta?

Queremos agradecer a los más de 4000 participantes que formaron parte de esta nueva encuesta de sueldos!

Les dejamos este Google Spreadsheet para que puedan ver y analizar los resultados (pueden hacer una copia o bajar las hojas en formato csv). Pedimos disculpas por un problema en Google Forms que no pudimos solucionar, relacionado con las tecnologías utilizadas por puesto. Para la próxima encuesta vamos a elegir una plataforma más robusta y acorde para la cantidad de preguntas y volumen de respuestas que estamos obteniendo.

Esperamos con ansias los análisis de la comunidad!

 

Como siempre, algunas frases que nos regalaron los encuestados:

Apesta

asco

Cubro el Rol de Director, sin embargo mi sueldo es el de un auxiliar.

Dejen de ratonear en todo, jefes.

Empresa de casi 1000 empleados, Agraria, casi mi millones de facturción al año (dólares) y no nos dan una puta canasta de navidad …. Eso sí, para descargar las 45 cajas de vinos de regalo para los clientes … todos los empleados a descargar el camión.

Es inhumano

Es muy triste haber estudiado y perfeccionado mis skills en mi carrera para que me roben así.

Explotan Juniors

Hago el trabajo de 3 o 4 personas

La gente de limpieza gana el doble que yo

 

Y no olviden calificar a sus empresas en www.openqube.io !

200 containers

Terminamos el año con una nueva encuesta salarial para todo Latinoamérica, con nuevas preguntas en base a las sugerencias que tuvimos en la edición anterior. Al finalizar la encuesta vamos a publicar el csv para que la comunidad pueda analizar los resultados.

Los invitamos a responder y compartir con sus conocidos !

No olviden que también pueden calificar empresas en openqube.io

Analizando los sueldos de la industria del software en Argentina (Parte 3)

TL;DR

hay una diferencia significativa entre la proporción de hombres y mujeres en el decil mejor pago (top 10%) de la industria del software en Argentina.

En el post anterior concluimos que efectivamente había una diferencia en el salario medio dependiendo del género. En este tercer análisis intentaremos rechazar la siguiente hipótesis:

Los cargos con sueldos más altos son ocupados equitativamente por hombres y mujeres.

Para responder esta pregunta debemos primero obtener algunos datos de nuestro dataset:

  • Cuál es el decil más alto?
  • Qué proporción de hombres y mujeres tienen un salario mayor o igual a ese valor?
  • Podemos atribuir la diferencia (de haberla) entre proporciones al azar?

Cuál es el decil más alto (de nuestra muestra)?

Podemos usar R para calcular el decil más alto de nuestra muestra:

> quantile(clean$Income, 0.9)
     90%
41428.57

Podemos ver entonces que el decil más alto para sueldos de software en Argentina es entonces de $41428.57 brutos.

Qué proporción de hombres y mujeres tienen un salario mayor o igual a ese valor?

Para responder esta pregunta podemos usar la función table

> table(clean$Gender, clean$Income >= 41428.57)
FALSE TRUE
F   276   22
M  3256  375

Como vemos, la cantidad de mujeres que pertenecen al último decil es 22 de 276 o sea un 7.9% en el caso de los hombres este número es 375 de 3256, un 11.5%.

La diferencia de porcentaje es entonces del 3.6% aproximadamente.

Podemos atribuir la diferencia entre proporciones al azar?

Como vimos, hay una diferencia entre el porcentaje de hombres y mujeres en el decil más alto de salarios. Hay dos hipótesis que pueden explicar esta diferencia:

  • La diferencia entre proporciones se debe al azar de la muestra. (Hipótesis Nula)
  • La diferencia entre proporciones es muy grande como para atribuirla al azar, la diferencia es estadísticamente significativa. (Hipótesis Alternativa)

Para la diferencia de proporciones podemos aplicar el teorema central del límite: la diferencia entre dos proporciones de una muestra (p^¹ -p^²) tiene una distribución normal con centro en la verdadera diferencia entre proporciones (p1-p2), con una desviación estándar conocida (la fórmula es algo larga, la vamos a usar más adelante para evaluar nuestra hipótesis). Para más información sobre este tema en particular, ver aquí.

Resumiendo, tenemos una distribución normal con los siguientes valores:

Media = 0  # p1 — p2 para la hipótesis nula es cero
Desviación estándar = 
sqrt((p1 * (1 - p1) / n1) + (p2 * (1 - p2) / n2))
# siendo:
# p1 = porcentaje de hombres en el último decil
# n1 = total de hombres
# p2 = porcentaje de mujeres en el último decil
# n2 = total de mujeres
# por lo tanto
Desviación estándar = 0.016

Pasemos a graficar nuestra distribución normal:

Según la regla de 68–95–99.7 casi la totalidad de las muestras de una distribución normal caen en -/+ 3 desviaciones estándar (0.016).

Podemos ahora graficar sobre esta distribución el 3.6% de diferencia que observamos en nuestra muestra:

De ser válida la hipótesis nula, la probabilidad de obtener esta diferencia es del 1.4%, si tomamos un nivel de significación del 5% (el utilizado comúnmente en ciencia) podemos descartar la hipótesis nula.

Conclusión

Usando el teorema central del límite para las proporciones determinamos que hay una diferencia estadísticamente significativa entre la proporción de hombres y mujeres en el decil mejor pago de la industria del software en Argentina.


Muchas gracias a Sebastián Waisbrot, Nadia Kazlauskas, Pablo Astigarraga, Sebastián Friseb y Mauro García Aurelio que revisaron el draft.

En el primer post hicimos un análisis exploratorio general de los sueldos, en este vamos a realizar una inferencia estadística. Otra vez, todo el código se encuentra disponible acá.

Hipótesis

Primero formulamos una hipótesis:

Los salarios varían significativamente según el género

Para probar nuestra hipótesis, intentaremos refutar la hipótesis nula, que simplemente sería lo contrario (los salarios no varían según el género)

Primer problema: los tamaños de las muestras

Recordemos la distribución de salarios discriminada por género:

El problema en este caso es la diferencia entre participantes de la encuesta varones y mujeres. Usemos un gráfico de barras para hacerlo más evidente:

Hay 298 mujeres y 3.631 hombres en nuestro dataset. Si consideramos a la muestra como representativa de la población, habría aproximadamente una mujer cada 10 hombres, o un 7.5% del total de trabajadores de software.

Con esta limitación en mente, vamos a tratar de poner a prueba nuestra hipótesis utilizando 3 estrategias alternativas.

Usar muestras de tamaño comparable

Sería muy bueno tener misma cantidad de mujeres que de hombres. Una alternativa sería salir a encuestar más mujeres. La otra (más fácil) es “recortar” la muestra de varones.

Para esta última tomamos una muestra aleatoria de 298 varones de nuestros datos y comparamos las dos. Vamos a usar una función del histograma de ggplot llamada “dodge” para que no apile las barras sino que las ponga una al lado de la otra:

Si bien parece haber mayor cantidad de mujeres en los deciles más bajos, a simple vista las distribuciones no muestran una diferencia importante que nos sugiera descartar la hipótesis nula.

Comparar las áreas de las distribuciones

Otra forma de salvar el problema de las cantidades es utilizar un gráfico de densidad de área. Este tipo de gráfico no compara unidades absolutas sino que estima porcentaje de muestras bajo la curva (para más información, la técnica que usa ggplot para esto se llama Kernel Density Estimation o KDE).

Probemos la técnica generando una distribución normal aleatoria, usando la función rnorm:

Vemos una campana de Gauss casi perfecta, en este caso con una media de 5 y una desviación estándar de 2. Nótese que no importa la cantidad de elementos, el eje Y no presenta cantidades sino porcentajes. En este caso el gráfico se hizo con 5.000 elementos pero uno de 50.000 mostraría un área similar.

Grafiquemos las curvas estimadas de densidad para varones y mujeres, usando esta vez la totalidad de los datos:

Las curvas de densidad son similares. Este gráfico tampoco hace evidente una diferencia entre las medias. Vamos al tercer paso.

ANOVA

Para finalizar vamos a usar una herramienta llamada ANOVA o Analysis of Variance. La técnica se utiliza para comparar medias de distribuciones y determinar si la variación entre esas medias puede ser explicada por el azar.

Con R esto es muy sencillo, se arma un modelo lineal y se calcula el anova con la función homónima:

> model <- lm(Income ~ Gender, data=clean)
> anova(model)
Analysis of Variance Table
Response: Income
            Df     Sum Sq    Mean Sq F value   Pr(>F)   
Gender       1 1.8123e+09 1812255174  9.5573 0.002006 **
Residuals 3927 7.4464e+11  189620819                    
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

De toda la información que R nos devuelve, nos interesa el Pr(>F) que en este caso es 0.002. Este número es la probabilidad de observar estos resultados si las distribuciones de salarios por género fueran iguales.

Esto es significativo.

Lo que ANOVA nos dice es que, suponiendo que la distribución de salario es independiente del género, la probabilidad de encontrar una muestra con esta diferencia salarial entre géneros es del 0.2%, dicho de otra manera una en quinientos.

Podemos decir entonces que es muy poco probable que se deba al azar y concluir, por tanto, que las distribuciones no son iguales.

Conclusión

Pudimos descartar nuestra hipótesis nula. Descubrimos que efectivamente las mujeres cobran menos que los hombres en la industria. Como vimos a lo largo de este proceso, a veces esto no es evidente y requiere probar distintas fórmulas o estrategias para corroborar nuestra hipótesis.

Saludos!

Gracias a: Nadia Kazlauskas, Mauro García Aurelio, Román Avila, Alejandro Crosa, Andrés de Barbará, Mariano Barrios