Análise da Participação por Gênero no Issue Tracking do Github

Esse projeto foi desenvolvido durante meu trabalho de conclusão de curso. Neste repositório estão armazenados os dados que realizei a extração, e tratamento, de forma que pudesse ser feita a análise sobre a qualidade e quantidade da participação de homens em mulheres em issues da plataforma do GitHub.

☕️ Extração e Tratamento dos Dados

Como primeira etapa do trabalho foi realizado a seleção dos repositórios a serem extraídos pelo trabalho, para isso foram selecionados repositórios de projetos open source na plataforma do GitHub que possuissem alguma correspondência de temas com projetos open source que trabalham para realizar a inclusão e permanência de mulheres na área da computação. Abaixo estão listados os projetos utilizados então na extração dos dados.

Após extraídos os dados, foi realizado o cálculo da relevância temática de cada um dos comentários das issues, em que a métrica da relevância temática é calculada utilizando do conceito da similaridade de cossenos, que realiza a verificação da similaridade de um comentário com a sua issue em questão, sendo expressado pela fórmula:

$RT = \frac{S_{CI} + S_{CD}}{2}$

em que, ($S_{CI}$) é a similaridade do comentário em relação à issue, considerando seu título e descrição, e ($S_{CD}$) sendo a similaridade do comentário com a discussão, que considerada além da issue os comentários anteriores.

Por fim, durante a extração e tratamento dos dados foi feito a verificação do gênero de cada uma das pessoas desenvolvedoras participantes das issues, tanto em comentários, quanto na postagem de issues, utilizando da ferramenta NamSor, que ao enviar o nome da pessoa desenvolvedora ele retorna o gênero ao qual o mesmo possui maior propabilidade de ser, dessa forma, como é utilizado apenas do nome, os gêneros possíveis são feminino e masculino. Além disso, também é calculado a reputação do desenvolvedor, que leva em consideração o cálculo feito pela plataforma do GitScore.

🎲 Sobre os Dados

Para auxiliar no processo de análises futuras dos dados aqui armazenados, abaixo é deixado uma tabela com a descrição de cada uma colunas dos dois datasets gerados durante a extração dos dados. Primeiramente temos as informações sobre os dados de comentários das issues, em que é importante ressaltar que todas as colunas que possuem o nome issue inclusa possuem informações extraídas pela API do GitHub, ou seja, questões como o título e descrição da issue.

NumeroComentario	Comentario	DataComentario	RelevanciaTematica	Reputacao	AnosPlataforma	Genero
Inteiro, indicando o número do comentário na issue	String, contendo o conteúdo do comentário	Date, contendo a data de postagem do comentário	Float, valor calculado da relevância temática do comentário	Int, valor calculado da reputação da pessoa desenvolvedora que realizou a postagem do comentário	Int, número de anos de participação da pessoa desenvolvedora que realizou a postagem do comentário	String, gênero da pessoa desenvolvedora que realizou a postagem do comentário

E segundamente, e finalmente, as informações sobre os dados das issues em si.

NumeroIssue	Genero
Int, contendo o número da issue em questão	Strig, contendo o gênero da pessoa desenvolvedora que criou a issue em questão

📊 Análise dos Dados

Para a análise dos dados foi utilizado do Jupyter Notebook, gerando assim diversos gráficos com informações relevantes sobre os dados extraídos. Tais análises levaram em consideração os tópicos levantados durante a escrita do artigo para defesa do trabalho de conclusão de curso, sendo os pontos mais importantes entender a diferença na qualidade dos comentários feitos por homens e mulheres, a quantidade de comentários e issues postados por homens e mulheres, e a relação da métrica de relevância temática dos comentários em relação aos anos de participação das pessoas desenvolvedoras na plataforma do GitHub e a reputação das mesmas.

Name		Name	Last commit message	Last commit date
Latest commit History 24 Commits
AnaliseDadosGitHub.ipynb		AnaliseDadosGitHub.ipynb
README.md		README.md
dadosGitHubComentarios.csv		dadosGitHubComentarios.csv
dadosGitHubIssues.csv		dadosGitHubIssues.csv
gif.gif		gif.gif

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Análise da Participação por Gênero no Issue Tracking do Github

☕️ Extração e Tratamento dos Dados

🎲 Sobre os Dados

📊 Análise dos Dados

About

Releases

Packages

Languages

stardotwav/AnaliseGeneroGitHub

Folders and files

Latest commit

History

Repository files navigation

Análise da Participação por Gênero no Issue Tracking do Github

☕️ Extração e Tratamento dos Dados

🎲 Sobre os Dados

📊 Análise dos Dados

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages