OpenAI lança ferramenta de benchmark para avaliar performance do código dos modelos de IA