Testing of detection tools for AI-generated text

Table 6 Mapping of textual results to classification labels

Tool	Result	01-Hum, 02-MT	03-AI, 04-AI, 05-ManEd, 06-Para
Check for AI	“very low risk”	TN	FN
	“low risk”	PTN	PFN
	“medium risk”	UNC	UNC
	“high risk”	PFP	PTP
	“very high risk”	FP	TP
GPT Zero	“likely to be written entirely by human”	TN	FN
	“may include parts written by AI”	PFP	PTP
	“likely to be written entirely by AI”	FP	TP
OpenAI Text Classifier	“The classifier considers the text to be …”
	“… likely AI-generated.”	FP	TP
	“… possibly AI-generated.”	PFP	PTP
	“Unclear if it is AI-generated”	UNC	UNC
	“… unlikely AI-generated.”	PTN	PFN
	“… very unlikely AI-generated.”	TN	FN
DetectGPT	“very unlikely to be from GPT-2”	TN	FN
	“unlikely to be from GPT-2”	PTN	PFN
	“likely to be from GPT-2”	PFP	PTP
	“very likely from GPT-2”	FP	TP

ISSN: 1833-2595