string/aarch64/memcmp.S

*412f47f9SXin Li/* memcmp - compare memory
*412f47f9SXin Li *
*412f47f9SXin Li * Copyright (c) 2013-2022, Arm Limited.
*412f47f9SXin Li * SPDX-License-Identifier: MIT OR Apache-2.0 WITH LLVM-exception
*412f47f9SXin Li */
*412f47f9SXin Li
*412f47f9SXin Li/* Assumptions:
*412f47f9SXin Li *
*412f47f9SXin Li * ARMv8-a, AArch64, Advanced SIMD, unaligned accesses.
*412f47f9SXin Li */
*412f47f9SXin Li
*412f47f9SXin Li#include "asmdefs.h"
*412f47f9SXin Li
*412f47f9SXin Li#define src1	x0
*412f47f9SXin Li#define src2	x1
*412f47f9SXin Li#define limit	x2
*412f47f9SXin Li#define result	w0
*412f47f9SXin Li
*412f47f9SXin Li#define data1	x3
*412f47f9SXin Li#define data1w	w3
*412f47f9SXin Li#define data2	x4
*412f47f9SXin Li#define data2w	w4
*412f47f9SXin Li#define data3	x5
*412f47f9SXin Li#define data3w	w5
*412f47f9SXin Li#define data4	x6
*412f47f9SXin Li#define data4w	w6
*412f47f9SXin Li#define tmp	x6
*412f47f9SXin Li#define src1end	x7
*412f47f9SXin Li#define src2end	x8
*412f47f9SXin Li
*412f47f9SXin Li
*412f47f9SXin LiENTRY (__memcmp_aarch64)
*412f47f9SXin Li	PTR_ARG (0)
*412f47f9SXin Li	PTR_ARG (1)
*412f47f9SXin Li	SIZE_ARG (2)
*412f47f9SXin Li
*412f47f9SXin Li	cmp	limit, 16
*412f47f9SXin Li	b.lo	L(less16)
*412f47f9SXin Li	ldp	data1, data3, [src1]
*412f47f9SXin Li	ldp	data2, data4, [src2]
*412f47f9SXin Li	ccmp	data1, data2, 0, ne
*412f47f9SXin Li	ccmp	data3, data4, 0, eq
*412f47f9SXin Li	b.ne	L(return2)
*412f47f9SXin Li
*412f47f9SXin Li	add	src1end, src1, limit
*412f47f9SXin Li	add	src2end, src2, limit
*412f47f9SXin Li	cmp	limit, 32
*412f47f9SXin Li	b.ls	L(last_bytes)
*412f47f9SXin Li	cmp	limit, 160
*412f47f9SXin Li	b.hs	L(loop_align)
*412f47f9SXin Li	sub	limit, limit, 32
*412f47f9SXin Li
*412f47f9SXin Li	.p2align 4
*412f47f9SXin LiL(loop32):
*412f47f9SXin Li	ldp	data1, data3, [src1, 16]
*412f47f9SXin Li	ldp	data2, data4, [src2, 16]
*412f47f9SXin Li	cmp	data1, data2
*412f47f9SXin Li	ccmp	data3, data4, 0, eq
*412f47f9SXin Li	b.ne	L(return2)
*412f47f9SXin Li	cmp	limit, 16
*412f47f9SXin Li	b.ls	L(last_bytes)
*412f47f9SXin Li
*412f47f9SXin Li	ldp	data1, data3, [src1, 32]
*412f47f9SXin Li	ldp	data2, data4, [src2, 32]
*412f47f9SXin Li	cmp	data1, data2
*412f47f9SXin Li	ccmp	data3, data4, 0, eq
*412f47f9SXin Li	b.ne	L(return2)
*412f47f9SXin Li	add	src1, src1, 32
*412f47f9SXin Li	add	src2, src2, 32
*412f47f9SXin LiL(last64):
*412f47f9SXin Li	subs	limit, limit, 32
*412f47f9SXin Li	b.hi	L(loop32)
*412f47f9SXin Li
*412f47f9SXin Li	/* Compare last 1-16 bytes using unaligned access.  */
*412f47f9SXin LiL(last_bytes):
*412f47f9SXin Li	ldp	data1, data3, [src1end, -16]
*412f47f9SXin Li	ldp	data2, data4, [src2end, -16]
*412f47f9SXin LiL(return2):
*412f47f9SXin Li	cmp	data1, data2
*412f47f9SXin Li	csel	data1, data1, data3, ne
*412f47f9SXin Li	csel	data2, data2, data4, ne
*412f47f9SXin Li
*412f47f9SXin Li	/* Compare data bytes and set return value to 0, -1 or 1.  */
*412f47f9SXin LiL(return):
*412f47f9SXin Li#ifndef __AARCH64EB__
*412f47f9SXin Li	rev	data1, data1
*412f47f9SXin Li	rev	data2, data2
*412f47f9SXin Li#endif
*412f47f9SXin Li	cmp	data1, data2
*412f47f9SXin Li	cset	result, ne
*412f47f9SXin Li	cneg	result, result, lo
*412f47f9SXin Li	ret
*412f47f9SXin Li
*412f47f9SXin Li	.p2align 4
*412f47f9SXin LiL(less16):
*412f47f9SXin Li	add	src1end, src1, limit
*412f47f9SXin Li	add	src2end, src2, limit
*412f47f9SXin Li	tbz	limit, 3, L(less8)
*412f47f9SXin Li	ldr	data1, [src1]
*412f47f9SXin Li	ldr	data2, [src2]
*412f47f9SXin Li	ldr	data3, [src1end, -8]
*412f47f9SXin Li	ldr	data4, [src2end, -8]
*412f47f9SXin Li	b	L(return2)
*412f47f9SXin Li
*412f47f9SXin Li	.p2align 4
*412f47f9SXin LiL(less8):
*412f47f9SXin Li	tbz	limit, 2, L(less4)
*412f47f9SXin Li	ldr	data1w, [src1]
*412f47f9SXin Li	ldr	data2w, [src2]
*412f47f9SXin Li	ldr	data3w, [src1end, -4]
*412f47f9SXin Li	ldr	data4w, [src2end, -4]
*412f47f9SXin Li	b	L(return2)
*412f47f9SXin Li
*412f47f9SXin LiL(less4):
*412f47f9SXin Li	tbz	limit, 1, L(less2)
*412f47f9SXin Li	ldrh	data1w, [src1]
*412f47f9SXin Li	ldrh	data2w, [src2]
*412f47f9SXin Li	cmp	data1w, data2w
*412f47f9SXin Li	b.ne	L(return)
*412f47f9SXin LiL(less2):
*412f47f9SXin Li	mov	result, 0
*412f47f9SXin Li	tbz	limit, 0, L(return_zero)
*412f47f9SXin Li	ldrb	data1w, [src1end, -1]
*412f47f9SXin Li	ldrb	data2w, [src2end, -1]
*412f47f9SXin Li	sub	result, data1w, data2w
*412f47f9SXin LiL(return_zero):
*412f47f9SXin Li	ret
*412f47f9SXin Li
*412f47f9SXin LiL(loop_align):
*412f47f9SXin Li	ldp	data1, data3, [src1, 16]
*412f47f9SXin Li	ldp	data2, data4, [src2, 16]
*412f47f9SXin Li	cmp	data1, data2
*412f47f9SXin Li	ccmp	data3, data4, 0, eq
*412f47f9SXin Li	b.ne	L(return2)
*412f47f9SXin Li
*412f47f9SXin Li	/* Align src2 and adjust src1, src2 and limit.  */
*412f47f9SXin Li	and	tmp, src2, 15
*412f47f9SXin Li	sub	tmp, tmp, 16
*412f47f9SXin Li	sub	src2, src2, tmp
*412f47f9SXin Li	add	limit, limit, tmp
*412f47f9SXin Li	sub	src1, src1, tmp
*412f47f9SXin Li	sub	limit, limit, 64 + 16
*412f47f9SXin Li
*412f47f9SXin Li	.p2align 4
*412f47f9SXin LiL(loop64):
*412f47f9SXin Li	ldr	q0, [src1, 16]
*412f47f9SXin Li	ldr	q1, [src2, 16]
*412f47f9SXin Li	subs	limit, limit, 64
*412f47f9SXin Li	ldr	q2, [src1, 32]
*412f47f9SXin Li	ldr	q3, [src2, 32]
*412f47f9SXin Li	eor	v0.16b, v0.16b, v1.16b
*412f47f9SXin Li	eor	v1.16b, v2.16b, v3.16b
*412f47f9SXin Li	ldr	q2, [src1, 48]
*412f47f9SXin Li	ldr	q3, [src2, 48]
*412f47f9SXin Li	umaxp	v0.16b, v0.16b, v1.16b
*412f47f9SXin Li	ldr	q4, [src1, 64]!
*412f47f9SXin Li	ldr	q5, [src2, 64]!
*412f47f9SXin Li	eor	v1.16b, v2.16b, v3.16b
*412f47f9SXin Li	eor	v2.16b, v4.16b, v5.16b
*412f47f9SXin Li	umaxp	v1.16b, v1.16b, v2.16b
*412f47f9SXin Li	umaxp	v0.16b, v0.16b, v1.16b
*412f47f9SXin Li	umaxp	v0.16b, v0.16b, v0.16b
*412f47f9SXin Li	fmov	tmp, d0
*412f47f9SXin Li	ccmp	tmp, 0, 0, hi
*412f47f9SXin Li	b.eq	L(loop64)
*412f47f9SXin Li
*412f47f9SXin Li	/* If equal, process last 1-64 bytes using scalar loop.  */
*412f47f9SXin Li	add	limit, limit, 64 + 16
*412f47f9SXin Li	cbz	tmp, L(last64)
*412f47f9SXin Li
*412f47f9SXin Li	/* Determine the 8-byte aligned offset of the first difference.  */
*412f47f9SXin Li#ifdef __AARCH64EB__
*412f47f9SXin Li	rev16	tmp, tmp
*412f47f9SXin Li#endif
*412f47f9SXin Li	rev	tmp, tmp
*412f47f9SXin Li	clz	tmp, tmp
*412f47f9SXin Li	bic	tmp, tmp, 7
*412f47f9SXin Li	sub	tmp, tmp, 48
*412f47f9SXin Li	ldr	data1, [src1, tmp]
*412f47f9SXin Li	ldr	data2, [src2, tmp]
*412f47f9SXin Li#ifndef __AARCH64EB__
*412f47f9SXin Li	rev	data1, data1
*412f47f9SXin Li	rev	data2, data2
*412f47f9SXin Li#endif
*412f47f9SXin Li	mov	result, 1
*412f47f9SXin Li	cmp	data1, data2
*412f47f9SXin Li	cneg	result, result, lo
*412f47f9SXin Li	ret
*412f47f9SXin Li
*412f47f9SXin LiEND (__memcmp_aarch64)