string/aarch64/strcmp.S

*412f47f9SXin Li/*
*412f47f9SXin Li * strcmp - compare two strings
*412f47f9SXin Li *
*412f47f9SXin Li * Copyright (c) 2012-2022, Arm Limited.
*412f47f9SXin Li * SPDX-License-Identifier: MIT OR Apache-2.0 WITH LLVM-exception
*412f47f9SXin Li */
*412f47f9SXin Li
*412f47f9SXin Li
*412f47f9SXin Li/* Assumptions:
*412f47f9SXin Li *
*412f47f9SXin Li * ARMv8-a, AArch64.
*412f47f9SXin Li * MTE compatible.
*412f47f9SXin Li */
*412f47f9SXin Li
*412f47f9SXin Li#include "asmdefs.h"
*412f47f9SXin Li
*412f47f9SXin Li#define REP8_01 0x0101010101010101
*412f47f9SXin Li#define REP8_7f 0x7f7f7f7f7f7f7f7f
*412f47f9SXin Li
*412f47f9SXin Li#define src1		x0
*412f47f9SXin Li#define src2		x1
*412f47f9SXin Li#define result		x0
*412f47f9SXin Li
*412f47f9SXin Li#define data1		x2
*412f47f9SXin Li#define data1w		w2
*412f47f9SXin Li#define data2		x3
*412f47f9SXin Li#define data2w		w3
*412f47f9SXin Li#define has_nul		x4
*412f47f9SXin Li#define diff		x5
*412f47f9SXin Li#define off1		x5
*412f47f9SXin Li#define syndrome	x6
*412f47f9SXin Li#define tmp		x6
*412f47f9SXin Li#define data3		x7
*412f47f9SXin Li#define zeroones	x8
*412f47f9SXin Li#define shift		x9
*412f47f9SXin Li#define off2		x10
*412f47f9SXin Li
*412f47f9SXin Li/* On big-endian early bytes are at MSB and on little-endian LSB.
*412f47f9SXin Li   LS_FW means shifting towards early bytes.  */
*412f47f9SXin Li#ifdef __AARCH64EB__
*412f47f9SXin Li# define LS_FW lsl
*412f47f9SXin Li#else
*412f47f9SXin Li# define LS_FW lsr
*412f47f9SXin Li#endif
*412f47f9SXin Li
*412f47f9SXin Li/* NUL detection works on the principle that (X - 1) & (~X) & 0x80
*412f47f9SXin Li   (=> (X - 1) & ~(X | 0x7f)) is non-zero iff a byte is zero, and
*412f47f9SXin Li   can be done in parallel across the entire word.
*412f47f9SXin Li   Since carry propagation makes 0x1 bytes before a NUL byte appear
*412f47f9SXin Li   NUL too in big-endian, byte-reverse the data before the NUL check.  */
*412f47f9SXin Li
*412f47f9SXin Li
*412f47f9SXin LiENTRY (__strcmp_aarch64)
*412f47f9SXin Li	PTR_ARG (0)
*412f47f9SXin Li	PTR_ARG (1)
*412f47f9SXin Li	sub	off2, src2, src1
*412f47f9SXin Li	mov	zeroones, REP8_01
*412f47f9SXin Li	and	tmp, src1, 7
*412f47f9SXin Li	tst	off2, 7
*412f47f9SXin Li	b.ne	L(misaligned8)
*412f47f9SXin Li	cbnz	tmp, L(mutual_align)
*412f47f9SXin Li
*412f47f9SXin Li	.p2align 4
*412f47f9SXin Li
*412f47f9SXin LiL(loop_aligned):
*412f47f9SXin Li	ldr	data2, [src1, off2]
*412f47f9SXin Li	ldr	data1, [src1], 8
*412f47f9SXin LiL(start_realigned):
*412f47f9SXin Li#ifdef __AARCH64EB__
*412f47f9SXin Li	rev	tmp, data1
*412f47f9SXin Li	sub	has_nul, tmp, zeroones
*412f47f9SXin Li	orr	tmp, tmp, REP8_7f
*412f47f9SXin Li#else
*412f47f9SXin Li	sub	has_nul, data1, zeroones
*412f47f9SXin Li	orr	tmp, data1, REP8_7f
*412f47f9SXin Li#endif
*412f47f9SXin Li	bics	has_nul, has_nul, tmp	/* Non-zero if NUL terminator.  */
*412f47f9SXin Li	ccmp	data1, data2, 0, eq
*412f47f9SXin Li	b.eq	L(loop_aligned)
*412f47f9SXin Li#ifdef __AARCH64EB__
*412f47f9SXin Li	rev	has_nul, has_nul
*412f47f9SXin Li#endif
*412f47f9SXin Li	eor	diff, data1, data2
*412f47f9SXin Li	orr	syndrome, diff, has_nul
*412f47f9SXin LiL(end):
*412f47f9SXin Li#ifndef __AARCH64EB__
*412f47f9SXin Li	rev	syndrome, syndrome
*412f47f9SXin Li	rev	data1, data1
*412f47f9SXin Li	rev	data2, data2
*412f47f9SXin Li#endif
*412f47f9SXin Li	clz	shift, syndrome
*412f47f9SXin Li	/* The most-significant-non-zero bit of the syndrome marks either the
*412f47f9SXin Li	   first bit that is different, or the top bit of the first zero byte.
*412f47f9SXin Li	   Shifting left now will bring the critical information into the
*412f47f9SXin Li	   top bits.  */
*412f47f9SXin Li	lsl	data1, data1, shift
*412f47f9SXin Li	lsl	data2, data2, shift
*412f47f9SXin Li	/* But we need to zero-extend (char is unsigned) the value and then
*412f47f9SXin Li	   perform a signed 32-bit subtraction.  */
*412f47f9SXin Li	lsr	data1, data1, 56
*412f47f9SXin Li	sub	result, data1, data2, lsr 56
*412f47f9SXin Li	ret
*412f47f9SXin Li
*412f47f9SXin Li	.p2align 4
*412f47f9SXin Li
*412f47f9SXin LiL(mutual_align):
*412f47f9SXin Li	/* Sources are mutually aligned, but are not currently at an
*412f47f9SXin Li	   alignment boundary.  Round down the addresses and then mask off
*412f47f9SXin Li	   the bytes that precede the start point.  */
*412f47f9SXin Li	bic	src1, src1, 7
*412f47f9SXin Li	ldr	data2, [src1, off2]
*412f47f9SXin Li	ldr	data1, [src1], 8
*412f47f9SXin Li	neg	shift, src2, lsl 3	/* Bits to alignment -64.  */
*412f47f9SXin Li	mov	tmp, -1
*412f47f9SXin Li	LS_FW	tmp, tmp, shift
*412f47f9SXin Li	orr	data1, data1, tmp
*412f47f9SXin Li	orr	data2, data2, tmp
*412f47f9SXin Li	b	L(start_realigned)
*412f47f9SXin Li
*412f47f9SXin LiL(misaligned8):
*412f47f9SXin Li	/* Align SRC1 to 8 bytes and then compare 8 bytes at a time, always
*412f47f9SXin Li	   checking to make sure that we don't access beyond the end of SRC2.  */
*412f47f9SXin Li	cbz	tmp, L(src1_aligned)
*412f47f9SXin LiL(do_misaligned):
*412f47f9SXin Li	ldrb	data1w, [src1], 1
*412f47f9SXin Li	ldrb	data2w, [src2], 1
*412f47f9SXin Li	cmp	data1w, 0
*412f47f9SXin Li	ccmp	data1w, data2w, 0, ne	/* NZCV = 0b0000.  */
*412f47f9SXin Li	b.ne	L(done)
*412f47f9SXin Li	tst	src1, 7
*412f47f9SXin Li	b.ne	L(do_misaligned)
*412f47f9SXin Li
*412f47f9SXin LiL(src1_aligned):
*412f47f9SXin Li	neg	shift, src2, lsl 3
*412f47f9SXin Li	bic	src2, src2, 7
*412f47f9SXin Li	ldr	data3, [src2], 8
*412f47f9SXin Li#ifdef __AARCH64EB__
*412f47f9SXin Li	rev	data3, data3
*412f47f9SXin Li#endif
*412f47f9SXin Li	lsr	tmp, zeroones, shift
*412f47f9SXin Li	orr	data3, data3, tmp
*412f47f9SXin Li	sub	has_nul, data3, zeroones
*412f47f9SXin Li	orr	tmp, data3, REP8_7f
*412f47f9SXin Li	bics	has_nul, has_nul, tmp
*412f47f9SXin Li	b.ne	L(tail)
*412f47f9SXin Li
*412f47f9SXin Li	sub	off1, src2, src1
*412f47f9SXin Li
*412f47f9SXin Li	.p2align 4
*412f47f9SXin Li
*412f47f9SXin LiL(loop_unaligned):
*412f47f9SXin Li	ldr	data3, [src1, off1]
*412f47f9SXin Li	ldr	data2, [src1, off2]
*412f47f9SXin Li#ifdef __AARCH64EB__
*412f47f9SXin Li	rev	data3, data3
*412f47f9SXin Li#endif
*412f47f9SXin Li	sub	has_nul, data3, zeroones
*412f47f9SXin Li	orr	tmp, data3, REP8_7f
*412f47f9SXin Li	ldr	data1, [src1], 8
*412f47f9SXin Li	bics	has_nul, has_nul, tmp
*412f47f9SXin Li	ccmp	data1, data2, 0, eq
*412f47f9SXin Li	b.eq	L(loop_unaligned)
*412f47f9SXin Li
*412f47f9SXin Li	lsl	tmp, has_nul, shift
*412f47f9SXin Li#ifdef __AARCH64EB__
*412f47f9SXin Li	rev	tmp, tmp
*412f47f9SXin Li#endif
*412f47f9SXin Li	eor	diff, data1, data2
*412f47f9SXin Li	orr	syndrome, diff, tmp
*412f47f9SXin Li	cbnz	syndrome, L(end)
*412f47f9SXin LiL(tail):
*412f47f9SXin Li	ldr	data1, [src1]
*412f47f9SXin Li	neg	shift, shift
*412f47f9SXin Li	lsr	data2, data3, shift
*412f47f9SXin Li	lsr	has_nul, has_nul, shift
*412f47f9SXin Li#ifdef __AARCH64EB__
*412f47f9SXin Li	rev     data2, data2
*412f47f9SXin Li	rev	has_nul, has_nul
*412f47f9SXin Li#endif
*412f47f9SXin Li	eor	diff, data1, data2
*412f47f9SXin Li	orr	syndrome, diff, has_nul
*412f47f9SXin Li	b	L(end)
*412f47f9SXin Li
*412f47f9SXin LiL(done):
*412f47f9SXin Li	sub	result, data1, data2
*412f47f9SXin Li	ret
*412f47f9SXin Li
*412f47f9SXin LiEND (__strcmp_aarch64)
*412f47f9SXin Li