字符串是以空字符()结尾的char类型数组。因此,可以把上一章学到的数组和指针的知识应用于字符串。不过,由于字符串十分常用,所以C提供了许多专门用于处理字符串的函数。字符串的性质、如何声明并初始化字符串、如何在程序中输入和输出字符串,以及如何操控字符串。
程序strings1.c 演示了在程序中表明字符串的几种方式。
// strings1.c
#include <stdio.h>
#define MSG "I am a symbolic string constant."
#define MAXLENGTH 81
int main(void)
{
char words[MAXLENGTH] = "I am a string in an array.";
const char * pt1 = "Something is pointing at me.";
puts("Here are some strings:");
puts(MSG);
puts(words);
puts(pt1);
words[8] = 'p';
puts(words);
return 0;
}
和printf()函数一样,puts()函数也属于stdio.h系列的输入/输出函数。但是,与printf()不同的是,puts()函数只显示字符串,而且自动在显示的字符串末尾加上换行符。下面是该程序的输出:
: Here are some strings:
: I am a symbolic string constant.
: I am a string in an array.
: Something is pointing at me.
: I am a spring in an array.
我们先分析一下该程序中定义字符串的几种方法,然后再讲解把字符串读入程序涉及的一些操作,最后学习如何输出字符串。
1 在程序中定义字符串
程序清单11.1中使用了多种方法(即字符串常量、char类型数组、指向char的指针)定义字符串。程序应该确保有足够的空间存储字符串,这一点我们稍后讨论。
1.1.字符串字面量(字符串常量)
用双引号括起来的内容称为字符串字面量(string-literal),也叫作字符串常量(string-constant)。双引号中的字符和编译器自动加入末尾的字符,都作为字符串存储在内存中,所以”I am a symbolic string constant.”、”I am astring in an array.”、”Something is pointed at me.”、”Here are somestrings:”都是字符串字面量。
从ANSI-C标准起,如果字符串字面量之间没有间隔,或者用空白字符分隔,C会将其视为串联起来的字符串字面量。例如:
char greeting[50] = "Hello, and"" how are" " you"
" today!";
与下面的代码等价:
char greeting[50] = "Hello, and how are you today!";
如果要在字符串内部使用双引号,必须在双引号前面加上一个反斜杠():
printf(""Run, Spot, run!" exclaimed Dick.
");
输出如下:
"Run, Spot, run!" exclaimed Dick.
字符串常量属于静态存储类别(static storage class),这说明如果在函数中使用字符串常量,该字符串只会被存储一次,在整个程序的生命期内存在,即使函数被调用多次。用双引号括起来的内容被视为指向该字符串存储位置的指针。这类似于把数组名作为指向该数组位置的指针。如果的确 如此,程序strptr.c中的程序会输出什么?
/* strptr.c -- strings as pointers */
#include <stdio.h>
int main(void)
{
printf("%s, %p, %c
", "We", "are", *"space farers");
return 0;
}
printf()根据%s转换说明打印We,根据%p转换说明打印一个地址。因此,如果”are”代表一个地址,printf()将打印该字符串首字符的地址(如果使用ANSI之前的实现,可能要用%u或%lu取代%p)。最后,*”space farers”表明该字符串所指向地址上存储的值,应该是字符串”space farers”的首字符。是否真的是这样?下面是该程序的输出:
: We, 0x100000f61, s
1.2.字符串数组和初始化
定义字符串数组时,必须让编译器知道需要多少空间。一种方法是用足够空间的数组存储字符串。在下面的声明中,用指定的字符串初始化数组m1:
const char m1[40] = "Limit yourself to one line's worth.";
const表明不会更改这个字符串。这种形式的初始化比标准的数组初始化形式简单得多:
const char m1[40] = { 'L',
'i', 'm', 'i', 't', ' ', 'y', 'o', 'u', 'r', 's', 'e', 'l',
'f', ' ', 't', 'o', ' ', 'o', 'n', 'e', ' ',
'l', 'i', 'n', 'e', '", 's', ' ', 'w', 'o', 'r',
't', 'h', '.', '0'
};
注意最后的空字符。没有这个空字符,这就不是一个字符串,而是一个字符数组。
在指定数组大小时,要确保数组的元素个数至少比字符串长度多1(为了容纳空字符)。所有未被使用的元素都被自动初始化为0(这里的0指的是char形式的空字符,不是数字字符0),如下图所示。

Initializing an array.
一般,让编译器确定数组的大小很方便。回忆一下,省略数组初始化声明中的大小,编译器会自动计算数组的大小:
const char m2[] = "If you can't think of anything, fake it.";
让编译器确定初始化字符数组的大小很合理。由于处理字符串的函数一般都不知道数组的大小,这些函数通过查找字符串末尾的空字符确定字符串在何处结束。
让编译器计算数组的大小只能用在初始化数组时。如果创建一个稍后再填充的数组,就必须在声明时指定大小。声明数组时,数组大小必须是可求值的整数。在C99新增变长数组之前,数组的大小必须是整型常量,包括由整型常量组成的表达式。
int n = 8;
char cookies[1]; // valid
char cakes[2 + 5]; // valid, size is a constant expression
char pies[2*sizeof(long double) + 1]; // valid
char crumbs[n]; // invalid prior to C99, a VLA after C99
字符数组名和其他数组名一样,是该数组首元素的地址。因此,假设有下面的初始化:
char car[10] = "Tata";
那么,以下表达式都为真:
car == &car[0] , *car == 'T', and *(car+1) == car[1] == 'a'
还可以使用指针表明法创建字符串。例如,程序清单11.1中使用了下面的声明:
const char * pt1 = "Something is pointing at me.";
该声明和下面的声明几乎一样:
const char ar1[] = "Something is pointing at me.";
以上两个声明表明,pt1和ar1都是该字符串的地址。在这两种情况下,带双引号的字符串本身决定了预留给字符串的存储空间。尽管如此,这两种形式并不完全一样。
1.3.数组和指针
数组形式和指针形式有何不同?以上面的声明为例,数组形式(ar1[])在计算机的内存中分配为一个内含29个元素的数组(每个元素对应一个字符,还加上一个末尾的空字符''),每个元素被初始化为字符串字面量对应的字符。一般,字符串都作为可执行文件的一部分存储在数据段中。当把程序载入内存时,也载入了程序中的字符串。字符串存储在静态存储区(static-memory)中。但是,程序在开始运行时才会为该数组分配内存。此时,才将字符串拷贝到数组中。注意,此时字符串有两个副本。一个是在静态内存中的字符串字面量,另一个是存储在ar1数组中的字符串。
此后,编译器便把数组名ar1识别为该数组首元素地址(&ar1[0])的别名。这里关键要理解,在数组形式中,ar1是地址常量。不能更改ar1,如果改变了ar1,则意味着改变了数组的存储位置(即地址)。可以进行类似ar1+1这样的操作,标识数组的下一个元素。但是不允许进行++ar1这样的操作。递增运算符只能用于变量名前(或概括地说,只能用于可修改的左值),不能用于常量。
指针形式(*pt1)也使得编译器为字符串在静态存储区预留29个元素的空间。另外,一旦开始执行程序,它会为指针变量pt1留出一个存储位置,并把字符串的地址存储在指针变量中。该变量最初指向该字符串的首字符,但是它的值可以改变。因此,可以使用递增运算符。例如,++pt1将指向第2个字符(o)。
字符串字面量被视为const数据。由于pt1指向这个const数据,所以应该把pt1声明为指向const数据的指针。这意味着不能用pt1改变它所指向的数据,但是依旧可以改变pt1的值(即,pt1指向的位置)。如果把一个字符串字面量拷贝给一个数组,就可以随意改变数据,除非把数组声明为const。
总之,初始化数组把静态存储区的字符串拷贝到数组中,而初始化指针只把字符串的地址拷贝给指针。程序addresses.c 演示了这一点。
// addresses.c -- addresses of strings
#define MSG "I'm special."
#include <stdio.h>
int main()
{
char ar[] = MSG;
const char *pt = MSG;
printf("address of "I'm special": %p
", "I'm special");
printf(" address ar: %p
", ar);
printf(" address pt: %p
", pt);
printf(" address of MSG: %p
", MSG);
printf("address of "I'm special": %p
", "I'm special");
return 0;
}
下面是在我们的系统中运行该程序后的输出:
address of "I'm special": 0x100000f0c
address ar: 0x7fff5fbff8c7
address pt: 0x100000ee0
address of MSG: 0x100000ee0
address of "I'm special": 0x100000f0c
该程序的输出说明了什么?第一,pt和MSG的地址一样,而ar的地址不同,这与我们前面讨论的内容一致。第二,虽然字符串字面量”I'm special”在程序的两个printf()函数中出现了两次,但是编译器只使用了一个存储位置,而且与MSG的地址一样。编译器可以把多次使用的一样字面量存储在一处或多处。另一个编译器可能在不同的位置存储3个”I'm special”。第三,静态数据使用的内存与ar使用的动态内存不同。
不仅值不同,特定编译器甚至使用不同的位数表明两种内存。数组和指针表明字符串的区别是否很重大?一般不太重大,但是这取决于想用程序做什么。我们来进一步讨论这个主题。
1.4.数组和指针的区别
初始化字符数组来存储字符串和初始化指针来指向字符串有何区别(“指向字符串”的意思是指向字符串的首字符)?例如,假设有下面两个声明:
char heart[] = "I love Tillie!";
const char *head = "I love Millie!";
两者主要的区别是:数组名heart是常量,而指针名head是变量。那么,实际使用有什么区别?
第一,两者都可以使用数组表明法:
for (i = 0; i < 6; i++)
putchar(heart[i]);
putchar('n');
for (i = 0; i < 6; i++)
putchar(head[i]));
putchar('n');
上面两段代码的输出是:
I love
I love
其次,两者都能进行指针加法操作:
for (i = 0; i < 6; i++)
putchar(*(heart + i));
putchar('n');
for (i = 0; i < 6; i++)
putchar(*(head + i));
putchar('n');
输出如下:
I love
I love
但是,只有指针表明法可以进行递增操作:
while (*(head) != '0') /* stop at end of string */
putchar(*(head++)); /* print character, advance pointer */
这段代码的输出如下:
I love Millie!
假设想让head和heart统一,可以这样做:
head = heart; /* head now points to the array heart */
这使得head指针指向heart数组的首元素。但是,不能这样做:
heart = head; /* illegal construction */
这类似于x = 3;和3 = x;的情况。赋值运算符的左侧必须是变量(或概括地说是可修改的左值),如*pt_int。顺带一提,head = heart;不会导致head指向的字符串消失,这样做只是改变了存储在head中的地址。除非已经保存了”Ilove Millie!”的地址,否则当head指向别处时,就无法再访问该字符串。
另外,还可以改变heart数组中元素的信息:
: heart[7]= 'M';
or:
*(heart + 7) = 'M';
数组的元素是变量(除非数组被声明为const),但是数组名不是变量。我们来看一下未使用const限定符的指针初始化:
char * word = "frame";
是否能使用该指针修改这个字符串?
word[1] = 'l'; // allowed??
编译器可能允许这样做,但是对当前的C标准而言,这样的行为是未定义的。例如,这样的语句可能导致内存访问错误。缘由前面提到过,编译器可以使用内存中的一个副本来表明所有完全一样的字符串字面量。例如,下面的语句都引用字符串”Klingon”的一个内存位置:
char * p1 = "Klingon";
p1[0] = 'F'; // ok?
printf("Klingon");
printf(": Beware the %ss!n", "Klingon");
也就是说,编译器可以用一样的地址替换每个”Klingon”实例。如果编译器使用这种单次副本表明法,并允许p1[0]修改'F',那将影响所有使用该字符串的代码。所以以上语句打印字符串字面量”Klingon”时实际上显示的是”Flingon”:
Flingon: Beware the Flingons!
实际上在过去,一些编译器由于这方面的缘由,其行为难以捉摸,而另一些编译器则导致程序异常中断。因此,提议在把指针初始化为字符串字面量时使用const限定符:
const char * pl = "Klingon"; // recommended usage
不过,把非const数组初始化为字符串字面量却不会导致类似的问题。由于数组获得的是原始字符串的副本。
总之,如果打算修改字符串,就不要用指针指向字符串字面量。
1.5.字符串数组
创建一个字符串数组一般很方便,可以通过数组下标访问多个不同的字符串。程序arrchar.c 演示了两种方法:指向字符串的指针数组和char类型数组的数组。
// arrchar.c -- array of pointers, array of strings
#include <stdio.h>
#define SLEN 40
#define LIM 5
int main(void)
{
const char *mytalents[LIM] = {
"Adding numbers swiftly",
"Multiplying accurately", "Stashing data",
"Following instructions to the letter",
"Understanding the C language"
};
char yourtalents[LIM][SLEN] = {
"Walking in a straight line",
"Sleeping", "Watching television",
"Mailing letters", "Reading email"
};
int i;
puts("Let's compare talents.");
printf ("%-36s %-25sn", "My Talents", "Your Talents");
for (i = 0; i < LIM; i++)
printf("%-36s %-25s
", mytalents[i], yourtalents[i]);
printf("nsizeof mytalents: %zd, sizeof yourtalents: %zd
",
sizeof(mytalents), sizeof(yourtalents));
return 0;
}
下面是该程序的输出:
: Let's compare talents.
: My Talents Your Talents nAdding numbers swiftly Walking in a straight line
: Multiplying accurately Sleeping
: Stashing data Watching television
: Following instructions to the letter Mailing letters
: Understanding the C language Reading email
: nsizeof mytalents: 40, sizeof yourtalents: 200
从某些方面来看,mytalents和yourtalents超级类似。两者都代表5个字符串。使用一个下标时都分别表明一个字符串,如mytalents[0]和yourtalents[0];使用两个下标时都分别表明一个字符,例如mytalents[1][2]表明mytalents数组中第2个指针所指向的字符串的第3个字符'l',yourtalents[1][2]表明youttalentes数组的第2个字符串的第3个字符'e'。而且,两者的初始化方式也一样。
但是,它们也有区别。mytalents数组是一个内含5个指针的数组,在我们的系统中共占用40字节。而yourtalents是一个内含5个数组的数组,每个数组内含40个char类型的值,共占用200字节。所以,虽然mytalents[0]和yourtalents[0]都分别表明一个字符串,但mytalents和yourtalents的类型并不一样。mytalents中的指针指向初始化时所用的字符串字面量的位置,这些字符串字面量被存储在静态内存中;而yourtalents中的数组则存储着字符串字面量的副本,所以每个字符串都被存储了两次。此外,为字符串数组分配内存的使用率较低。yourtalents中的每个元素的大小必须一样,而且必须是能存储最长字符串的大小。
我们可以把yourtalents想象成矩形二维数组,每行的长度都是40字节;把mytalents想象成不规则的数组,每行的长度不同。图11.2演示了这两种数组的情况(实际上,mytalents数组的指针元素所指向的字符串不必存储在连续的内存中,图中所示只是为了强调两种数组的不同)。

Rectangular versus ragged array.
综上所述,如果要用数组表明一系列待显示的字符串,请使用指针数组,由于它比二维字符数组的效率高。但是,指针数组也有自身的缺点。mytalents中的指针指向的字符串字面量不能更改;而yourtalentsde中的内容可以更改。所以,如果要改变字符串或为字符串输入预留空间,不要使用指向字符串字面量的指针。
2 指针和字符串
读者可能已经注意到了,在讨论字符串时或多或少会涉及指针。实际上,字符串的绝大多数操作都是通过指针完成的。例如,思考程序清单11.5中的程序。
/* p_and_s.c -- pointers and strings */
#include <stdio.h>
int main(void)
{
const char * mesg = "Don't be a fool!";
const char * copy;
copy = mesg;
printf("%sn", copy);
printf("mesg = %s; &mesg = %p; value = %p
",
mesg, &mesg, mesg);
printf("copy = %s; © = %p; value = %p
",
copy, ©, copy);
return 0;
}
输出结果为:
: Don't be a fool!nmesg = Don't be a fool!; &mesg = 0x7ffea87db638; value = 0x55699cde3008
: copy = Don't be a fool!; © = 0x7ffea87db640; value = 0x55699cde3008
你可能认为该程序拷贝了字符串”Don't be a fool!”,程序的输出似乎也验证了你的猜测:
Don't be a fool!
mesg = Don't be a fool!; &mesg = 0x0012ff48; value = 0x0040a000
copy = Don't be a fool!; © = 0x0012ff44; value = 0x0040a000
我们来仔细分析最后两个printf()的输出。第一第1项,mesg和copy都以字符串形式输出(%s转换说明)。这里没问题,两个字符串都是”Don't be afool!”。
接着第2项,打印两个指针的地址。如上输出所示,指针mesg和copy分别存储在地址为0x0012ff48和0x0012ff44的内存中。
注意最后一项,显示两个指针的值。所谓指针的值就是它存储的地址。mesg和copy的值都是0x0040a000,说明它们都指向的同一个位置。因此,程序并未拷贝字符串。语句copy = mesg;把mesg的值赋给copy,即让copy也指向mesg指向的字符串。
为什么要这样做?为何不拷贝整个字符串?假设数组有50个元素,思考一下哪种方法更效率:拷贝一个地址还是拷贝整个数组?一般,程序要完成某项操作只需要知道地址就可以了。如果的确 需要拷贝整个数组,可以使用strcpy()或strncpy()函数,本章稍后介绍这两个函数。我们已经讨论了如何在程序中定义字符串,接下来看看如何从键盘输入字符串。















暂无评论内容