我是靠谱客的博主 潇洒香氛,最近开发中收集的这篇文章主要介绍获取文件中汉字个数,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

MINGW + notepad++

strlen遇到汉字的问题:

#include <iostream>
#include <cstring>
using namespace std;

int main()
{
	cout << strlen("汉字") << endl;
}

以UTF-8无BOM编码输出结果为:6

以ANSI编码为:4

可见这个问题的答案与采用的字符编码方式有关。


对于GB2312:   

 汉字的第一字节:是从0xB0   开始编码  0xB0-0xF7(176-247)
 汉字的第二字节:是从0xA0   开始编码  0xA0-0xFE(160-254)

#include <stdio.h> 
#include <stdlib.h> 
#include <string.h> 

int main(int argc, char *argv[])
{
	int ch;
	int count = 0;
	FILE *fstream;

	if (argc < 2)
	{
		printf("Input Error!nUsage:programmename filenamen");
		printf("输入错误!n用法:程序名 文件名n");
		return -2;
	}

	if ((fstream = fopen(argv[1], "r")) == NULL)
	{
		printf("File open error!n");
		printf("文件打开出错!n");
		return -1;
	}

	while (!feof(fstream))
	{
		ch = getc(fstream);
		
		if (ch >= 0xB0)
		{
			ch = getc(fstream);
			if (ch >= 0XA0)
			{
				count++;
			}
		}
	}
	printf("%s 包含%d个汉字n", argv[1], count);
	return 0;
}


汉字编码问题请看:

http://ir.hit.edu.cn/~taozi/bianma.htm



转载于:https://my.oschina.net/N3verL4nd/blog/867024

最后

以上就是潇洒香氛为你收集整理的获取文件中汉字个数的全部内容,希望文章能够帮你解决获取文件中汉字个数所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(48)

评论列表共有 0 条评论

立即
投稿
返回
顶部