Tags：utf-8 - 沧海一粟 - Web系统架构与服务器运维,php开发

在这里让我们一起学习，一起提高！

php和mysql采用utf-8编码时实现按照一个文本字段的首字母的拼音顺序进行排序的方法

jed , 2008-11-21 14:07 , 代码编程 , 评论(0) , 阅读(7270) , Via 本站原创

在utf-8编码的情况下,首字母可能是中文或者英文,英文排在前头,中文排在后面,中文需要按照拼音顺序排序,请问如何实现?
如果是GBK编码的，可以直接对字段进行order by ，但是纯utf-8环境下不行。于是在网上找到了如下两种方法，我试的是第二种，还不错。

Ruby代码

conv = Iconv.new("GBK", "utf-8")

mysql:

Sql代码

SELECT * FROM table ORDER BY CONVERT( NAME USING gbk ) ;

Tags: utf-8 , 排序

php采用UTF-8编码时候中文拼音排序

jed , 2008-11-21 14:01 , 代码编程 , 评论(1) , 阅读(10572) , Via 本站原创

因为我的记忆力严重不足，所以这几天写了一个UTF-8的备忘录，结果发现在UTF-8的编码下，mysql不能正确地排序，于是换到php里面用sort，继续失败……汗死……后来一想，可能是因为UTF-8的编码不是按照拼音来编码的，所以才会导致这个原因，另外貌似GBK的字库也不是完全按拼音排序的，"窦"字在GBK里面存在，但是却排在最后面，为了避免错乱，故在排序时把"窦"替换成同音字"豆"，即可，于是写了这个排序函数……哎，弄了我一个晚上，结果就8行代码……无语了……

PHP代码

function name_cmp($a, $b) {
$a = str_replace('窦', '豆', $a);
$b = str_replace('窦', '豆', $b);
$a = iconv('UTF-8', 'GBK', $a);
$b = iconv('UTF-8', 'GBK', $b);
$a = ereg_replace('^(a|an|the) ', '', strtolower($a));
$b = ereg_replace('^(a|an|the) ', '', strtolower($b));
return strcasecmp($a, $b);
}

usort($array, 'name_cmp');

关于网上的mysql按拼音查询的两种说法:
1. 用ORDER BY BINARY(字段) ASC的方式查询数据库
    实际上在纯UTF-8的环境下是实现不了了，只有用UTF-8的编码去保存GBK的字符之后才能这样使用，而且不能忘记替换像"窦"这种特殊的字哦……

2. 在数据库中新建一个字段，保存汉字拼音，再利用该字段查询
    这个方法在数据库里面看起来比较直观，不过同样需要把汉字转换成拼音，直接获得拼音的首字母还是不够的.......
    在网上找了份代码，运行的还不错，不过需要下载一个字库文件:


RAR压缩包：
下载该附件：http://www.bigasp.com.cn/Uploads/Files/Code/gbk拼音字库.rar

    预览地址:http://www.bigasp.com.cn/extra/gbk2py
    代码如下:

PHP代码

class my_Getpy {
var $_dat = 'py.dat';
var $_fd  = false;

function my_Getpy($pdat = '') {
  if ('' != $pdat)
  $this->_dat = $pdat;
}

function load($pdat = '') {
  if ('' == $pdat)
  $pdat = $this->_dat;
  $this->unload();
  $this->_fd = @fopen($pdat, 'rb');
  if (!$this->_fd) {
   trigger_error("unable to load PinYin data file `$pdat`", E_USER_WARNING);
   return false;
  }
  return true;
}

function unload() {
  if ($this->_fd) {
   @fclose($this->_fd);
   $this->_fd = false;
  }
}

function get($zh) {
  if (strlen($zh) != 2) {
   trigger_error("`$zh` is not a valid GBK hanzi", E_USER_WARNING);
   return false;
  }
  if (!$this->_fd && !$this->load()) return false;
  $high = ord($zh[0]) - 0x81;
  $low  = ord($zh[1]) - 0x40;
  // 计算偏移位置
  $nz = ($ord0 - 0x81);
  $off = ($high<<8) + $low - ($high * 0x40);
  // 判断 off 值
  if ($off < 0) {
   trigger_error("`$zh` is not a valid GBK hanzi-2", E_USER_WARNING);
   return false;
  }
  fseek($this->_fd, $off * 8, SEEK_SET);
  $ret = fread($this->_fd, 8);
  $ret = unpack('a8py', $ret);
  return $ret['py'];
}

function _my_Getpy() {
  $this->_unload();
}
}
// demo 测试例子
?>

<title>GBK码汉字转拼音</title>
<h1>GBK码汉字转拼音</h1>

<form method=get>
输入汉字试试：<input type="text" size="16" name="zh">
<input type="submit">
</form>

<?php
if ($str = $_GET['zh']) {
$py = new my_Getpy;
$len = strlen($str);
$ret = '';
for ($i = 0; $i < $len; $i++) {
  if (ord($str[$i]) > 0x80) {
   $xx = $py->get(substr($str, $i, 2));
   $ret .= ($xx ?  $xx . ' ' : substr($str, $i, 2));
   $i++;
  } else {
   $ret .= $str[$i];
  }
}
$py->unload();
echo "字串 `<font color=red>{$str}</font>` 的拼音是: <font color=red>{$ret}</font>\n";
}
?>

Tags: utf-8 , 排序

百度免费搜索代码不支持utf-8的解决方法

jed , 2008-6-28 06:15 , 搜索优化 , 评论(1) , 阅读(205472) , Via 本站原创

今天在主页上加了个百度搜索，发现百度的搜索代码不支持utf8，找了半天，发现个解决方法。

在搜索代码中加上下面这段代码：

Tags: utf-8 , seo

mysql字符集设置及其转换

jed , 2008-5-15 08:13 , 数据库技术 , 评论(0) , 阅读(7092) , Via 本站原创

个人建议,数据库字符集尽量使用utf8(utf-8),以使你的数据能很顺利的实现迁移,因为utf8字符集是目前最适合于实现多种不同字符集之间的转换的字符集,尽管你在命令行工具上无法正确查看数据库中的内容,我依然强烈建议使用utf8作为默认字符集.
接下来是完整的一个例子：
1.创建数据库表
mysql>CREATE DATABASE IF NOT EXISTS my_db default charset utf8 COLLATE utf8_general_ci;
#注意后面这句话 "COLLATE utf8_general_ci",大致意思是在排序时根据utf8变码格式来排序
#那么在这个数据库下创建的所有数据表的默认字符集都会是utf8了

mysql>create table my_table (name varchar(20) not null default '')type=myisam default charset utf8;
#这句话就是创建一个表了,制定默认字符集为utf8

2.写数据
例子1是通过php直接插入数据:
a.php
mysql_connect('localhost','user','password');
mysql_select_db('my_db');

//请注意,这步很关键,如果没有这步,所有的数据读写都会不正确的
//它的作用是设置本次数据库联接过程中,数据传输的默认字符集
mysql_query("set names utf8;");

//必须将gb2312(本地编码)转换成utf-8,也可以使用iconv()函数
mysql_query(mb_convet_encoding("insert into my_table values('测试');", "utf-8", "gb2312"));
?>

例子是通过页面提交插入数据2:
b.php
//输出本页编码为utf-8
header("content-type:text/html; charset=utf-8");

mysql_connect('localhost','user','password');
mysql_select_db('my_db');

if(isset($_REQUEST['name'))
{
   //由于上面已经指定本页字符集为utf-8了,因此无需转换编码
   mysql_query(sprintf("insert into my_table values('%s');", $_REQUEST['name']));
}

$q = mysql_query("select * from my_table");
while($r = mysql_fetch_row($q))
{
   print_r($r);
}
?>

自此,使用utf8字符集的完整的例子结束了.
如果你想使用gb2312编码,那么建议你使用latin1作为数据表的默认字符集,这样就能直接用中文在命令行工具中插入数据,并且可以直接显示出来.而不要使用gb2312或者gbk等字符集,如果担心查询排序等问题,可以使用binary属性约束,例如:
create table my_table ( name varchar(20) binary not null default '')type=myisam default charset latin1;

附：旧数据升级办法
以原来的字符集为latin1为例，升级成为utf8的字符集。原来的表: old_table (default charset=latin1)，新表：new_table(default charset=utf8)。
第一步：导出旧数据
mysqldump --default-character-set=latin1 -hlocalhost -uroot -B my_db --tables old_table > old.sql
第二步：转换编码
iconv -t utf-8 -f gb2312 -c old.sql > new.sql
在这里，假定原来的数据默认是gb2312编码。
第三步：导入
修改old.sql，增加一条sql语句： "SET NAMES utf8;"，保存。
mysql -hlocalhost -uroot my_db < new.sql
大功告成！！

Tags: utf-8 , 数据库 , mysql字符编码 , mysql编码

MySQL 数据库字符编码转换问题

jed , 2008-5-15 07:29 , 数据库技术 , 评论(0) , 阅读(6599) , Via 本站原创

Mysql数据库的字符编码转换还真是相当的麻烦
当初不小心用了GBK现在要回到utf-8，而数据已经非常大了

网上找了无数资料，一般都是利用mysqldump加iconv再导回去，但做了之后发现会有错误。还有比较夸张的方法是用编辑器来转换编码，这对于海量数据根本行不通。

最后还是利用了Navicat来解决。
我使用的方法比较保险，用了远程和本地两个数据库。
远程的是gbk编码，想转成utf-8的。
直接在Navicat中建立两条连接，一条是连接远程的，将连接字符编码设置为gbk。
本地设置为utf-8或者数据库默认是utf-8就选择默认的连接字符编码。

选择使用DATA TRANSFER并按步骤将远程数据库中的数据传到本地上。
完成后可以检查本地的数据，应该就是utf-8格式了，修改连接字符编码再将本地的数据导到远程的。
这样就实现了数据库字符编码的转换工作，而且相当的安全。

Tags: utf-8 , mysql , 字符编码 , uft8 , mysql编码

MySQL数据库字符编码集合

jed , 2008-5-15 07:26 , 数据库技术 , 评论(0) , 阅读(5611) , Via 本站原创

MySQL数据库字符集的默认配置：

       在mysql的配置文件中把默认的字符集改成utf8，这样创建数据库和表的时候，默认的字符集就是utf8。

MySQL的几个变量：

当一个 PHP 程序与 MySQL 建立连接后，这个程序发送给 MySQL 的数据采用的是什么字符集？mysql如何检测并判断使用何种字符集？要注意以下几个变量：

      character_set_server：这是设置服务器使用的字符集
     character_set_database：这是设置数据库使用的字符集
      character_set_client ：这是设置客户端发送Query串使用的字符集
      character_set_connection ：这是设置服务器需要将收到的查询串转换成的字符集
      character_set_results ：这是设置服务器要将结果数据转换到的字符集，转换后才发送给客户端

因为配置文件设置的 default_character_set 是 utf8，数据表默认采用的就是 utf-8 建立的。这也应该是所有采用 MySQL 4.1 的主机提供商应该采用的配置。所以我们要保证的只是客户端与 MySQL 交互之间指定编码的正确。
这只有两种可能，客户端以 gb2312 格式发送数据，或者以 utf-8 格式发送数据。
如果以 gb2312 格式发送:
SET character_set_client='gb2312'
SET character_set_connection='utf8' 或者
SET character_set_connection='gb2312'
都是可以的，都能够保证数据在编码转换中不出现丢失，也就是保证存储入数据库的是正确的内容。
怎么保证取出的是正确的内容呢？考虑到绝大部分客户端 (包括 WP)，发送数据的编码也就是它所希望收到数据的编码，所以:
SET character_set_results='gb2312'
可以保证取出给浏览器显示的格式就是 gb2312。不过这样的缺点是不论是插入、更新、删除还是查询操作，只要是操纵数据库，都要先执行SET NAMES "gb2312"，这样才能保证插入和显示的正确性。如果插入操作前没有执行这条语句，仅在查询时执行该语句，则仍然无法保证显示的正确性。
如果是第二种情况，客户端以 utf-8 格式发送 (WP 的默认情况)，可以采用下述配置:
SET character_set_client='utf8'
SET character_set_connection='utf8'
SET character_set_results='utf8'
这个配置就等价于 SET NAMES ‘utf8′。

Tags: utf-8gb2312 , uft8 , 字符编码 , 数据库

Mysql中校对集utf8_unicode_ci与utf8_general_ci的区别

jed , 2008-4-17 10:29 , 数据库技术 , 评论(0) , 阅读(5536) , Via 本站原创

一直对utf8_unicode_ci与utf8_general_ci这2个校对集很迷惑，今天查了手册有了点眉目。不过对中文字符集来说采用utf8_unicode_ci与utf8_general_ci时有何区别还是不清楚？
下面摘录一下Mysql 5.1中文手册中关于utf8_unicode_ci与utf8_general_ci的说明：

    当前，utf8_unicode_ci校对规则仅部分支持Unicode校对规则算法。一些字符还是不能支持。并且，不能完全支持组合的记号。这主要影响越南和俄罗斯的一些少数民族语言，如：Udmurt 、Tatar、Bashkir和Mari。

    utf8_unicode_ci的最主要的特色是支持扩展，即当把一个字母看作与其它字母组合相等时。例如，在德语和一些其它语言中‘ß’等于‘ss’。

    utf8_general_ci是一个遗留的校对规则，不支持扩展。它仅能够在字符之间进行逐个比较。这意味着utf8_general_ci校对规则进行的比较速度很快，但是与使用utf8_unicode_ci的校对规则相比，比较正确性较差）。

    例如，使用utf8_general_ci和utf8_unicode_ci两种校对规则下面的比较相等：
    Ä = A
    Ö = O
    Ü = U

    两种校对规则之间的区别是，对于utf8_general_ci下面的等式成立：
    ß = s

    但是，对于utf8_unicode_ci下面等式成立：
    ß = ss

    对于一种语言仅当使用utf8_unicode_ci排序做的不好时，才执行与具体语言相关的utf8字符集校对规则。例如，对于德语和法语，utf8_unicode_ci工作的很好，因此不再需要为这两种语言创建特殊的utf8校对规则。

    utf8_general_ci也适用与德语和法语，除了‘ß’等于‘s’，而不是‘ss’之外。如果你的应用能够接受这些，那么应该使用utf8_general_ci，因为它速度快。否则，使用utf8_unicode_ci，因为它比较准确。

Tags: mysql , uft8 , utf-8 , 字符集

Mysql数据库UTF－8编码问题汇总

jed , 2008-4-17 10:26 , 数据库技术 , 评论(0) , 阅读(7429) , Via 本站原创

建表时先加上default charset=utf8;

插入中文数据之前(Mysql命令提示符下)是用set names gb2312;

在php页面中设置是mysql_query('SET NAMES UTF8');

在php页面(已设定为utf8后)中插入中文数据不会出现乱码,应该插入数据库的时候就是以utf8字符集插入中文数据的故不会出现问题!

在php页面前面不要忘了加上header('content-type;text/html;charset=utf-8');

大家在MySQL命令提示符下想查看数据,中文数据有可能是如下 '?????'

所以大家想查看到正确的中文要与插入中文数据一样使用set names gb2312;

阅读全文

Tags: utf8 , utf-8 , utf－8 , mysq , 编码 , 字符集

MySQL字符集及MySQL编码转换

jed , 2006-11-16 11:40 , 数据库技术 , 评论(0) , 阅读(5123) , Via 本站原创

今天找到这篇文章，里面提到从latin1到UTF8的MySQL编码转换。收藏一下，最近要将所有的数据库都转一次，一直错误的使用latin1，再不转以后麻烦大了。

出处：未知

个人建议,数据库字符集尽量使用utf8(utf-8),以使你的数据能很顺利的实现迁移,因为utf8字符集是目前最适合于实现多种不同字符集之间的转换的字符集,尽管你在命令行工具上无法正确查看数据库中的内容,我依然强烈建议使用utf8作为默认字符集.
接下来是完整的一个例子：
1.创建数据库表

mysql>CREATE DATABASE IF NOT EXISTS my_db default charset utf8 COLLATE utf8_general_ci;
#注意后面这句话 “COLLATE utf8_general_ci“,大致意思是在排序时根据utf8编码格式来排序
#那么在这个数据库下创建的所有数据表的默认字符集都会是utf8了

mysql>create table my_table (name varchar(20) not null default '')type=myisam default charset utf8;
#这句话就是创建一个表了,制定默认字符集为utf8

2.写数据
通过php直接插入数据:

<?php
mysql_connect('localhost','user','password');
mysql_select_db('my_db');

//请注意,这步很关键,如果没有这步,所有的数据读写都会不正确的
//它的作用是设置本次数据库联接过程中,数据传输的默认字符集
mysql_query("set names utf8;");

//必须将gb2312(本地编码)转换成utf-8,也可以使用iconv()函数
mysql_query(mb_convet_encoding("insert into my_table values('测试');", "utf-8", "gb2312"));
?>

通过页面提交插入数据:

<?php
//输出本页编码为utf-8
header("content-type:text/html; charset=utf-8");

mysql_connect('localhost','user','password');
mysql_select_db('my_db');

if(isset($_REQUEST['name'))
{
//由于上面已经指定本页字符集为utf-8了,因此无需转换编码
mysql_query(sprintf("insert into my_table values('%s');", $_REQUEST['name']));
}

$q = mysql_query("select * from my_table");
while($r = mysql_fetch_row($q))
{
print_r($r);
}
?>

<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
<form action="" method="post">
<input type="text" name="name" value="">
<input type="submit" value='submit'>
</form>

自此,使用utf8字符集的完整的例子结束了.
如果你想使用gb2312编码,那么建议你使用latin1作为数据表的默认字符集,这样就能直接用中文在命令行工具中插入数据,并且可以直接显示出来.而不要使用gb2312或者gbk等字符集,如果担心查询排序等问题,可以使用binary属性约束,例如:

create table my_table ( name varchar(20) binary not null default '')type=myisam default charset latin1;
附：旧数据升级办法
以原来的字符集为latin1为例，升级成为utf8的字符集。原来的表: old_table (default charset=latin1)，新表：new_table(default charset=utf8)。
第一步：导出旧数据

mysqldump --default-character-set=latin1 -hlocalhost -uroot -B my_db --tables old_table > old.sql
第二步：转换编码

iconv -t utf-8 -f gb2312 -c old.sql > new.sql
在这里，假定原来的数据默认是gb2312编码。
第三步：导入
修改old.sql，增加一条sql语句： “SET NAMES utf8;“，保存。

mysql -hlocalhost -uroot my_db < new.sql
大功告成！

引用：http://www.21andy.com/blog/20060514/297.html

Tags: 字符集 , utf8 , utf-8 , mysql

不用iconv函数实现UTF-8编码转换GB2312的PHP函数

jed , 2006-10-11 16:08 , 代码编程 , 评论(0) , 阅读(7876) , Via 本站原创

如果使用 iconv() 函数转换编码就相比比较简单了，不过很多虚拟主机里并不支持这个组件，我在网上找半天，才找到一个gb2312转utf-8的方法，但不能逆向转换。

这个函数如下：

/*******************************
//GB转UTF-8编码
*******************************/

阅读全文

Tags: utf-8 , gb2312 , php函数

分页： 1/1

[ 显示模式：摘要 | 列表 ]

沧海一粟

php和mysql采用utf-8编码时实现按照一个文本字段的首字母的拼音顺序进行排序的方法

php采用UTF-8编码时候中文拼音排序

百度免费搜索代码不支持utf-8的解决方法

mysql字符集设置及其转换

MySQL 数据库字符编码转换问题

MySQL数据库字符编码集合

Mysql中校对集utf8_unicode_ci与utf8_general_ci的区别

Mysql数据库UTF－8编码问题汇总

MySQL字符集及MySQL编码转换

不用iconv函数实现UTF-8编码转换GB2312的PHP函数

公告

赞助商链接

在线音乐

邮箱登陆

热门文章

热门Tags

选择模板

赞助商广告


用户名：
密码：