Home > Linux > UTF-8 の文字コード 「〜」と「~」

UTF-8 の文字コード 「〜」と「~」

  • 2007-12-14 (金) 18:20
  • Linux

前記事のconvmvで、日本語文字コードEUCのファイル名とフォルダ名をUTF-8に変換することが簡単にできます。しかし、「」という文字が UTF-8 に変換後、波打っている「〜」になってしまいます。

この、「」は、EUCとUTF-8 には存在しますが、Shift-JIS には存在しない文字のようです。ちなみに「高島屋」のはしご高「」は、「異体字」と呼ばれており、Shift-JISとUTF-8では存在しますが、EUCでは存在していません。Windows と Mac が Shift-JIS が採用されている現実を考え、ワールドワイドな、Web や Linux OSでは、UTF-8 を使うのがベターと言えるでしょう。

高島屋のWebサイトで会社概要はどちらの高を使っていると思いますか?
アクセスして頂くと分かりますが、商号である「」を使っています。ただし、画像でした!!
高島屋

さて、「〜」と変換されてしまった、Linux 上のファイル名を 「~」に一括置換するプログラムを作成しましたので記録しておきます。

#!/usr/bin/perl -w

my($nowstr) = '〜';
my($newstr) = '~';

if(!@ARGV){$d=".";}else{$d=$ARGV[0];}
&StrConv($d);

sub StrConv{
  my($dir) = @_;
  my(@f,$fo,$co,$a);

  opendir(IN,$dir);
    @f=readdir IN;
  close IN;

  foreach(@f){
    if(/^[^.]/) {
      $fo = $_;
      $new = $fo;
      if($fo =~ /$nowstr/i) {
        $new =~ s/$nowstr/$newstr/gi;
        rename "$dir/$fo","$dir/$new";
        print "Cange: $dir/$fo -> $dir/$newn";
      }
      if( -d "$dir/$_" ){
        &StrConv("$dir/$_");
      }
    }
  }
}

Comments:0

Comment Form
Remember personal info

Trackback+Pingback:0

TrackBack URL for this entry
http://blog.ispace.co.jp/113/trackback/
Listed below are links to weblogs that reference
UTF-8 の文字コード 「〜」と「~」 from おまかせブログ2.0

Home > Linux > UTF-8 の文字コード 「〜」と「~」

おまかせSearch
おまかせブログ 人気記事
おまかせFeeds
おまかせブログ Meta
おまかせLinks
おまかせPR
CoRichブログランキング
ブログランキング
blogram投票ボタン
This Page Counter: 11,845

Page Top