tbasic 1.61を公開しました。

tbasicセット1.61を公開しました。

tbw161set.zip 
https://www.tbasic.org/downloads/index.html

です。

Ver. 1.6 及び 1.61の更新の詳細は,https://tbasic.org/documents/202501WhatsnewTBasic161.pdf
にあります。


Ver.1.6及び1.61の更新は主として,ユニコード,日本語処理関連のものです。tbasicがユニコード対応になったのは,2010年 Ver.1.2ですから,もう大分前のことです。この間,コンピューター利用環境の世界では,ユニコードが徐々に浸透し,今では意識しないでユニコードを利用する状況になりました。

しかし,それでも日本語環境になかで,旧来型のShift_JISエンコーディングが広く使われています。またメール環境の中では 今でも7ビットJISエンコーディングが普通に使われています。昔作成したデータやプログラムがShift_JISで記述されていることも多いでしょう。また,現在でも青空文庫で提供されてる文書は殆ど(すべて?)Shift_JISです。

このような中で,tbasicは初級インタプリタ言語として,できる限りそれらの環境に応じた処理ができるようなツールとして心がけています。種々のBASICがある中で,これはtbasicの特徴の一つとも思えます。それらは主として,読み取り,書き込みが種々のエンコーディングで可能ということで実現できます。今回の更新では,それらをより使いやすいように改良を加えました。

扱えるエンコーディングとしては,普通の使用では,Shift_JISとUTF-8があれば,ほぼ十分と思えます。しかし,tbasicでは,JIS,EUC,UTF-16,UTF-32も扱えます。これらを判定する関数として,GetFileEncodingName関数をサポートしています。

この関数でこれらすべてのエンコーディングを完全に判定することはできませんが,日本語を含むファイルについてはかなり正確に判定できると思っています。元々エンコーディング判定は原理的に完全にはできません。それは,同じファイルがいくつかのエンコーディングでファイルとして意味の持つものが存在するからです。

例えば,内容が”NX”というファイルをShift_JISで作ったとします。このファイルのバイナリとしての内容は,16進数で表すと,2バイトで,

4E 58

となります。これは,単純なアスキーファイルになりますから,UTF-8,JIS,EUCで読んでも内容は “NX”になります。ところが,このファイルをUTF-16のBigEndian として読むと,内容は”乘”になります,また,UTF-16のLittleEndianとして読むと,”塎”となります。ですから,この2バイトのファイルが与えられたとき,エンコーディングの情報が与えられていなければ,なんと読んでよいのか分かりません。

このように,ファイルのエンコーディングは,読む側が,予め知っているというのが原則になります。しかし,それも限界があり,GetFileEncodingName関数それを補完するものとしての位置づけです。

今回の更新では,このGetFileEncodingName関数の改良及び,種々のエンコーディングでの読み書きの改善を図りました。種々のエンコーディングを利用する状況は少ないかもしれませんが,必要になった場合,有効なツールとなると思われます。