Chrome90以前でPDFを作成すると、見た目は同じでも文字コードが異なる文字が出力される

ALL
スポンサーリンク

Chromeブラウザで 印刷実行時に、[送信先] を “PDFに保存” を選ぶと、WEBページをPDFに出来ます。
ところが、ふと気づいたのですが、Chromeバージョン89,90 でPDFを作成すると、漢字によっては元の文字と異なる文字コードに変わります。
これ、見た目は同じでも、実は部首を表す文字に変わります。

いくつか試した限りでは、どうも、次のような漢字の部首名を表す文字で PDFに出力されます。

⼀⼁⼂⼃⼄⼅⼆⼇⼈⼉⼊⼋⼌⼍⼎⼏⼐⼑⼒⼓⼔⼕⼖⼗⼘⼙⼚⼛⼜⼝⼞⼟⼠⼡⼢⼣⼤⼥⼦⼧⼨⼩⼪⼫⼬⼭
⼮⼯⼰⼱⼲⼳⼴⼵⼶⼷⼸⼹⼺⼻⼼⼽⼾⼿⽀⽁⽂⽃⽄⽅⽆⽇⽈⽉⽊⽋⽌⽍⽎⽏⽐⽑⽒⽓⽔⽕⽖⽗⽘⽙⽚⽛
⽜⽝⽞⽟⽠⽡⽢⽣⽤⽥⽦⽧⽨⽩⽪⽫⽬⽭⽮⽯⽰⽱⽲⽳⽴⽵⽶⽷⽸⽹⽺⽻⽼⽽⽾⽿⾀⾁⾂⾃⾄⾅⾆⾇⾈⾉
⾊⾋⾌⾍⾎⾏⾐⾑⾒⾓⾔⾕⾖⾗⾘⾙⾚⾛⾜⾝⾞⾟⾠⾡⾢⾣⾤⾥⾦⾧⾨⾩⾪⾫⾬⾭⾮⾯⾰⾱⾲⾳⾴⾵⾶⾷
⾸⾹⾺⾻⾼⾽⾾⾿⿀⿁⿂⿃⿄⿅⿆⿇⿈⿉⿊⿋⿌⿍⿎⿏⿐⿑⿒⿓⿔⿕

このようなPDFを AcrobatReader で開くと、検索ができない文字が混ざることになります。
(Chromeブラウザ上でPDFを開いたときは検索できるようです)

よく使いそうな、一、口、水、火と見た目が同じ文字があります。
本記事のページを Chromeバージョン89,90 で PDF にして、AcrobatReaderで開くと、「一、口、水、火」の「」内の文字は検索にひっかからなくなります。
見た目が同じで、実体は漢字の部首名を表す文字に代わってしまうためです。

この部首名を表す漢字に代わってしまう問題、総務省のマイナンバーカード交付状況の資料PDFでも発生していたようですね。

漢字のようで漢字でないUnicodeの「康熙部首」と「CJK部首補助」|TechRacho(テックラッチョ)〜エンジニアの「?」を「!」に〜|BPS株式会社

現在リリースされている Chrome91では起こらないのですが、Chrome90以前で作成したPDFには注意が必要ですね。

コメント