Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

关于异体字的转换规则 #33

Open
taowater opened this issue Oct 19, 2021 · 3 comments
Open

关于异体字的转换规则 #33

taowater opened this issue Oct 19, 2021 · 3 comments

Comments

@taowater
Copy link

您的项目很棒。我的需求主要是繁体异体转换为简体。
使用陈书序 一段文字测试:
陳書六本紀三十列傳凡三十六篇唐散騎常侍姚思廉撰始思廉父察梁陳之史官也錄二代之事未就而陳亡隋文帝見察甚重之每就察訪梁陳故事察因以所論載每一篇成輙奏之而文帝亦遣虞世基就察求其書又未就而察死察之將死屬思㢘以繼其業唐興武徳五年高祖以自魏以來二百餘嵗世統數更史事放逸乃詔撰次而思廉遂受詔為陳書久之猶不就貞觀三年遂詔論撰於秘書内省十年正月壬子始上之觀察等之為此書厯三世傳父子更數十嵗而後乃成盖其難如此然及其既成與宋魏梁齊等書世亦傳之者少故學者於其行事之迹亦罕得而詳也而其書亦以罕傳則自秘府所藏往往脱悞嘉祐六年八月始詔校讐使可鏤板行之天下而臣等言梁陳等書缺獨館閣所藏恐不足以定著願詔京師及州縣藏書之家使悉上之先皇帝為下其事至七年冬稍稍始集臣等以相校至八年七月陳書三十六篇者始校定可傳之學者其疑者亦不敢損益特各疏於篇末其書舊無目列傳名氏多闕謬因别為目錄一篇使覽者得詳焉夫陳之為陳盖偷為一切之計非有先王經紀禮義風化之美制治之法可章示後世然而兼權尚訃明於任使恭儉愛人則其始之所以興惑於邪臣溺於嬖妾忘患縱欲則其終之所以亡興亡之端莫非自己致者至於有所因造以為號令威刑職官州郡之制雖其事已淺然亦各施於一時皆學者之所不可不考也而當時之士自爭奪詐偽茍得偷合之徒尚不得不列以為世戒而況於壊亂之中蒼皇之際士之安貧樂義取舍去就不為患禍勢利動其心者亦不絶於其間若此人者可謂篤於善矣盖古人之所思見而不可得風雨之詩所為作者也安可使之泯泯不少概見於天下哉則陳之史其可廢乎盖此書成之既難其後又久不顯及宋興已百年古文遺事靡不畢講而始得盛行於天下列於學官其傳之之難又如此豈非遭遇固自有時也哉臣恂臣穆臣藻臣覺臣彦若臣洙臣鞏謹叙目錄昧死上

获得简体转换结果如下:
陈书六本纪三十列传凡三十六篇唐散骑常侍姚思廉撰始思廉父察梁陈之史官也录二代之事未就而陈亡隋文帝见察甚重之每就察访梁陈故事察因以所论载每一篇成輙奏之而文帝亦遣虞世基就察求其书又未就而察死察之将死属思㢘以继其业唐兴武徳五年高祖以自魏以来二百余岁世统数更史事放逸乃诏撰次而思廉遂受诏为陈书久之犹不就贞观三年遂诏论撰于秘书内省十年正月壬子始上之观察等之为此书厯三世传父子更数十岁而后乃成盖其难如此然及其既成与宋魏梁齐等书世亦传之者少故学者于其行事之迹亦罕得而详也而其书亦以罕传则自秘府所藏往往脱悮嘉祐六年八月始诏校讐使可镂板行之天下而臣等言梁陈等书缺独馆阁所藏恐不足以定著愿诏京师及州县藏书之家使悉上之先皇帝为下其事至七年冬稍稍始集臣等以相校至八年七月陈书三十六篇者始校定可传之学者其疑者亦不敢损益特各疏于篇末其书旧无目列传名氏多阙谬因别为目录一篇使览者得详焉夫陈之为陈盖偷为一切之计非有先王经纪礼义风化之美制治之法可章示后世然而兼权尚讣明于任使恭俭爱人则其始之所以兴惑于邪臣溺于嬖妾忘患纵欲则其终之所以亡兴亡之端莫非自己致者至于有所因造以为号令威刑职官州郡之制虽其事已浅然亦各施于一时皆学者之所不可不考也而当时之士自争夺诈伪茍得偷合之徒尚不得不列以为世戒而况于壊乱之中苍皇之际士之安贫乐义取舍去就不为患祸势利动其心者亦不绝于其间若此人者可谓笃于善矣盖古人之所思见而不可得风雨之诗所为作者也安可使之泯泯不少概见于天下哉则陈之史其可废乎盖此书成之既难其后又久不显及宋兴已百年古文遗事靡不毕讲而始得盛行于天下列于学官其传之之难又如此岂非遭遇固自有时也哉臣恂臣穆臣藻臣觉臣彦若臣洙臣巩谨叙目录昧死上

经校读发现:徳厯悮茍讐壊 数字异体字未有做转换逻辑。
其中:
徳:武徳五年,期望为德
厯:此書厯三世,期望为历
悮:往往脱悮,期望为误
茍:茍得偷合之徒,期望为苟
讐:始诏校讐,期望为雠
壊:而况于壊乱之中,期望为坏

按您的项目文档,异体字也当转换为简体。请问是特殊规则还是异体字不视做繁体?如果我要实现以上数字类似的异体字的转换,只能通过实现接口,增加映射关系吗?

@houbb
Copy link
Owner

houbb commented Oct 19, 2021

原始词库是基于 opencc 这个项目的,看了下【壊-坏】【讐-雠】【茍-苟】【悮-误】【厯-历】【徳-德】这几个映射关系没做收录。

解决方案的话:
(1)简单粗暴地,你可以在使用原有的方法之后,再做下替换。(临时方案)
(2)目前 ZhConvertBootstrap 其实允许自定义 dataMap,但是较为复杂,我就没写文档。
感兴趣的话,可以参考下 IDataMap 接口及其实现类:DataMapDefault。你可以这对繁简体做下拓展。

后续考虑做下两点改进:
a. 完善自定义词库及接口的文档,最好可以基于文件。便于用户使用。
b. 将你说的几个异体字默认收录。

@taowater
Copy link
Author

怎么样可以让异体繁体更完善呢,穷举吗😂

@houbb
Copy link
Owner

houbb commented Oct 20, 2021

怎么样可以让异体繁体更完善呢,穷举吗😂

穷举是最基本的,所以需要 opencc 这种词库作为基础。
汉字的数量并不多。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants