bing输入法(bing输入法app)

前沿拓展:

bing输入法

必应输入法是使用非常是比较常见的问题,eg:“牛奶”常常被南方人发音为“liulai”,遇到类似的问题,可通过沿推排盐司盾设置属性-> 常用-> 模糊音-> 选项,设置模糊音选项。
 


英文字母只有26个,可以一个键盘一个字母的输入。

中文常用字有3500个,中华字海中收入全量简体字有8万5千个,GB2312 编码收入汉字20902个。也就是说无法在一个汉字一个键盘的方式实现输入。

现在回头看,中文输入法,基本经历了自然音节编码输入,到偏旁笔画拆字输入,再回归自然音节输入的过程。

输入法输入汉字的快慢与汉字编码长度相关,也就是输入汉字需要敲击几次键盘。

GBK2312 一共有6700多个常用汉字,每一个汉字出现的概率:

P1, P2,P3,… , P6700

大致估算需要10个比特。

输入法有26个字母,每个字母可以代表log26大概是4.7比特,

也就是说平均一个汉字需要敲击10/4.7 约等于2.1次键。

如果把汉字组成词,平均输入一个字可以少敲几次键盘,

不考虑上下文情况下,以词为单位统计,汉字信息熵大概是8bit,则平均输入一个汉字要敲击8/4.7 约等于1.7次键盘。

考虑上下文情况下,对汉语建立基于词的统计语言模型,汉字信息熵可以降到6bit 左右。则平均输入一个汉字敲击6/4.7 月等于1.3次键,那么这是汉字的输入已经比英语快得多了。

紫光拼音,是通过建立大词库解立大词库,词越来越多,越来越长,甚至将整句唐诗作为一个词,没有根本做到利用上下文。

利用上下文最好的办法是借助语言模型,而语言模型对内存要求高,而输入法不能占有过多的内容,因此目前google、搜狗、百度、微软几家输入法基本在同一档次。

3、拼音转汉字

其实就是拼音到汉字的转换解码函数,每输入一个字母,就类似导航中车辆每走一步,利用动态规划方法不断调整输出。

4、个性化语言模型

现有汉字拼音输入法距离信息论极限还有很大距离,从理论上讲,只要语言模型足够大,拼音输入法的平均敲击次数就可以接近理论值。

个性化的特点是,不同人写东西主题不同,用词习惯不同,说话和写作水平不同,应该各自有自己的语言模型。

通过不断收集个人写的内容,训练一个特定的语言模型,可以较快的接近信息理论值。实现快速输入的目的。

拓展知识:

原创文章,作者:九贤生活小编,如若转载,请注明出处:http://www.wangguangwei.com/89528.html