上一页

ⓘ Category:计算语言学




                                               

中文自动分词

中文自动分词 指的是使用计算机自动对中文文本进行词语的切分,即像英文那样使得中文句子中的词之间有空格以标识。中文自动分词被认为是中文自然语言处理中的一个最基本的环节。

                                               

声学模型

声学模型 (Acoustic model)是语音识别系统中最为重要的部分之一,目前的主流系统多采用隐马尔科夫模型进行建模。 隐马尔可夫模型的概念是一个离散时域有限状态自动机,隐马尔可夫模型HMM是指这一马尔可夫模型的内部状态外界不可见,外界只能看到各个时刻的输出值。对语音识别系统,输出值通常就是从各个帧计算而得的声学特征。用HMM刻画语音信号需作出两个假设,一是内部状态的转移只与上一状态有关,另一是输出值只与当前状态(或当前的状态转移)有关,这两个假设大大降低了模型的复杂度。HMM的打分、解码和训练相应的算法是前向算法、维特比算法和前向后向算法。

                                               

文化组学

文化组学 (英語: culturomics )是指通过电子化文本的量化分析研究人类行为与文化趋势的 计算词典学 方法。研究者对海量数字档案进行数据挖掘以研究人们使用的语言与词汇,进而揭示其中反应出来的文化现象。" 文化组学”一词是2010年创造的新词,由英文中的" 文化”( culture )与" 组学”( omics )二词合并而成,当年上发表的( Quantitative Analysis of Culture Using Millions of Digitized Books )一文首次提出了该词。论文的作者为哈佛大学学者让-巴蒂斯特 米歇尔(Jean-Baptiste Michel)与埃雷兹 利柏曼 埃登(Erez Lieberman Aiden)。 米歇尔与埃登还参与了Google实验室的项目 Google Ngram Viewer 。这个项目通过n元语法(n-gr ...

                                               

文本挖掘

文本挖掘 有时也被称为文字探勘、文本数据挖掘等,大致相当于文字分析,一般指文本处理过程中产生高质量的信息。高质量的信息通常通过分类和预测来产生,如模式识别。文本挖掘通常涉及输入文本的处理过程(通常进行分析,同时加上一些衍生语言特征以及消除杂音,随后插入到数据库中) ,产生结构化数据,并最终评价和解释输出。高品质的文本挖掘通常是指某种组合的相关性,新颖性和趣味性。典型的文本挖掘方法包括文本分类,文本聚类,概念/实体挖掘,生产精确分类,观点分析,文档摘要和实体关系模型(即,学习已命名实体之间的关系) 。 文本分析包括了信息检索、词典分析来研究词语的频数分布、模式识别、标签\注释、信息抽取,数据挖掘技 ...

                                               

汉语自动句法分析

汉语自动句法分析 包含对汉语句法的定义以及自动分析方法。 对于如何定义,从汉语语言学家的角度来看,往往是考虑如何生成句子的问题;从计算语言学家的角度来看,则往往是一个思考如何拆分句子的问题。计算语言学家需要为输入的句子实现一个自动拆分方法,这是句法分析的实现形式。

                                               

自动标引

自动标引 (英語: Automatic Indexing )包括关键词自动提取(又称自动抽词标引)与自动赋词标引两种类型。关键词自动提取是一种识别有意义且具有代表性片段或词汇的自动化技术。关键词自动提取在文本挖掘域被称为关键词抽取(英語: Keyword Extraction ),在计算语言学领域通常着眼于术语自动识别(英語: Automatic Term Recognition ),在信息检索领域,就是指自动标引。自动标引属于文本信息抽取的范畴。文本信息抽取是从文本数据中抽取人们关注的特定的信息。

                                               

自然语言理解

自然語言理解是研究如何讓電腦讀懂人類語言的一門技術,是自然語言處理技術中最困難的一項。

                                               

語言模型

統計式的語言模型 是一個機率分佈,给定一个长度为 m {\displaystyle m} 的字詞所組成的字串 w 1, w 2., w m {\displaystyle w_{1},w_{2}.,w_{m}} ,派機率給字串: P {\displaystyle P} 。 语言模型提供上下文来区分听起来相似的单词和短语。例如,短语" 再给我两份葱,让我把记忆煎成饼”和" 再给我两分钟,让我把记忆结成冰”听起来相似,但意思不同。 語言模型經常使用在許多自然語言處理方面的應用,如語音識別,機器翻譯,詞性標註,句法分析,手写体识别和資訊檢索。由於字詞與句子都是任意組合的長度,因此在訓練過的語言模型中會出現未曾出現的字串資料稀疏的問題,也使得在語料庫中估算字串的機率變得很困難,這也是要使用近似的平滑 ...

                                               

词嵌入

词嵌入 是自然语言处理(NLP)中语言模型与表征学习技术的统称。概念上而言,它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量。 词嵌入的方法包括人工神经网络、对词语 同现矩阵 降维、概率模型以及单词所在上下文的显式表示等。 在底层输入中,使用词嵌入来表示词组的方法极大提升了NLP中语法分析器和文本情感分析等的效果。

                                               

语义化

语义化 是前端开发里面的一个专用术语,其优点在於标签语义化有助于构架良好的html结构,有利于搜索引擎的建立索引、抓取;另外,亦有利于页面在不同的设备上显示尽可能相同;此外,亦有利于构建清晰的机构,有利于团队的开发、维护。