<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>寂静的深海 &#187; 思考</title>
	<atom:link href="http://www.deepseath.com/?feed=rss2&#038;tag=%E6%80%9D%E8%80%83" rel="self" type="application/rss+xml" />
	<link>http://www.deepseath.com</link>
	<description></description>
	<lastBuildDate>Mon, 29 Jan 2024 09:55:11 +0000</lastBuildDate>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.2.1</generator>
		<item>
		<title>文本内容的自动分类的一个算法思考</title>
		<link>http://www.deepseath.com/?p=860</link>
		<comments>http://www.deepseath.com/?p=860#comments</comments>
		<pubDate>Mon, 20 Jun 2011 05:13:12 +0000</pubDate>
		<dc:creator>Deepseath</dc:creator>
				<category><![CDATA[日积月累]]></category>
		<category><![CDATA[分词]]></category>
		<category><![CDATA[思考]]></category>
		<category><![CDATA[算法]]></category>

		<guid isPermaLink="false">http://www.deepseath.com/?p=860</guid>
		<description><![CDATA[将一段文本内容进行一个自动分类处理，根据内容进行对应的自动化分类处理。 这个操作要涉及到分词技术，不在这个算法考虑内，这个算法只去考虑一个最终的处理方式，同时分类的级别也限定为两级。 首先应该有一个分类词汇的集合，每个词汇与分类有一个唯一的对应关系（A），利用tree形式表示就是： &#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8211; &#8211;wordid &#124; categoryid &#124; categoryrootid&#8211; &#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8211; 词汇1 &#124; 分类1 &#124; 顶级分类1 词汇2 &#124; 分类1 &#124; 顶级分类1 词汇3 &#124; 分类2 &#124; 顶级分类2 词汇4 &#124; 分类3 &#124; 顶级分类3 …… …… …… 其次，文本内容经过分词处理成若干的词汇，去除掉无意义的“停用词”（应该有一份词汇列表，比如：的、这、着等等之类的），将词汇做一个高频词的集合（B） 最后，将这个A与B进行一个交集比对，能够得出一个高频的2级分类和1级分类，进一步获得该文本的模糊可用的分类。 这只是一个大概的想法，这个算法要求对于词汇与分类关系对应表（A）非常完善，至少应该可以涵盖绝大多数常见的词汇，否则可能会出现一些误差甚至分类与内容完全风马牛不相干的情况。 效率问题可能不会太为难，一些常见的分词词典大概为30W左右，就MySQL的储存而言完全可以将id与id进行对应，字段类型使用MEDIUMINT应该可以满足，做好索引关系，效率问题应该影响不大。 只是一个想法，暂未具体实现……]]></description>
		<wfw:commentRss>http://www.deepseath.com/?feed=rss2&#038;p=860</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>
